視頻生成是一個迅速發展的研究領域,由于其廣泛的應用范圍而獲得了重大關注。這一領域的一個關鍵方面是長時視頻的生成,這呈現了獨特的挑戰和機遇。本文呈現了對長視頻生成近期進展的第一個綜述,并將其總結為兩個關鍵范式:分而治之或時間自回歸。我們深入探討了每個范式中常用的模型,包括網絡設計和條件技術的方面。此外,我們提供了數據集和評估指標的全面概述和分類,這對于推進長視頻生成研究至關重要。以現有研究的總結結束,我們還討論了這一動態領域中出現的挑戰和未來方向。我們希望這篇綜述能成為長視頻生成領域的研究人員和實踐者的重要參考。
//www.zhuanzhi.ai/paper/6fcdf09712b06f301551fccf2dc693f8
計算機視覺和人工智能領域經歷了變革性的增長,特別是在視頻生成領域。最近,開發出能夠產生高質量和逼真視頻序列的算法激增。值得注意的是,長視頻的生成,以其延長的持續時間和復雜的內容為特征,為社區提出了新的挑戰并激發了新的研究方向。
盡管如此,關于長視頻生成的研究仍存在差距。當前研究中的一個缺口是缺乏長視頻的標準定義。長短視頻之間的區別通常依賴于不同工作中的相對度量,如幀數(例如,512,1024或3376幀)或持續時間(例如,3、5分鐘),與較短視頻(例如,30、48或64幀)相比。考慮到研究標準的多樣性,我們在圖1中總結了現有研究中聲稱的長視頻生成的視頻長度,基于此我們提出了長視頻的定義。具體而言,如果視頻的持續時間超過10秒,假設標準幀率為10fps,或者等價地,如果視頻包含超過100幀,則將視頻分類為“長”視頻。這一定義旨在為各種研究背景中長視頻的識別提供一個明確的基準。
根據這一定義,長視頻長度已取得顯著進展。Yin等人(2023)提出了一種分而治之的擴散結構,專門針對長視頻進行訓練,以消除推理和訓練之間的差距,成功生成長達1024幀的視頻。Zhuang等人(2024)利用大型語言模型(LLM)的強大能力,將輸入文本擴展為腳本,以指導生成分鐘級長視頻。最近,Sora(OpenAI,2024)實現了高保真且無縫生成長達一分鐘的長視頻,特色包括多分辨率和鏡頭轉換等高質量效果。此外,許多杰出的研究在現有視頻生成模型上引入了新的結構和思想,為長視頻生成鋪平了道路。
即便如此,長視頻的生成仍面臨諸多挑戰。其核心是,長視頻的固有多維復雜性對處理和生成的硬件資源提出了巨大的需求,導致訓練和生成成本在時間和資源上的顯著增加。這提出了在現有資源約束下生成長視頻的挑戰。此外,長視頻數據集的稀缺性未能滿足訓練要求,阻止研究人員直接獲得支持長視頻模型生成的最優參數。在這種情況下,當生成的視頻長度超過某些閾值時,難以保持長視頻生成的時間一致性、連續性和多樣性。此外,當前研究表面上出現了幾種偏離現實世界既定物理定律的現象,提出了尚未被現有方法理解或直接操縱的未預見挑戰。因此,長視頻生成研究仍處于早期階段,有許多挑戰待解決,需要進一步的探索和發展。 在這項綜述中,我們對長視頻生成的現有研究進行了全面調查,旨在提供當前發展狀態的清晰概述,并為其未來進展做出貢獻。本文其余部分的組織概述在圖2中。最初,我們在第1節中定義了長視頻持續時間。第2節討論了四種不同類型的視頻生成模型和控制信號。根據第1節和第2節,我們在第3.1節和第3.2節中分別介紹了簡化長視頻生成任務的兩種常見范式:分而治之和時間自回歸。第4節和第5節討論了視頻質量改進和硬件要求。最后,本文以長視頻生成的總結和對新興趨勢及機會的討論結束。
我們詳細介紹了四種流行的視頻生成模型,包括擴散模型、自回歸模型、生成對抗網絡(GAN)和掩碼建模。 擴散模型用于視頻生成,采用了傳統擴散技術的迭代細化過程,這些技術最初是為靜態圖像設計的(Ho等,2020),適應了視頻的動態領域。這些模型的核心是從一系列隨機噪聲開始,通過一系列步驟逐步去噪,以生成一個連貫的視頻序列。每一步都由學習到的梯度指導,這些梯度能夠基于單個幀的空間內容及連續幀之間的時間關系預測性地去噪。這種方法允許生成的視頻不僅每一幀在視覺上與其前序幀一致,而且還有助于整個序列的流暢性。 在視頻生成中,空間自回歸模型(Alex Graves,2013)采用了一種獨特的方法,通過基于補丁的方法合成內容,每個補丁的創建依賴于與之前生成的補丁的空間關系。這個過程類似于遞歸算法,一次生成一個補丁。因此,它一幀一幀地構建視頻,直至完成。在這個框架內,補丁之間的空間關系至關重要,因為每個后續補丁必須與其鄰居無縫對齊,以確保整個幀在視覺上的連貫性。這種方法利用了視頻內容中固有的空間依賴性,確保視頻在時間上進展時,每一幀都與其前序幀保持一致和連續,不僅僅是在時間上,也在空間上。 GAN(生成對抗網絡)(Creswell等,2020)在使用GAN進行視頻生成的過程中,從生成器開始,將簡單的噪聲模式轉換為一系列視頻幀。這個本質上隨機的噪聲作為視頻制作的初始空白狀態。通過神經網絡的層,生成器逐漸將這個噪聲塑造成看起來像視頻幀的圖像,確保每一幀邏輯上緊跟上一幀,創造平滑的動作和可信的敘述。 這種從噪聲到視頻的演變通過來自鑒別器的反饋進行精煉,鑒別器是一個判斷生成的視頻看起來是真實還是假的組件。生成器從這個判斷中學習,隨著時間的推移提高其產生更逼真視頻的能力。最終目標是生成的視頻與真實視頻無法區分,并展示自然的動作和過渡。 掩碼建模在視頻生成中,掩碼建模利用了選擇性遮蓋視頻幀部分區域以增強模型學習過程的概念。這種技術通過在視頻的某些段落應用掩碼開始,有效地在訓練期間將它們隱藏起來。模型隨后學習基于可見的上下文和視頻的時間流動來預測這些遮蓋的部分。這個過程不僅迫使模型理解視頻內容的基本結構和動態,還提高了其生成連貫和連續視頻序列的能力。通過在部分可見數據上進行迭代訓練,模型變得擅長填補缺失的信息,確保生成的視頻保持場景和動作的自然進展。 長視頻生成范式
在長視頻生成的領域中,有限的計算資源的挑戰以及現有模型直接生成顯著持續時間視頻的能力不足,導致提出了兩個不同的范式:分而治之和時間自回歸,如圖3所示。這些范式旨在將長視頻生成的復雜任務解構為更易管理的過程,專注于創建單個幀或短片段,這些片段可以邏輯上組裝以完成長視頻的生成。 分而治之范式首先通過識別概述主要敘事的關鍵幀開始,然后生成介于關鍵幀之間的幀,以編織出一個連貫的長視頻。另一方面,時間自回歸范式,也簡稱為自回歸,采用序列方法基于先前條件生成短視頻段。這一范式旨在確保片段之間的流暢過渡,從而實現連續的長視頻敘述。與分而治之采取層次化方法通過區分故事線關鍵幀和補充填充幀不同,時間自回歸范式放棄了層次結構,轉而專注于直接生成由前序幀信息指導的詳細片段。 在這一部分,討論集中在兩個范式上,考察當前研究如何策略性地將長視頻生成任務簡化為更小、更易管理的任務。此外,它還突出了現有模型是如何被用于生成的,這些輸出隨后被組裝成完整的視頻敘述。
結論與未來方向
本文提供了長視頻生成領域最新研究進展的全面回顧。我們系統地回顧了四種視頻生成模型,并深入探討了基于這些模型生成長視頻的范式,將它們歸類為兩大類型:分而治之和自回歸。此外,我們的工作包括了長視頻生成質量特性的綜合總結。為旨在增強這些質量的現有研究提供了詳細解釋。還討論了聚焦于資源需求解決方案的研究。為了進一步推進該領域,我們識別了幾個未來發展的有希望方向。 數據資源擴展現有方法面臨著在訓練長視頻生成模型時由于長視頻數據集資源不足的挑戰,這些數據集未能滿足通過訓練數據獲得最優模型參數的要求。因此,這導致了如長視頻生成不連貫和內容重復等問題。為了解決這一問題,Gu等人(2023)提出了一種使用大型語言模型并轉換現有視頻內容以擴展數據集的方法,有效解決了數據稀缺問題。未來的研究可以探索更有效的方法來豐富長視頻數據集。 統一生成方法的開發長視頻生成的現有范式被總結為兩大類:分而治之和自回歸。雖然它們能夠利用現有模型生成長視頻,但每種方法都有其缺點。具體而言,分而治之受制于長視頻訓練數據集的稀缺性,需要顯著的生成時間,面臨在長時間跨度上預測關鍵幀的挑戰,且關鍵幀的質量顯著影響填充幀的質量。自回歸傾向于累積錯誤,并在多次推斷后遭受內容退化。總體而言,每種范式都有其優勢和弱點。未來的研究可能旨在開發一種高質量的統一范式,整合兩種范式的優勢以解決它們各自的局限性。 具有靈活長度和寬高比的生成當前的研究主要側重于訓練和創建具有預定尺寸的長視頻內容。然而,對多樣化視頻內容和模擬現實世界的日益增長的需求,要求生成具有可變長度和寬高比的視頻。Sora(OpenAI,2024)和FiT(Lu等人,2024)在這一領域取得了進展,Sora實現了靈活視頻大小的生成,FiT在圖像生成的兩個維度上展示了適應性。未來的研究可能會強調改善視頻生成的靈活性,旨在提高生成模型在現實世界設置中的適用性,并進一步激發視頻內容利用的創新。 超長視頻的生成在圖1中描述的調查中,現有研究中長視頻的最長持續時間為1小時(Skorokhodov等人,2022)。然而,在現實生活中,如電影和駕駛模擬中,視頻持續時間通常為90分鐘甚至更長。我們將這些稱為“超長視頻”。因此,未來的研究可以集中于生成超長視頻,并解決隨著持續時間延長而出現的視角轉換、角色和場景發展以及動作和情節豐富化的挑戰。 增強的可控性和現實世界模擬在長視頻生成中,當前模型在生成過程中和內部操作像黑盒一樣,使得理解錯誤的原因(如違反物理定律的錯誤,由Sora(OpenAI,2024)展示)變得具有挑戰性。現有解決方案缺乏對問題起源的洞察以及直觀、可控的補救措施。因此,需要新的方法和技術來增強我們對生成模型的理解和控制,使它們更適合于現實世界的應用。
本文深入探討了當前頂尖的人工智能技術,即生成式人工智能(Generative AI)和大型語言模型(LLMs),如何重塑視頻技術領域,包括視頻生成、理解和流媒體。文章強調了這些技術在制作高度逼真視頻中的創新應用,這是在現實世界動態和數字創造之間架起橋梁的一大飛躍。研究還深入探討了LLMs在視頻理解方面的高級能力,展示了它們在從視覺內容中提取有意義信息方面的有效性,從而增強了我們與視頻的互動。在視頻流媒體領域,本文討論了LLMs如何有助于更高效和以用戶為中心的流媒體體驗,適應內容交付以滿足個別觀眾偏好。這篇全面的綜述貫穿了當前的成就、持續的挑戰和將生成式AI和LLMs應用于視頻相關任務的未來可能性,強調了這些技術為推動視頻技術領域的進步——包括多媒體、網絡和人工智能社區——所持有的巨大潛力。
影響聲明—本文通過研究生成式人工智能和大型語言模型(LLMs)在視頻生成、理解和流媒體中的集成,為視頻技術領域做出了貢獻。對這些技術的探索提供了它們在增強視頻內容的真實性和互動性方面的潛力和局限性的基礎理解。LLMs在視頻理解方面的探索為可訪問性和互動的進步奠定了基礎,有望提高教育工具的效能、改進用戶界面和推進視頻分析應用。此外,文章強調了LLMs在優化視頻流媒體服務中的作用,導致更個性化和帶寬高效的平臺。這可能會顯著惠及娛樂行業,提供適應個人偏好的自適應流媒體解決方案。通過識別關鍵挑戰和未來研究方向,文章指導了將AI與視頻技術融合的持續努力,同時提高了人們對潛在倫理問題的認識。其影響力超越了學術界,鼓勵在視頻技術中負責任地發展AI和制定政策,平衡技術進步與倫理考量。
近年來,由于視頻相關技術的激動人心的進步,視頻內容的創建、分析和傳遞都經歷了重大突破。學術界和工業界已共同推動視頻處理領域可能性的極限,從創建逼真的視頻到理解復雜的視覺環境以及優化視頻流媒體以改善用戶體驗。整合生成式AI和大型語言模型(LLM)可以在視頻相關領域開辟激動人心的可能性。 隨著創造逼真且上下文一致的視頻的能力,視頻創作已成為一個引人入勝的研究領域。研究人員已在利用深度學習方法如生成對抗網絡(GANs)制作揭示細節且捕捉現實世界動態本質的電影剪輯方面取得了重大進展。然而,如長期視頻合成一致性和對生成內容的精細控制等挑戰仍在探索中。
視頻理解方面也有類似的發展,該領域涉及從視頻剪輯中提取重要信息。傳統技術依賴于手工創建的特征和視頻動態的顯式建模。最近在語言和視覺方面的進步取得了顯著進展。像OpenAI的GPT等預訓練的基于變換器的架構在處理和生成文本數據方面展示了令人印象深刻的才能。這些LLM對于視頻理解任務,如字幕、動作識別和時間定位,具有巨大的潛力。
此外,由****于對高質量、高分辨率和低延遲視頻服務的需求日益增加,改善視頻傳遞已變得越來越重要且具有挑戰性。帶寬限制、網絡抖動和不同用戶偏好顯著阻礙了無縫和沉浸式的流媒體體驗。通過提供感知上下文的視頻分發、實時視頻質量改進和根據用戶偏好的自適應流媒體,LLM提供了一個克服這些困難的激動人心的方法。
鑒于這些進展,本研究徹底分析了生成式AI和LLM在生成、理解和流式傳輸視頻方面的潛力。我們回顧了現有工作,試圖回答以下問題: ? 提出了哪些技術,并正在徹底改變上述視頻研究領域? ? 為了推動上述視頻服務中生成式AI和LLM方法的使用,還有哪些技術挑戰需要解決? ? 由于采用生成式AI和LLM方法,引發了哪些獨特的關注? 我們希望吸引多媒體、網絡和人工智能社區的關注,以鼓勵對這一迷人且迅速發展的領域的未來研究。
我們設想生成式AI和大型語言模型(LLM)在視頻的整個生命周期中發揮關鍵作用,從生成、理解到流媒體。該框架跨越了三個主要的計算機科學社區,即人工智能、多媒體和網絡。人工智能社區正在見證前所未有的發展速度,從2021年到2022年僅用了大約一年的時間就從能夠進行文本到圖像生成的模型發展到能夠進行文本到視頻生成的模型。現在甚至有演示展示了僅使用提示就能創建3D視頻的能力。因此,我們可以想象生成式AI將對視頻生成行業變得更為重要,超越甚至完全替代傳統的生成方法。視頻理解在許多情況下都很有用,例如場景分割、活動監控、事件檢測和視頻字幕,這是一個獲得越來越多關注的新興方向。自2023年以來,像GPT-4和Video-ChatGPT [8]這樣的最先進產品也顯著提升了LLM理解圖像和視頻等多模態輸入的能力。就視頻流媒體而言,LLM還有改進流媒體管道幾個關鍵步驟的有趣潛力。例如,一個理解能力改進的模型可以把握視頻場景的語義意義,并通過相應地改變編碼率來優化傳輸。此外,如點云這樣在XR游戲中廣泛使用的3D視頻流媒體,可以從LLM對周圍環境的理解中受益,預測用戶下一刻的視野范圍(FoV)來進行內容預取。
A. 主要組成部分 生成式AI和LLM之間的協同作用已在視頻生成領域開辟了新的前沿,打造與現實幾乎無法區分的視覺效果。這些技術共同豐富了數字景觀,創造了創新內容如下(第IV-A節): ? 生成對抗網絡(GANs)利用生成網絡和判別網絡之間的創造性對抗過程來理解和復制復雜模式,產生逼真的視頻樣本。 ? 變分自編碼器(VAEs)生成連貫的視頻序列,提供了一個結構化的概率框架,用于無縫地融合敘事上合理的幀。 ? 自回歸模型創建的序列中,每個視頻幀都邏輯上從上一個幀繼承,確保敘事和視覺的連續性,吸引觀眾。 ? 擴散模型將復雜的文本敘述轉換為詳細和高分辨率的視頻,推動文本到視頻合成的界限。 接下來,LLM通過提供富有情境的解釋和描述來增強視頻理解,促進更深入的視頻內容參與(第IV-B節): ? 視頻字幕使用LLM生成富有洞察力和準確的描述,以自然語言捕捉視覺內容的本質,使視頻更易于搜索和訪問。 ? 視頻問答利用LLM的情境理解能力處理復雜的觀眾詢問,提供增值且深入的觀看體驗的回應。 ? 視頻檢索和分割由LLM革新,它們解析和分類視頻內容為可理解的段落,簡化了龐大視頻庫的可搜索性和導航性。 最后,LLM可以通過優化帶寬使用、個性化內容交付和增強觀眾互動等方式重新定義流媒體景觀(第IV-C節): ? 帶寬預測通過分析過去和現在的網絡數據的LLM進行改進,預測未來需求以主動分配資源,從而確保流暢的流媒體。 ? 視點預測通過LLM對內容和用戶行為的理解增強,預測視頻中的下一個焦點區域,提供量身定制且沉浸式的觀看體驗。 ? 視頻推薦和資源分配通過LLM的分析能力得到提升,將觀眾偏好與內容匹配并管理網絡資源,提供定制化且高效的流媒體服務。
近來,持續圖學習在非靜態環境下處理多樣的圖結構數據任務中被越來越多地采用。盡管其學習能力充滿希望,當前關于持續圖學習的研究主要集中在緩解災難性遺忘問題,而忽視了持續性能改進。為了彌補這一差距,本文旨在提供一個關于持續圖學習最近努力的全面綜述。具體而言,我們從克服災難性遺忘的角度引入了一個新的持續圖學習分類法。此外,我們系統地分析了在持續提高性能中應用這些持續圖學習方法的挑戰,然后討論可能的解決方案。最后,我們提出了與持續圖學習發展相關的開放問題和未來方向,并討論它們如何影響持續性能改進。隨著深度學習在生活各領域的成功應用,社區開始渴望更強大的通用人工智能。盡管具有前景的潛力,基于神經網絡的持續學習面臨著一個嚴重的遺忘問題:在新任務上的學習通常會導致舊任務上性能的急劇下降,這被稱為災難性遺忘(CF)[95]。持續學習(CL)[46, 122] 被認為是克服這一挑戰的有希望的方式。CL 被視為智能代理逐步獲取、更新、積累并利用知識以持續改善其在任務上性能的學習能力[46]。為了緩解災難性遺忘問題,已經提出了許多CL策略,包括重放方法、正則化方法和參數隔離方法[27]。這些策略在智能代理的可塑性和穩定性之間尋找平衡,并減輕了災難性遺忘的問題。然而,當前的CL僅考慮單個數據樣本,并忽略了它們之間普遍存在的聯系。此外,克服CF僅代表著實現持續性能改進(CPI)的一條必不可少的路徑,而不是CL的終點。圖,也稱為網絡,是一種描述和分析具有交互作用實體的通用數據表示。圖已被廣泛采用于模擬不同應用中不同類型的關系,從生物分子到社會網絡。一方面,許多數據自然以圖的形式存在,如引文網絡、社交網絡和交易網絡。另一方面,即使那些看似未連接的數據也可以人為地構建成圖,如文本中的依賴圖、圖像中的特征圖和代碼中的調用圖。最近,圖學習已成為AI和機器學習中一個有前景的領域,由于其在學習實體間錯綜復雜的關系及相應的網絡結構方面的優勢。
然而,圖學習也受到了災難性遺忘現象的困擾。將持續學習與圖學習整合顯然也是緩解災難性遺忘的流行解決方案。持續圖學習(CGL)的整合稱為持續圖學習。盡管CGL具有潛力,但由于歐幾里得數據與圖之間的結構差異,一般CL與CGL之間存在顯著或復雜的差異,包括模型、任務設置和方法。此外,CL和CGL主要關注克服災難性遺忘,而忽視了持續性能改進。盡管關于CGL的研究數量在增加,但關于CGL的綜述很少。為了彌補這一差距,本文旨在提供一個關于CGL研究努力的全面綜述,特別是討論CGL方法如何實現持續性能改進。本綜述與現有綜述的不同之處。由于CGL與持續學習和圖學習高度相關,兩個領域都有許多綜述。表1將相關綜述歸類為CL、圖學習和CGL。特別是,關于持續學習的綜述大多關注(i)特定領域,如自然語言處理(NLP)[11]、計算機視覺(CV)[97]、機器人學[71]和自主系統[109];(ii)特定任務,如分類[27, 88];以及(iii)模型,如神經網絡[8, 46, 93]。然而,它們都只從孤立的角度而非綜合角度考慮數據。此外,它們過分強調緩解災難性遺忘,而忽視了持續性能改進,這是持續學習的最終目標。關于圖學習的綜述主要關注特定技術,包括圖表示學習[12, 24, 43, 48, 49]、圖神經網絡[138, 170]和圖深度學習[9, 41, 164]。此外,這些研究大多數通常考慮樣本級別的連接數據,而忽略了特征級別和任務級別的連接。另外,它們只關注靜態圖而忽略了在動態圖上的持續學習。盡管有幾項綜述考慮了圖的動態性質,包括動態圖學習[171]、動態圖表示學習[10, 62, 145]和動態圖神經網絡[116],它們主要考慮模型是否適應新數據,而忽略了災難性遺忘問題,從而完全排除了CL。據我們所知,只有兩篇綜述全面整合了持續學習和圖學習。特別是,[35] 回顧了CGL的研究進展、潛在應用和挑戰,而 [154] 則分類了克服CGL中災難性遺忘的方法。盡管它們明確考慮了持續學習中數據之間的聯系并專注于CGL,但它們沒有構建一個全面的視角,并且未能徹底闡述CL和CGL之間的關系和差異。此外,它們主要關注緩解災難性遺忘,而忽略了持續性能改進。
貢獻。本綜述總結了CGL領域的最新研究,并討論了當前方法是否以及如何實現持續性能改進。具體來說,我們的主要貢獻如下所述:
圖1展示了本文的組織結構。第2節介紹了CL和圖學習的基礎知識。第3節提出了CGL的概述,包括形式化、動機以及克服災難性遺忘的CGL方法的新分類法。具體來說,它從特定維度比較了與CGL相關的領域。第4至第7節根據提出的分類法總結了CGL的最近進展。在每一個類別中,都調查了主要挑戰及其相應的解決方案。此外,還從知識增強和優化控制的角度討論了這些方法如何實現持續性能改進。第8節總結了現有CLG研究中使用的實際應用和數據集。此后,第9節討論了開放問題和未來方向。最后,第10節總結了本文。
持續圖學習分類法持續圖學習本質上是持續學習的一個子領域,因此,持續圖學習的目標與常規持續學習相同:通過增量學習實現模型的持續性能改進。然而,由于圖中節點之間的相互依賴性,持續圖學習在方法上比常規持續學習更為復雜和多樣化。因此,我們提出了當前持續圖學習方法的一個新分類法,該分類法分為四個類別:基于重放的方法、基于正則化的方法、基于架構的方法和基于表示的方法,如圖3所示。所提出的分類法主要關注那些明確聲稱能夠克服災難性遺忘的方法,因為當前的工作很少涉及持續性能改進。然而,我們從知識的角度討論了災難性遺忘的根本原因和持續性能改進的關鍵,并進一步討論這些方法是否以及如何實現持續性能改進。從知識的角度看,災難性遺忘的根本原因是新知識對現有知識的覆蓋。假設某一時期的知識是有限的,并且可以在持續學習的設置中學到,那么持續學習的目標就是學習所有知識并在特定任務上實現持續性能改進。基于這種考慮,持續性能改進等同于持續獲取新知識或對現有知識的補充。這通常可以通過兩種方式實現:知識增強和優化控制。知識增強指的是后續任務的知識可以增強先前任務的知識。例如,人們在低年級學習四則運算,并使用它們來解決現實世界中的問題。然而,他們不使用變量來代表數字,因此在理解對象之間的數量關系時容易犯錯。在他們高年級學習變量和方程式后,他們將使用變量方程來理解和建模對象之間的數量關系,這給他們犯錯的機會更少。在這個例子中,變量和方程是對基本四則運算的增強。知識增強可以通過學習正樣本或負樣本來實現。優化控制指的是控制學習過程。如果學習過程可以用完成度來量化,完全學習肯定優于不完全學習。類比地,那些在課堂上認真聽講并完成所有作業的學生通常會比那些在課堂上分心并留下空白作業的學生表現得更好。在本文中,我們遵循上述考慮來討論和分析當前持續圖學習方法是否以及如何實現持續性能改進。
基于重放的方法利用從先前任務中學到的知識,與當前數據一起進行聯合訓練,以避免在學習新任務時發生災難性遺忘。基于重放方法的關鍵是獲取從先前任務中學到的知識,這通常通過抽樣或生成模型來獲得。圖4總結了基于重放的方法。
基于正則化的方法通過顯式考慮拓撲結構并向損失函數添加相應的正則化項來平衡舊任務和新任務的學習,以此來規范梯度方向,從而限制對先前任務至關重要的參數的劇烈變化,以克服災難性遺忘。正則化項通常有兩種方式:約束和蒸餾。圖5總結了基于正則化的方法。
基于架構的方法通過特定架構為任務分配任務特定的參數或網絡(部分共享或不共享),以避免任務之間的干擾。這些架構可以是固定的或動態的,如圖6所示。
由于節點之間的相互依賴性以及任務間邊緣的存在,新的增量圖將會影響先前的圖,而且先前任務的知識也可以傳遞給后續任務。這種知識難以顯式地納入持續圖學習,但可以隱式地編碼在節點嵌入中,我們將此稱為基于表示的方法。其基本原理是,現有的節點嵌入已經包含了下游任務所需的所有必要信息,而通過這種方法獲得的嵌入等同于弱化的聯合訓練。一般來說,基于表示的方法可以總結為分離和傳輸,如圖7所示。
結論 由于圖在現實世界中的普遍存在和動態性質,由圖神經網絡(GNNs)代表的圖模型已在各個領域得到廣泛應用。持續圖學習是一種新興的學習范式,旨在持續學習設置中進行圖學習任務,并實現持續性能改進。在這篇綜述中,我們提供了對持續圖學習近期研究的全面回顧。我們提出了一種新的分類法,用于總結克服災難性遺忘的持續圖學習方法。此外,對于每個類別,我們簡要闡明了關鍵問題,詳細描述了當前研究中的相應實踐,并討論了實現持續性能改進的可能解決方案。進一步地,我們還提出了一些與持續性能改進相關的開放問題,并建議了相應的有前景的研究方向。我們希望這篇綜述能幫助讀者理解持續圖學習的最近進展,并對這個有前景的領域的未來發展提供一些啟示。
本文提供了對多模態基礎模型的分類和演變的全面綜述,這些模型展示了視覺和視覺-語言能力,重點關注從專家模型到通用助手的轉變。研究范圍涵蓋了五個核心主題,分為兩類。(i) 我們從對既定研究領域的調查開始:為特定目的預訓練的多模態基礎模型,包括兩個主題 - 學習視覺基礎架構的方法,用于視覺理解和文本到圖像生成。(ii) 然后,我們介紹了探索性、開放性研究領域的最新進展:旨在擔任通用助手角色的多模態基礎模型,包括三個主題 - 由大型語言模型(LLMs)啟發的統一視覺模型,多模態LLMs的端到端訓練,以及將多模態工具與LLMs鏈接。本文的目標讀者是計算機視覺和視覺-語言多模態社區的研究人員、研究生和專業人士,他們渴望了解多模態基礎模型的基礎知識和最新進展。
視覺是人類和許多生物感知和與世界互動的主要渠道之一。人工智能(AI)的核心愿望之一是開發能夠模仿這種能力的AI智能體,以有效地感知和生成視覺信號,從而推理和與視覺世界互動。例如,識別場景中的對象和動作,以及為交流創建素描和圖片。建立具有視覺能力的基礎模型是一個旨在實現此目標的普遍研究領域。
在過去的十年中,AI領域在模型的開發中經歷了豐碩的軌跡。我們將它們分為圖1.1所示的四個類別。這個分類可以在AI的不同領域中共享,包括語言、視覺和多模態。我們首先使用自然語言處理中的語言模型來說明演變過程。(i)在早期,為各個數據集和任務開發了特定任務的模型,通常是從頭開始訓練的。(ii)通過大規模的預訓練,語言模型在許多已建立的語言理解和生成任務上實現了最先進的性能,例如BERT(Devlin等,2019)、RoBERTa(Liu等,2019)、T5(Raffel等,2020)、DeBERTa(He等,2021)和GPT-2(Radford等,2019)。這些預訓練的模型為下游任務適應提供了基礎。(iii)由GPT-3(Brown等,2020)舉例,大型語言模型(LLMs)將各種語言理解和生成任務統一到一個模型中。隨著網絡規模的訓練和統一,出現了一些新的能力,如上下文學習和思維鏈。(iv)伴隨著人工智能對齊的最新進展,LLMs開始扮演通用助手的角色,遵循人類的意圖,完成廣泛的語言任務,例如ChatGPT(OpenAI,2022)和GPT-4(OpenAI,2023a)。這些助手展示了有趣的能力,如交互和工具使用,并為開發通用AI智能體奠定了基礎。重要的是要注意,最新一代的基礎模型在提供額外功能的同時,也借鑒了其早期版本的顯著特性。
**受到NLP中LLMs的巨大成功的啟發,計算機視覺和視覺-語言社區的研究人員自然會問:ChatGPT/GPT-4在視覺、視覺-語言和多模態模型方面的對等物是什么?**毫無疑問,自從BERT誕生以來,視覺預訓練和視覺-語言預訓練(VLP)越來越受到關注,并已成為視覺的主流學習范式,承諾學習通用的可遷移的視覺和視覺-語言表示,或生成高度可能的圖像。可以說,它們可以被視為多模態基礎模型的早期生成,就像BERT/GPT-2對語言領域一樣。雖然建立像ChatGPT這樣的語言通用助手的路線圖很清晰,但研究社區越來越需要探索建立計算機視覺的對等物:通用視覺助手的可行解決方案。總的來說,建立通用智能體一直是AI的長期目標。具有新興屬性的LLMs已顯著降低了為語言任務建立此類智能體的成本。同樣,我們預見到視覺模型將展現出新的能力,例如遵循由各種視覺提示組成的指令,如用戶上傳的圖像、人類繪制的點擊、素描和遮罩,除了文本提示。這樣強大的零樣本視覺任務組成能力可以顯著降低建立AI智能體的成本。
在這篇文章中,我們將多模態基礎模型的范圍限制在視覺和視覺-語言領域。相關主題的最新綜述論文包括:(i) 圖像理解模型,如自監督學習(Jaiswal等,2020;Jing和Tian,2020;Ozbulak等,2023),切分任何東西(SAM)(Zhang等,2023a,c);(ii) 圖像生成模型(Zhang等,2023b;Zhou和Shimada,2023);以及(iii) 視覺-語言預訓練(VLP)。現有的VLP綜述論文涵蓋了在預訓練時代之前,針對特定VL問題的VLP方法,圖像-文本任務,核心視覺任務,和/或視頻-文本任務(Zhang等,2020;Du等,2022;Li等,2022c;Ruan和Jin,2022;Chen等,2022a;Gan等,2022;Zhang等,2023g)。兩篇最新的綜述論文討論了視覺模型與LLM的集成(Awais等,2023;Yin等,2022)。
其中,Gan等(2022)是一篇關于VLP的綜述,涵蓋了2022年及之前的CVPR關于視覺和語言研究的最新進展系列教程。本文總結了2023年CVPR關于視覺基礎模型最新進展的教程。與前述主要側重于給定研究主題的文獻回顧的綜述論文不同,本文提出了我們對多模態基礎模型從專家到大型語言模型時代的通用視覺助手的角色轉變的觀點。本綜述論文的貢獻總結如下。
?** 我們提供了一篇全面且及時的現代多模態基礎模型的綜述**,不僅涵蓋了視覺表示學習和圖像生成的成熟模型,還總結了過去6個月由LLM啟發的新興主題,包括統一視覺模型,與LLM的訓練和鏈接。 ? 本文旨在為觀眾提供一種觀點,推崇在開發多模態基礎模型中的一種轉變。在特定視覺問題的偉大建模成功的基礎上,我們正朝著構建能夠按照人類意圖完成廣泛計算機視覺任務的通用助手邁進。我們對這些高級主題進行了深入討論,展示了開發通用視覺助手的潛力。
正如Stanford基礎模型論文(Bommasani等,2021)所闡述的,AI正隨著諸如BERT、GPT家族、CLIP(Radford等,2021)和DALL-E(Ramesh等,2021a)這些模型的興起而經歷一場范式轉變,這些模型經過廣泛的數據訓練,可以適應各種下游任務。他們將這些模型稱為基礎模型,以強調它們在核心上的關鍵性但不完整的特性:研究社區的方法論的同質化和新能力的出現。從技術角度來看,使基礎模型成為可能的是遷移學習,使它們變得強大的是規模。基礎模型的出現主要觀察到在NLP領域,范例包括從BERT到ChatGPT。這一趨勢在近年來獲得了推動,擴展到計算機視覺和其他領域。在NLP中,BERT在2018年底的推出被視為基礎模型時代的開始。BERT的顯著成功迅速激發了計算機視覺社區對自監督學習的興趣,催生了如SimCLR(Chen等,2020a)、MoCo(He等,2020)、BEiT(Bao等,2022)和MAE(He等,2022a)等模型。在同一時期,預訓練的成功也顯著推動了視覺-語言多模態領域達到了前所未有的關注度。
在本文中,我們關注的是多模態基礎模型,這些模型繼承了Stanford論文(Bommasani等,2021)中討論的所有基礎模型的屬性,但側重于具有處理視覺和視覺-語言模態能力的模型。在不斷增長的文獻中,我們基于功能和通用性對多模態基礎模型進行分類,見圖1.2。對于每個類別,我們都展示了一些示例模型,展示了這些多模態基礎模型固有的主要能力。
學習通用視覺表示對于構建視覺基礎模型至關重要,因為預訓練一個強大的視覺主干對所有類型的計算機視覺下游任務都是基礎,這些任務范圍從圖像級別(例如,圖像分類、檢索和字幕)、區域級別(例如,檢測和定位)到像素級別任務(例如,分割)。我們將方法分為三類,取決于用于訓練模型的監督信號類型:
標簽監督。像ImageNet(Krizhevsky等,2012)和ImageNet21K(Ridnik等,2021)這樣的數據集一直受到監督學習的歡迎,更大規模的專有數據集也在工業實驗室中使用(Sun等,2017;Singh等,2022b;Zhai等,2022a)。
語言監督。語言是一種更豐富的監督形式。像CLIP(Radford等,2021)和ALIGN(Jia等,2021)這樣的模型使用來自網絡的數百萬甚至數十億噪聲圖像-文本對上的對比損失進行預訓練。這些模型使得零射擊圖像分類成為可能,并使傳統的計算機視覺(CV)模型執行開放詞匯CV任務。我們提倡在野外進行計算機視覺的概念,并鼓勵未來基礎模型的開發和評估。
僅圖像自監督。這一工作方向旨在從圖像本身中挖掘出監督信號來學習圖像表示,范圍從對比學習(Chen等,2020a;He等,2020)、非對比學習(Grill等,2020;Chen和He,2021;Caron等,2021)到遮蔽圖像建模(Bao等,2022;He等,2022a)。
多模態融合,區域級和像素級預訓練。除了預訓練圖像主干的方法外,我們還將討論允許多模態融合的預訓練方法,例如CoCa(Yu等,2022a)、Flamingo(Alayrac等,2022),區域級和像素級圖像理解,例如開放集對象檢測(例如,GLIP(Li等,2022e))和可提示分割(例如,SAM(Kirillov等,2023))。這些方法通常依賴于預訓練的圖像編碼器或預訓練的圖像-文本編碼器對。
最近,由于大規模圖像-文本數據的出現,已經構建了基礎圖像生成模型。使之成為可能的技術包括向量量化VAE方法(Razavi等,2019)、基于擴散的模型(Dhariwal和Nichol,2021)和自回歸模型。
基于文本的視覺生成。這個研究領域關注的是生成忠實的視覺內容,包括圖像、視頻等,這些內容是以開放式文本描述/提示為條件的。文本到圖像生成發展了生成模型,這些模型合成了忠實于文本提示的高保真度圖像。主要例子包括DALL-E(Ramesh等,2021a)、DALL-E 2(Ramesh等,2022)、Stable Diffusion(Rombach等,2021;sta,2022)、Imagen(Saharia等,2022)和Parti(Yu等,2022b)。基于文本到圖像生成模型的成功,文本到視頻生成模型基于文本提示生成視頻,例如Imagen Video(Ho等,2022)和Make-A-Video(Singer等,2022)。
與人類意圖一致的視覺生成器。這個研究領域關注的是改善預訓練的視覺生成器,以更好地遵循人類意圖。為解決基礎視覺生成器固有的各種挑戰,已經進行了努力。這些包括改善空間可控性(Zhang和Agrawala,2023;Yang等,2023b)、確保更好地遵循文本提示(Black等,2023)、支持靈活的基于文本的編輯(Brooks等
根據自然語言處理(NLP)中的模型發展歷史和分類,我們將圖1.2中的多模態基礎模型分為兩類。? 特定目的的預訓練視覺模型涵蓋了大多數現有的多模態基礎模型,包括視覺理解模型(例如,CLIP(Radford等,2021),SimCLR(Chen等,2020a),BEiT(Bao等,2022),SAM(Kirillov等,2023))和視覺生成模型(例如,Stable Diffusion(Rombach等,2021;sta,2022)),因為它們具有針對特定視覺問題的強大可遷移能力。? 通用助手指的是能夠遵循人類意圖以完成野外各種計算機視覺任務的AI代理。通用助手的含義有兩層面:(i)具有統一架構的通用型,可以完成不同類型問題的任務;以及(ii)容易遵循人類指令,而不是替代人類。為此,已經積極探討了一些研究課題,包括統一視覺建模(Lu等,2022a;Zhang等,2022b;Zou等,2023a),與大型語言模型(LLMs)的訓練和鏈接(Liu等,2023c;Zhu等,2023a;Wu等,2023a;Yang*等,2023)。
? 第1章介紹了多模態基礎模型研究的領域,并展示了從專家模型到通用助手的研究歷史轉變。? 第2章介紹了不同消耗視覺數據的方式,重點關注如何學習一個強大的圖像骨干。? 第3章描述了如何生成與人類意圖一致的視覺數據。? 第4章描述了如何設計統一的視覺模型,具有交互式和可提示的界面,特別是在沒有使用LLMs的情況下。? 第5章描述了如何以端到端的方式訓練LLM,以處理視覺輸入進行理解和推理。? 第6章描述了如何將多模態工具與LLM鏈接,以實現新的功能。? 第7章總結了本文并討論了研究趨勢。
第2至6章是本綜述論文的核心章節。這些章節的結構概述如圖1.2所示。我們首先討論了兩種特定任務的典型多模態基礎模型,包括第2章中的視覺理解和第3章中的視覺生成。由于多模態基礎模型最初是基于圖像骨干/表示學習用于理解任務的,因此我們首先對圖像骨干學習方法的過渡進行了全面回顧,從早期的監督方法發展到最近的語言-圖像對比方法,并將討論擴展到從圖像級別到區域級別和像素級別的圖像表示(第2章)。最近,生成型AI越來越受歡迎,視覺生成基礎模型已經得到了發展。在第3章中,我們討論了大規模預訓練的文本到圖像模型,以及社區如何利用生成基礎模型開發新技術,使它們更好地與人類意圖一致。受到自然語言處理領域最新進展的啟發,LLMs在日常生活中為各種語言任務提供通用助手,計算機視覺社區一直在期望并嘗試構建通用的視覺助手。我們討論了構建通用助手的三種不同方法。受到LLMs的精神啟發,第4章著重于統一不同的視覺理解和生成模型,而無需在建模中明確納入LLMs。相比之下,第5章和第6章側重于采用LLMs構建通用視覺助手,通過在建模中明確增加LLMs來實現。具體來說,第5章描述了端到端訓練方法,第6章專注于無需訓練的方法,將各種視覺模型鏈接到LLMs。
互聯網擁有巨大的視頻庫,每秒鐘都有成千上萬的視頻上傳到YouTube等平臺。這些視頻代表了多模態信息的寶貴資源庫,為理解音頻-視覺-文本關系提供了寶貴的資源。此外,理解長視頻(比如2小時)的內容是一個開放性問題。本文研究了視頻中不同模態(音頻、視覺和文本)之間的錯綜復雜的相互作用,并利用它們的潛力來理解長視頻中的語義細微差別。我的研究探索了從這些模態中組合信息的多種策略,從而在視頻摘要和教學視頻分析方面取得了重大進展。
第一部分介紹了一種通過連貫地重新排列片段來從短片段合成長視頻紋理的方法,同時還考慮了音頻條件。第二部分討論了一種新的技術,用于在自然語言提示的指導下生成長視頻的簡明視覺摘要。此外,我們特別關注于總結教學視頻,利用視聽對齊和任務結構來生成信息摘要。為了進一步豐富對教學視頻的理解第一部分介紹了一種通過連貫地重新排列片段來從短片段合成長視頻紋理的方法,同時還考慮了音頻條件。第二部分討論了一種新的技術,用于在自然語言提示的指導下生成長視頻的簡明視覺摘要。此外,我們特別關注于總結教學視頻,利用視聽對齊和任務結構來生成信息摘要。為了進一步豐富對教學視頻的理解,本文介紹了一種前沿的方法,以促進教學內容中程序步驟的學習和驗證,使模型能夠掌握長而復雜的視頻序列,并確保程序準確性。最后,通過代碼生成探索了大型語言模型的潛力,以回答關于圖像的問題。通過全面的實驗,研究證明了所提出方法的有效性,并通過集成音頻、視覺和文本關系,展望了長視頻語義領域的美好前景。
**本文回顧了在擴散模型在廣泛的生成任務中流行的背景下的文本到圖像的擴散模型。作為一項獨立的工作,本綜述首先簡要介紹基本擴散模型如何用于圖像合成,然后介紹條件或指導如何改善學習。**在此基礎上,綜述了文本條件圖像合成(即文本到圖像)的最新方法。本文進一步總結了文本到圖像生成之外的應用:文本指導的創意生成和文本指導的圖像編輯。除了迄今取得的進展,本文還討論了現有的挑戰和有希望的未來方向。
//www.zhuanzhi.ai/paper/8a64d962c13c8857d5c06bcdc0c43c0a
1. 引言
一幅畫勝過千言萬語。正如一句老話所說,圖像比純文本更能講述故事。當人們閱讀文本故事時,他們可以通過想象在腦海中畫出相關的圖像,這有助于他們理解和享受更多。因此,設計一個從紋理描述生成視覺逼真圖像的自動系統,即文本到圖像任務,是一項非平凡任務,因此可以被視為類人或通用人工智能的一個重要里程碑[1],[2],[3],[4]。隨著深度學習[5]的發展,文本到圖像任務已經成為計算機視覺中最令人印象深刻的應用之一[6]、[7]、[8]、[9]、[10]、[11]、[12]、[13]、[14]、[15]、[16]、[17]、[18]。我們在圖1中總結了文本到圖像生成的代表性工作的時間軸。如圖1所示,AlignDRAW[6]是一項從自然語言生成圖像的開創性工作,但受到了不現實的結果的影響。文本條件GAN[7]是第一個從字符級到像素級的端到端差分架構。不同于基于GAN的方法[7]、[8]、[9]、[10]主要在小規模數據環境下進行,自回歸方法[11]、[12]、[13]、[14]利用大規模數據進行文本到圖像生成,代表性方法包括OpenAI的DALL-E[11]和谷歌的Parti[14]。然而,自回歸特性使得這些方法[11],[12],[13],[14]存在較高的計算成本和序列誤差累積。
最近,擴散模型(DM)出現了成為文本到圖像生成中最先進的新模型的趨勢[15],[16],[17],[18]。基于擴散的文本到圖像合成也在社交媒體上引起了廣泛關注。在過去的一年里,大量關于文本到圖像擴散模型的工作已經出現,但更多的工作預計將在不久的將來出現。相關著作的數量使讀者在沒有全面調研的情況下,了解文本-圖像擴散模型的最新發展越來越具有挑戰性。然而,據我們所知,目前還沒有關于基于擴散的文本到圖像生成的最新進展的綜述工作。相關綜述的一個分支[19],[20],[21],[22]綜述了擴散模型在所有領域的進展,使其局限于對測試到圖像合成任務的有限覆蓋。另一個綜述流[21],[23],[24]專注于文本到圖像任務,但僅限于基于GAN的方法,考慮到擴散模型取代GAN的最近趨勢,這些方法有些過時。本文通過全面介紹基于擴散模型的文本到圖像任務的最新進展,并對其未來方向進行了展望,填補了上述兩個流之間的空白。 **該綜述首先回顧了基于擴散模型的文本到圖像任務的最新進展,因此處于擴散模型和文本到圖像合成的交叉點。**因此,我們將本文的其余部分組織如下。第二節介紹了擴散模型的背景,包括對文本到圖像合成很重要的指導方法。第三部分討論了基于擴散模型的文本生成圖像任務的開創性工作,包括GLIDE[15]、Imagen[16]、Stable diffusion[17]和DALL-E2[18]。第四部分從各個方面進一步論述了后續研究對第三部分開拓性工作的完善。通過總結最近的基準和分析,在第5節中從技術和道德角度進一步評估這些文本到圖像的方法。除了文本到圖像的生成外,還介紹了第六節中的相關任務,包括文本指導的創意生成(如文本到視頻)和文本指導的圖像編輯。回顧了文本到圖像生成之外的各種應用,并討論了挑戰和未來的機會。 2. 開創性的文本到圖像擴散模型
本節介紹基于擴散模型的文本到圖像的前沿框架,根據擴散先驗在哪里進行,可以大致分類,即像素空間或潛空間。第一類方法直接從高維像素級生成圖像,包括GLIDE[15]和Imagen[16]。另一組工作建議首先將圖像壓縮到一個低維空間,然后在這個潛空間上訓練擴散模型。潛空間類的代表性方法有Stable Diffusion[17]、VQ-diffusion[39]和DALL-E 2[18]。 像素空間中的框架
GLIDE:關于DM的第一個T2I工作。本質上,文本到圖像是以文本為條件的圖像合成。因此,將類條件DM中的標簽替換為文本,使采樣生成以文本為條件是很直觀的。正如在2.3節中討論的,引導擴散提高了條件DM中樣本[37]的真實感,其無分類器變體[38]有助于處理自由形式的提示。受此啟發,GLIDE[15]在T2I中采用無分類器指導,將原始類別標簽替換為文本。GLIDE[15]還調查了剪輯指導,但與無分類器指導相比,人類評估人員不太喜歡樣本的照片真實感和標題相似性。作為其框架中的一個重要組件,文本編碼器被設置為一個transformer[40],具有24個殘差塊,寬度為2048(大約1.2B參數)。實驗結果表明,GLIDE[15]在FID和人工評價指標上均優于DALL-E [11]。
Imagen:用預訓練語言模型編碼文本。
繼GLIDE[15]之后,Imagen[16]采用無分類器指導的圖像生成。GLIDE和Imagen的核心區別在于它們對文本編碼器的選擇。具體來說,GLIDE使用成對的圖像-文本數據與擴散先驗一起訓練文本編碼器,而Imagen[16]采用預訓練和凍結的大型語言模型作為文本編碼器。凍結預訓練編碼器的權重有助于離線文本嵌入,這為文本到圖像擴散先驗的在線訓練減少了可忽略不計的計算負擔。此外,文本編碼器可以在圖像-文本數據(如CLIP[41])或純文本語料庫(如BERT [42], GPT[43],[44],[45]和T5[46])上進行預訓練。純文本語料庫明顯大于成對的圖像-文本數據,使這些大型語言模型接觸到分布豐富而廣泛的文本。例如,BERT[42]中使用的純文本語料庫約為20GB, T5[46]中使用的純文本語料庫約為800GB。以不同的T5[46]變體作為文本編碼器,[16]揭示了在Imagen中增加語言模型的大小比擴大擴散模型的大小更能提高圖像保真度和圖文對齊。
隱空間框架
穩定擴散:潛空間的里程碑式研究。在隱空間上訓練擴散模型的代表性框架是穩定擴散,它是隱擴散模型(LDM)[17]的擴展版本。繼Dall-E[11]采用VQ-VAE學習視覺碼本之后,穩定擴散在第一階段使用VQ-GAN[47]進行潛表示。值得注意的是,VQ-GAN通過添加對抗性目標來改進VQ-VAE,以增加合成圖像的自然度。使用預訓練的VAE,穩定擴散逆轉了用噪聲擾動潛空間的前向擴散過程。穩定擴散還引入了交叉注意力,作為各種條件信號(如文本)的通用調節。在[17]上的實驗結果表明,在隱空間上進行擴散建模在降低復雜度和保持細節方面明顯優于在像素空間上進行擴散建模。在VQ-diffusion[39]中,采用先掩碼再替換的擴散策略,也實現了類似的擴散算法。與像素空間方法的發現類似,無分類器指導也顯著改善了隱空間[17]、[48]中的文本到圖像擴散模型。
3. 文本到圖像擴散模型的改進
3.1改進模型架構
關于指導的選擇。在無分類器指導的基礎上,[15]、[57]、[58]等工作也利用CLIP[41]探索了跨模態指導。具體來說,GLIDE[15]發現CLIP-guidance的表現低于無分類器指導的變體。相比之下,另一項修復[59]的工作指出,缺乏大規模的transformer語言模型,使得這些具有CLIP指導的模型難以編碼文本提示和生成具有細節的復雜場景。通過結合大型語言模型和跨模態匹配模型,修復[59]顯著提高了生成圖像的樣本保真度和圖像-文本對齊。通用的圖像合成能力使修復[59]可以在簡單和復雜的場景中生成圖像。 3.2 空間控制示意圖
盡管它們具有前所未有的高圖像保真度和標題相似性,但大多數文本到圖像的DMs,如Imagen[16]和DALL-E2[18],并不提供對空間布局的細粒度控制。為此,SpaText[62]引入了空間文本(ST)表示,可以通過調整SOTA DM的解碼器對其進行微調。具體來說,新的編碼器同時滿足局部ST和現有的全局文本。因此,SpaText[62]的核心在于ST,其中的擴散先驗單獨訓練,以將CLIP中的圖像嵌入轉換為其文本嵌入。在訓練過程中,通過使用CLIP圖像編碼器將分割后的圖像對象作為輸入直接生成ST。并發工作[63]提出通過簡單的草圖圖像實現細粒度的局部控制。他們的方法的核心是一個潛在引導預測器(LGP),這是一個像素級MLP,將噪聲圖像的潛在特征映射到相應的草圖輸入。經過訓練后(請參閱[63]了解更多訓練細節),LGP可以部署到預訓練的文本到圖像DM,而不需要進行微調。
3.3 面向概念控制的文本反轉
文本到圖像生成的先驅工作[15],[16],[17],[18]依靠自然語言來描述生成圖像的內容和風格。然而,在某些情況下,文本不能準確地描述用戶想要的語義,例如生成一個新的主題。為了合成具有特定概念或主題的新場景,[64],[65]引入了一些具有所需概念的參考圖像,然后將參考圖像翻轉為文本描述。具體來說,[64]將幾個參考圖像中的共享概念翻轉到文本(嵌入)空間,即“偽詞”。生成的“偽詞”可用于個性化生成。DreamBooth[65]采用了類似的技術,主要區別在于對預訓練DM模型進行微調(而不是凍結),以保留主題身份的關鍵視覺特征。
3.4 分布外檢索
SOTA文本到圖像模型令人印象深刻的性能是基于這樣的假設:該模型很好地暴露了以訓練風格描述公共實體的文本。然而,當實體很少見,或者期望的風格與訓練風格有很大不同時,這種假設就不成立了。為了緩解分布外性能的顯著下降,多個工作[66]、[67]、[68]、[69]都使用了將外部數據庫作為內存進行檢索的技術。這種技術首先在NLP[70],[71],[72],[73],[74]和最近在基于GAN的圖像合成[75]中獲得了關注,通過將全參數模型轉換為半參數模型。受此啟發,[66]增強了具有檢索的擴散模型。檢索增強擴散模型(RDM)[66]由條件DM和圖像數據庫組成,圖像數據庫被解釋為模型的顯式部分。通過在CLIP中測量距離,為每個查詢查詢k近鄰,即訓練樣本,在外部數據庫中,擴散先驗由具有固定CLIP圖像編碼器的KNN近鄰的更有信息的嵌入來指導,而不是文本嵌入。KNN-diffusion[67]采用了一種基本相似的方法,主要不同之處在于使擴散先驗地附加在文本嵌入上,以提高生成的樣本質量。后續的Re-Imagen[69]也采用了這種做法。與兩階段框架的RDM[66]和KNN-diffusion[67]相比,Re-Imagen[69]采用單階段框架,選擇與潛空間距離不相關的K-NN近鄰。此外,Re-Imagen還允許檢索到的鄰居既是圖像又是文本。如[69]所述,Re-Imagen在基準COCO數據集上的性能比KNN-diffusion有很大的優勢。
基于深度遷移學習的工業監控方法在近年來獲得了大量研究關注,特別是在以故障診斷、軟 測量等為代表的工業監控典型監督任務中。通過挖掘與遷移相似源域的知識來完成對目標域的建模, 這類方法為實際工業場景中變工況等原因導致的跨域監控問題提供了新的思路。本文系統梳理了面 向工業監控典型監督任務的深度遷移學習方法,并將其分為基于模型遷移、基于樣例遷移與基于特 征遷移的工業監控方法。在此基礎上,對不同類方法的基本研究思想、在故障診斷與軟測量任務中 的研究進展進行了詳細闡述。隨后,從實際工業場景的復雜欠數據問題、可遷移性的量化與負遷移 問題、工業過程的動態特性問題等角度,指出了當前基于深度遷移學習的工業監控研究中存在的挑 戰,并對該領域的未來研究方向做出進一步展望。
1. 引言
隨著現代工業不斷向高端化、復雜化趨勢發展,系統運行的安全性、可靠性面臨著更大挑戰 [1~ 3]。作為保障工業安全可靠運行的必要手段,以數據驅動的故障診斷與軟測量為典型代表的工業監 控任務在近年來獲得了大量關注 [4~6]。故障診斷旨在識別出當前系統所發生的故障類型,而軟測量 往往利用過程中較易測得的變量實現對質量變量的回歸建模。其中,質量變量一般指在工業過程中 與產品質量緊密相關的、需加以監控的過程變量,這類變量往往具有獲取成本較高、測量具有一定 延遲等特點 [7]。由于這兩類任務往往基于工業過程歷史運行過程中積累的標注樣本,有監督機器學 習方法目前在這兩類任務中得到了廣泛應用 [8~10]。近十年來,得益于深度學習算法的蓬勃發展與各類工業傳感器的廣泛部署,基于深度學習的方法在工業監控領域大放異彩。例如,基于各類卷積 神經網絡 [11~14]、遞歸神經網絡 [15, 16] 與 Transformer [17] 的方法在工業故障診斷、工業過程軟 測量任務中相較傳統機器學習方法獲得了顯著性能提升。然而,這些方法往往假設訓練數據與測試 數據具有相同的分布 [18]。在實際工業場景中,操作條件改變、給料變化等復雜變工況現象 [19~22] 導致了顯著的訓練與測試數據分布不一致問題。這一問題為傳統深度學習方法的廣泛應用帶來了挑 戰。
近年來,隨著深度遷移學習方法的興起,通過挖掘與遷移相似源域的知識來完成對目標域的建 模,為解決上述問題提供了新的思路 [23]。一般來說,深度遷移學習方法以深度神經網絡為基礎,通 過利用源域中的數據或模型,進一步結合目標域中的有限數據,以完成知識的遷移過程。不同于傳 統基于機器學習的工業監控方法對不同域單獨建模并決策,基于深度遷移學習的工業過程監控方法 往往利用源域中的知識來協助目標域中模型的建立。這一過程本質上模仿了人類可以利用從歷史經 驗中學習到的知識以輕松適應新的場景這一能力。基于此理念,近年來深度遷移學習方法在工業監 控領域中受到了大量關注。在谷歌學術網站1)中分別以 ““deep transfer learning” “fault diagnosis” OR “soft sensor”” 和 ““深度遷移學習” “故障診斷” OR “軟測量”” 作為組合關鍵詞進行中英文文獻 搜索,可以得到相關領域歷年中英文發表文章數量的發展趨勢。如圖1所示,在過去的五年中,本領 域的相關研究經歷了飛速發展,其中,英文文獻數量從 2017 年的 4 篇增長至 2021 年的 990 篇,中 文文獻數量從 0 篇增長至 28 篇,顯示出相關學者對本領域的關注不斷提升。當前,國內外學者針 對基于深度遷移學習的故障診斷與軟測量問題進行了大量的研究,也有一些工作對相關研究進行了 整理與綜述。例如,文獻 [23] 根據傳統遷移學習中的不同任務場景,將遷移學習分為歸納式、直推 式以及無監督的遷移學習。Tan 等人 [24] 根據在深度遷移學習任務中使用的具體方法不同,將深度 遷移學習進一步分為基于樣例、基于映射、基于網絡與基于對抗的方法。在機械設備的故障診斷方 面,目前已有若干前人工作 [25,26]。例如,Li 等人 [27] 對深度遷移學習的分類與工業應用場景進行 了總結與綜述。此外,針對流程工業的軟測量問題,Curreri 等人 [28] 根據遷移學習在不同類型工業 過程中的應用進行了梳理與討論。Maschler 等人 [29] 對深度遷移學習在工業自動化領域的若干研究 進行了簡要回顧,并討論了該類方法在印刷電路組件制造等任務中的應用。總體來看,目前工業領域中的大多數綜述工作主要關注機械設備的故障診斷問題,從深度遷移學習的角度出發對工業監控 中的工業故障診斷與工業過程軟測量領域研究進行梳理總結的文章相對較少。基于此,本文面向工 業監控中的兩種典型有監督任務,即故障診斷與軟測量,對深度遷移學習方法展開了相關綜述。其 中,故障診斷和軟測量任務一方面對提高系統安全性、提升產品質量有重要意義;另一方面其建模 往往基于工業過程歷史運行過程中積累的有監督樣本,屬于工業監控中有監督學習的典型代表。此 外,在這兩個場景中的深度遷移學習相關研究也在近年來獲得了大量學者的研究關注,屬于工業監 控領域的熱門研究方向之一。
本文的結構框架如圖2所示。首先,對基于深度遷移學習的工業監控方法現狀進行介紹。其中, 首先對深度遷移學習進行概述,進而將面向工業監控典型監督任務的深度遷移學習方法分為三個類 別,即基于模型、基于樣例與基于特征遷移的工業監控方法。在每種類別下分別對故障診斷與軟測 量兩種應用場景進行介紹。其次,從跨域工業監控中的復雜欠數據問題、可遷移性的量化與負遷移 問題,以及工業過程的動態特性問題等角度,對當前基于深度遷移學習的工業監控方法所面臨的挑 戰進行了分析。最后對本領域的未來研究方向,包括多源信息融合的跨域工業監控以及語義知識與 數據聯合驅動的跨域工業監控做出進一步展望。
**基于深度遷移學習的工業監控方法總結 **
在本小節中,將基于模型遷移、基于樣例遷移與基于特征遷移的工業監控方法的應用任務、典 型工作、方法特點與適用場景總結于表1中。如表所示,總體來看,基于模型遷移的工業監控方法往 往要求目標域中包含少量標注數據。若源域中包含充足標注數據,即可基于源域工況建立基礎模型; 反之,可利用 ImageNet 預訓練模型或計算仿真等方式實現源域模型的構建。對于樣例遷移類方法, 往往針對源域與目標域均具有標注樣本的情況,通過對源域與目標域數據進行權重學習,從而實現 可遷移樣例的挖掘。此外,樣例遷移學習對域間差異較大或不同域間具有不同故障標簽空間的場景 較為適用。最后,基于特征遷移的工業監控方法相較于其余兩類方法,在近年來獲得了更多的研究 關注。該類方法目前的主流方式是通過利用域差異度量指標或域對抗訓練的方式進行遷移,較適用 于目標域中只有無標注樣本的場景。
行為識別是當前計算機視覺方向中視頻理解領域的重要研究課題。從視頻中準確提取人體動作的特征并識別動作,能為醫療、安防等領域提供重要的信息,是一個十分具有前景的方向。本文從數據驅動的角度出發,全面介紹了行為識別技術的研究發展,對具有代表性的行為識別方法或模型進行了系統闡述。行為識別的數據分為RGB模態數據、深度模態數據、骨骼模態數據以及融合模態數據。首先介紹了行為識別的主要過程和人類行為識別領域不同數據模態的公開數據集;然后根據數據模態分類,回顧了RGB模態、深度模態和骨骼模態下基于傳統手工特征和深度學習的行為識別方法,以及多模態融合分類下RGB模態與深度模態融合的方法和其他模態融合的方法。傳統手工特征法包括基于時空體積和時空興趣點的方法(RGB模態)、基于運動變化和外觀的方法(深度模態)以及基于骨骼特征的方法(骨骼模態)等;深度學習方法主要涉及卷積網絡、圖卷積網絡和混合網絡,重點介紹了其改進點、特點以及模型的創新點。基于不同模態的數據集分類進行不同行為識別技術的對比分析。通過類別內部和類別之間兩個角度對比分析后,得出不同模態的優缺點與適用場景、手工特征法與深度學習法的區別和融合多模態的優勢。最后,總結了行為識別技術當前面臨的問題和挑戰,并基于數據模態的角度提出了未來可行的研究方向和研究重點。 //www.cjig.cn/jig/ch/reader/view_abstract.aspx?file_no=20221101&flag=1
顯著性目標檢測旨在對圖像中最顯著的對象進行檢測和分割,是計算機視覺任務中重要的預處理步驟之一,且在信息檢索、公共安全等領域均有廣泛的應用.本文對近期基于深度學習的顯著性目標檢測模型進行了系統綜述,從檢測粒度的角度出發,綜述了將深度學習引入顯著性目標檢測領域之后的研究成果.首先,從三個方面對顯著性目標檢測方法進行了論述:稀疏檢測方法,密集檢測方法以及弱監督學習下的顯著性目標檢測方法.然后,簡要介紹了用于顯著性目標檢測研究的主流數據集和常用性能評價指標,并對各類主流模型在三個使用最廣泛的數據集上進行了性能比較分析.最后,本文分析了顯著性目標檢測領域目前存在的問題,并對今后可能的研究趨勢進行了展望.
摘要:近年來,在開發更準確、高效的醫學和自然圖像分割機器學習算法方面取得了重大進展。在這篇綜述文章中,我們強調了機器學習算法在醫學成像領域有效和準確分割中的重要作用。我們特別關注幾個關鍵的研究涉及到應用機器學習方法在生物醫學圖像分割。我們回顧了經典的機器學習算法,如馬爾可夫隨機場、k均值聚類、隨機森林等。盡管與深度學習技術相比,這種經典的學習模型往往精度較低,但它們通常更具有樣本效率,結構也更簡單。我們還回顧了不同的深度學習結構,如人工神經網絡(ANNs)、卷積神經網絡(CNNs)和遞歸神經網絡(RNNs),并給出了這些學習模型在過去三年中獲得的分割結果。我們強調每種機器學習范式的成功和局限性。此外,我們還討論了與不同機器學習模型訓練相關的幾個挑戰,并提出了一些解決這些挑戰的啟發方法。
多目標跟蹤(MOT)的問題在于在一個序列中跟蹤不同目標的軌跡,通常是視頻。近年來,隨著深度學習的興起,為這一問題提供解決方案的算法受益于深度模型的表示能力。本文對利用深度學習模型解決單攝像機視頻MOT任務的作品進行了全面的綜述。提出了MOT算法的四個主要步驟,并對深度學習在每個階段的應用進行了深入的回顧。本文還對三種MOTChallenge數據集上的現有工作進行了完整的實驗比較,確定了一些最優的方法之間的相似性,并提出了一些可能的未來研究方向。