盡管人工智能已經取得了令人矚目的成就,但其正向通用人工智能的道路上前進。由OpenAI開發的Sora具備分鐘級的世界模擬能力,可被視為這一發展路徑上的一個里程碑。然而,盡管取得了顯著成功,Sora仍然面臨著需要解決的各種障礙。在本綜述中,我們從Sora在文本生成視頻方面的視角出發,進行文獻的全面回顧,試圖回答一個問題:我們能從Sora中看到什么。具體來說,在介紹了基本的通用算法之后,我們從三個相互垂直的維度對文獻進行了分類:進化生成器、卓越追求和現實全景。隨后,對廣泛使用的數據集和評估指標進行了詳細整理。最后但同樣重要的是,我們識別了該領域的若干挑戰和開放性問題,并提出了未來研究和發展的潛在方向。本綜述中的文本生成視頻研究的完整列表可在以下鏈接找到:
//github.com/soraw-ai/Awesome-Text-to-Video-Generation
近年來,AI生成內容(AIGC)領域的快速進展標志著實現通用人工智能(AGI)邁出了關鍵的一步,特別是在OpenAI于2023年初推出其大型語言模型(LLM)GPT-4之后。AIGC引起了學術界和工業界的極大關注,其中包括基于LLM的對話代理ChatGPT [1],以及文本生成圖像(T2I)模型如DALL·E [2]、Midjourney [3]和Stable Diffusion [4]。這些成就顯著影響了文本生成視頻(T2V)領域,并在OpenAI的Sora [5]中展示了非凡的能力,如圖1所示。 正如[5]中所闡明的那樣,Sora被設計為一個復雜的世界模擬器,能夠根據文本指令生成現實且富有想象力的場景。其卓越的擴展能力使其能夠高效地從互聯網規模的數據中學習,這得益于DiT模型 [6]的集成,該模型取代了傳統的U-Net架構 [7]。這一戰略性整合使Sora與GenTron [8]、W.A.L.T [9]和Latte [10]等類似的進展相一致,增強了其生成能力。Sora獨特地具備生成高質量的分鐘級視頻的能力,這是現有T2V研究尚未實現的 [11]、[12]、[13]、[14]、[15]、[16]、[17]、[18]、[19]、[20]、[21]、[22]、[23]、[24]、[25]、[26]。它還在生成高分辨率和無縫質量的視頻方面表現出色,與現有T2V方法的進展相媲美 [27]、[28]、[29]、[30]、[31]、[32]、[33]、[34]、[35]。雖然Sora在生成復雜物體方面顯著提升,超越了以往的研究 [36]、[37]、[38]、[39],但在確保這些物體之間的連貫運動方面仍面臨挑戰。盡管如此,必須承認Sora在呈現具有復雜細節的場景(包括主體和背景)方面的卓越能力,超越了以往專注于復雜場景 [24]、[40]、[41]、[42] 和合理布局生成的研究 [42]、[44]、[45]。 據我們所知,有兩篇與我們研究相關的綜述:[46]和[47]。[46]涵蓋了從視頻生成到編輯的廣泛主題,提供了一個總體概述,但只關注了有限的基于擴散的文本生成視頻(T2V)技術。同時,[47]對Sora進行了詳細的技術分析,提供了相關技術的初步綜述,但在T2V領域缺乏深度和廣度。為此,我們的工作旨在填補這一空白,通過提供對T2V方法、基準數據集、相關挑戰和未解決問題的詳盡回顧,以及未來研究方向的前瞻性,貢獻一個更為細致和全面的視角。 貢獻:在本綜述中,我們通過對OpenAI的Sora的深入研究,對文本生成視頻(T2V)領域進行了全面的回顧。我們系統地追蹤并總結了最新的文獻,提煉了Sora的核心元素。本文還闡明了基礎概念,包括在該領域至關重要的生成模型和算法。我們深入探討了所調查文獻的具體內容,從所使用的算法和模型到用于生成高質量視頻的技術。此外,本綜述還對T2V數據集和相關評估指標進行了廣泛的調查。重要的是,我們揭示了T2V研究中的當前挑戰和未解決的問題,并根據我們的見解提出了未來的發展方向。 章節結構:本文的結構如下:第二部分提供了基礎概述,包括T2V生成的目標以及支撐這項技術的核心模型和算法。第三部分主要基于我們對Sora的觀察,提供了所有相關領域的廣泛概述。第四部分進行了詳細分析,強調了T2V研究中的挑戰和未解決的問題,特別關注從Sora中獲得的見解。第五部分專門用于概述未來的研究方向,這些方向是基于我們對現有研究的分析和Sora的關鍵方面所確定的。本文在第六部分總結了我們的結論,綜合了從全面回顧中得出的見解和影響。
隨著文本生成圖像技術的重大突破,人類開始探索更具挑戰性的文本生成視頻領域,該領域能夠傳達和封裝更豐富的視覺信息。盡管近年來這一領域的研究進展較為緩慢,但Sora的推出極大地重燃了希望,標志著一個重要的轉折點,為該領域注入了新的活力。
因此,在本節中,我們將從Sora尤其是T2V生成領域中獲得的關鍵見解系統地分類為三個主要類別,并對每個類別進行詳細回顧:進化生成器(見第3.1節)、卓越追求(見第3.2節)、現實全景(見第3.3節)以及數據集和評估指標(見第3.4節)。全面的結構如圖3所示。
結論 基于對Sora的分解,本綜述對當前文本生成視頻(T2V)工作進行了全面回顧。具體來說,我們從生成模型演變的角度組織了文獻,涵蓋了基于GAN/VAE、自回歸和擴散的框架。此外,我們深入審查了文獻,基于優秀視頻應具備的三種關鍵品質:延長的持續時間、卓越的分辨率和無縫的質量。此外,鑒于Sora被稱為真實世界模擬器,我們展示了一個包含動態運動、復雜場景、多物體和合理布局的現實全景。此外,常用的視頻生成數據集和評估指標根據其來源和應用領域進行了分類。最后,我們識別了一些T2V領域剩余的挑戰和問題,并提出了未來發展的潛在方向。
視覺與語言導航(VLN)近年來受到越來越多的關注,許多方法已經涌現出來以推動其發展。基礎模型的顯著成就已經塑造了VLN研究的挑戰和提出的方法。在本綜述中,我們提供了一種自上而下的審視方法,采用了一種原則性框架進行具身規劃和推理,并強調了利用基礎模型應對VLN挑戰的當前方法和未來機會。我們希望通過深入的討論提供有價值的資源和見解:一方面,用以標記進展里程碑,探索基礎模型在該領域的機會和潛在作用;另一方面,為基礎模型研究者整理VLN中的各種挑戰和解決方案。
開發能夠與人類及其周圍環境互動的具身代理是人工智能(AI)的長期目標之一(Nguyen et al., 2021; Duan et al., 2022)。這些AI系統在實際應用中具有巨大的潛力,可以作為多功能助手在日常生活中發揮作用,如家庭機器人(Szot et al., 2021)、自動駕駛汽車(Hu et al., 2023)和個人助理(Chu et al., 2023)。一個推進這一研究方向的正式問題設置是視覺與語言導航(VLN)(Anderson et al., 2018),這是一項多模態和協作任務,要求代理根據人類指令探索三維環境,并在各種模糊情況下進行在場通信。多年來,VLN在仿真環境(Chang et al., 2017; Savva et al., 2019; Xia et al., 2018)和實際環境(Mirowski et al., 2018; Banerjee et al., 2021)中都進行了探索,產生了許多基準測試(Anderson et al., 2018; Ku et al., 2020; Krantz et al., 2020),每個基準測試都提出了稍有不同的問題表述。
近年來,基礎模型(Bommasani et al., 2021)從早期的預訓練模型如BERT(Kenton and Toutanova, 2019)到當代的大型語言模型(LLMs)和視覺語言模型(VLMs)(Achiam et al., 2023; Radford et al., 2021)展現出了在多模態理解、推理和跨領域泛化方面的非凡能力。這些模型在海量數據上進行了預訓練,如文本、圖像、音頻和視頻,并可以進一步適應廣泛的具體應用,包括具身AI任務(Xu et al., 2024)。將這些基礎模型整合到VLN任務中標志著具身AI研究的一個關鍵進展,表現出顯著的性能提升(Chen et al., 2021b; Wang et al., 2023f; Zhou et al., 2024a)。基礎模型還為VLN領域帶來了新的機會,例如從多模態注意力學習和策略政策學習擴展到預訓練通用的視覺和語言表征,從而實現任務規劃、常識推理以及泛化到現實環境。
盡管基礎模型對VLN研究產生了最近的影響,以往關于VLN的綜述(Gu et al., 2022; Park and Kim, 2023; Wu et al., 2024)來自基礎模型時代之前,主要關注VLN基準測試和傳統方法,即缺少利用基礎模型解決VLN挑戰的現有方法和機會的全面概述。特別是隨著LLMs的出現,據我們所知,尚未有綜述討論它們在VLN任務中的應用。此外,與以前將VLN任務視為孤立的下游任務的努力不同,本綜述的目標有兩個:首先,標記進展里程碑,探索基礎模型在該領域的機會和潛在作用;其次,在系統框架內為基礎模型研究者組織VLN中的不同挑戰和解決方案。為建立這種聯系,我們采用LAW框架(Hu and Shu, 2023),其中基礎模型作為世界模型和代理模型的骨干。該框架提供了基礎模型中推理和規劃的一般景觀,并與VLN的核心挑戰緊密相關。
具體而言,在每一步導航中,AI代理感知視覺環境,接收來自人類的語言指令,并基于其對世界和人類的表征進行推理,以規劃行動并高效完成導航任務。如圖1所示,世界模型是代理理解周圍外部環境以及其行動如何改變世界狀態的抽象(Ha and Schmidhuber, 2018; Koh et al., 2021)。該模型是一個更廣泛的代理模型的一部分,該代理模型還包含一個人類模型,該模型解釋其人類伙伴的指令,從而告知代理的目標(Andreas, 2022; Ma et al., 2023)。為了回顧VLN領域不斷增長的工作并理解所取得的里程碑,我們采用自上而下的方法進行綜述,重點關注從三個角度出發的基本挑戰:
我們在圖2中展示了一個分層和細粒度的分類法,基于基礎模型討論每個模型的挑戰、解決方案和未來方向。為了組織本綜述,我們首先簡要概述該領域的背景和相關研究工作以及可用的基準測試(第2節)。我們圍繞提出的方法如何解決上述三個關鍵挑戰進行結構化審查:世界模型(第3節)、人類模型(第4節)和VLN代理(第5節)。最后,我們討論了當前的挑戰和未來的研究機會,特別是在基礎模型興起的背景下(第6節)。
一個典型的視覺與語言導航(VLN)代理在指定位置接收來自人類指令者的(一系列)語言指令。代理使用以自我為中心的視覺視角在環境中導航。通過遵循指令,代理的任務是在一系列離散視圖或較低級別的動作和控制(例如,前進0.25米)上生成軌跡,以到達目的地。如果代理到達距離目的地指定距離(例如3米)以內的位置,則任務被認為成功。此外,代理可以在導航過程中與指令者交換信息,可以請求幫助或進行自由形式的語言交流。此外,人們對VLN代理集成額外任務(如操作任務(Shridhar et al., 2020)和物體檢測(Qi et al., 2020b))的期望也在不斷增加。
如表1所示,現有的VLN基準測試可以根據幾個關鍵方面進行分類:(1)導航發生的世界,包括領域(室內或室外)和環境的具體情況。(2)涉及的人機交互類型,包括交互回合(單次或多次)、通信格式(自由對話、限制對話或多重指令)和語言粒度(動作導向或目標導向)。(3)VLN代理,包括其類型(如家庭機器人、自動駕駛車輛或自主飛行器)、動作空間(基于圖形、離散或連續)和額外任務(操作和物體檢測)。(4)數據集的收集,包括文本收集方法(人類生成或模板化)和路徑演示(人類執行或規劃生成)。有代表性的是,Anderson等人(2018)基于Matterport3D模擬器(Chang et al., 2017)創建了Room-to-Room(R2R)數據集,代理需要遵循精細的導航指令到達目標。Room-across-Room(RxR)(Ku et al., 2020)是一個多語言版本,包括英語、印地語和泰盧固語指令。它提供了更大的樣本量,并為虛擬姿態提供了時間對齊的指令,豐富了任務的語言和空間信息。Matterport3D允許VLN代理在離散環境中操作,并依賴預定義的連接圖進行導航,代理通過在相鄰節點之間的傳送在圖上移動,被稱為VLN-DE。為了使簡化的設置更現實,Krantz等人(2020)、Li等人(2022c)、Irshad等人(2021)通過將離散的R2R路徑轉移到連續空間(Savva等人,2019)提出了連續環境中的VLN(VLN-CE)。Robo-VLN(Irshad等人,2021)通過引入在機器人環境中更現實的連續動作空間的VLN,進一步縮小了模擬到現實的差距。最近的VLN基準測試經歷了幾次設計變更和期望,我們在第6節中討論這些變更。
三種主要指標用于評估導航路徑規劃性能(Anderson等人,2018):(1)導航誤差(NE),代理最終位置與目標位置之間最短路徑距離的平均值;(2)成功率(SR),最終位置足夠接近目標位置的百分比;(3)成功率加權路徑長度(SPL),通過軌跡長度標準化成功率。一些其他指標用于衡量指令遵循的忠實度和預測軌跡與真實軌跡之間的一致性,例如:(4)按長度加權的覆蓋得分(CLS)(Jain等人,2019);(5)歸一化動態時間規整(nDTW)(Ilharco等人,2019),對偏離真實軌跡的情況進行懲罰;以及(6)按成功率加權的歸一化動態時間規整(sDTW)(Ilharco等人,2019),對偏離真實軌跡的情況進行懲罰,并考慮成功率。
在不斷發展的深度學習領域,數據的數量和質量問題一直是一個長期存在的難題。最近大語言模型(LLMs)的出現為合成數據生成提供了一種以數據為中心的解決方案,緩解了現實世界數據的限制。然而,目前對這一領域的研究缺乏統一的框架,大多停留在表面。因此,本文基于合成數據生成的一般工作流程,整理了相關研究。通過這樣做,我們突出了現有研究中的空白,并概述了未來研究的潛在方向。本研究旨在引導學術界和工業界向更深入、更系統地探究LLMs驅動的合成數據生成的能力和應用。
在深度學習領域不斷演變的背景下,數據數量和質量的問題一直是一個長期存在的困境。大語言模型(LLMs)的革命性出現引發了深度學習領域的顯著范式轉變(Zhang et al., 2023a; Guo et al., 2023; Bang et al., 2023)。盡管有這些進展,大量高質量數據仍然是構建穩健自然語言處理(NLP)模型的基礎(Gandhi et al., 2024)。具體來說,這里的高質量數據通常指的是包含豐富監督信號(通常以標簽形式)并與人類意圖緊密對齊的多樣化數據。然而,由于高成本、數據稀缺、隱私問題等原因,依賴于人類數據來滿足這些需求有時是具有挑戰性甚至是不現實的(Kurakin et al., 2023)。此外,多項研究(Hosking et al., 2023; Singh et al., 2023; Gilardi et al., 2023)表明,人類生成的數據由于其固有的偏見和錯誤,可能并不是模型訓練或評估的最佳選擇。這些考慮促使我們更深入地探討一個問題:是否有其他更有效和可擴展的數據收集方法可以克服當前的限制?
鑒于LLMs的最新進展,它們展示了生成與人類輸出相當的流暢文本的能力(Hartvigsen et al., 2022; Sahu et al., 2022; Ye et al., 2022a; Tang et al., 2023; Gao et al., 2023a),由LLMs生成的合成數據成為了人類生成數據的一種可行替代品或補充。具體來說,合成數據旨在模仿真實世界數據的特征和模式(Liu et al., 2024)。一方面,LLMs通過廣泛的預訓練,積累了豐富的知識庫,并展現出卓越的語言理解能力(Kim et al., 2022; Ding et al., 2023a),這為生成真實的數據奠定了基礎。另一方面,LLMs深厚的指令遵循能力允許在生成過程中實現更好的可控性和適應性,從而能夠為特定應用創建定制的數據集,并設計更靈活的流程(Eldan and Li, 2023)。這兩個優勢使LLMs成為極具前景的合成數據生成器。
作為LLMs的一項關鍵應用,合成數據生成對于深度學習的發展具有重要意義。如圖1所示,LLMs驅動的合成數據生成(Li et al., 2023c; Wang et al., 2021; Seedat et al., 2023)使整個模型訓練和評估過程實現自動化,最小化了人類參與的需求(Huang et al., 2023),從而使深度學習模型的優勢可以應用于更廣泛的領域。除了提供可擴展的訓練和測試數據供應之外,LLMs驅動的合成數據生成還可能為開發下一代LLMs鋪平道路。來自TinyStories(Eldan and Li, 2023)和Phi系列(Gunasekar et al., 2023; Li et al., 2023b)的見解強調了數據質量對于有效模型學習的重要性,而LLMs賦予我們主動“設計”模型學習內容的能力,通過數據操作顯著提高了模型訓練的效率和可控性。截至2024年6月,Hugging Face上已有超過300個被標記為“合成”的數據集,許多主流LLMs利用高質量的合成數據進行訓練,包括Alpaca(Taori et al., 2023)、Vicuna(Zheng et al., 2023)、OpenHermes 2.5和Openchat 3.5(Wang et al., 2023a)。
盡管看似簡單,但生成同時具有高正確性和足夠多樣性的合成數據集需要精心設計過程,并涉及許多技巧(Gandhi et al., 2024),使得LLMs驅動的合成數據生成成為一個非平凡的問題。雖然大多數現有工作通常針對各種任務(如預訓練(Gunasekar et al., 2023; Li et al., 2023b; Eldan and Li, 2023)、微調(Mukherjee et al., 2023; Mitra et al., 2023; Xu et al., 2023a)、評估(Feng et al., 2023; Wei et al., 2024))和不同領域(如數學(Yu et al., 2023a; Luo et al., 2023a)、代碼(Luo et al., 2023b; Wei et al., 2023b)、指令(Honovich et al., 2023a; Wang et al., 2023d))進行數據生成,但它們共享許多共同的理念。為了應對LLMs驅動的合成數據生成這一新興領域中缺乏統一框架的問題,并開發通用工作流程,本綜述調查了最近的研究,并根據生成、策展和評估三個密切相關的主題進行組織,如圖2所示。我們的主要目的是提供該領域的全面概述,確定關鍵關注領域,并突出需要解決的空白。我們希望為學術界和工業界帶來見解,并推動LLMs驅動的合成數據生成的進一步發展。
在對大規模視頻-語言模型(VLMs)進行預訓練的過程中,盡管在各種下游視頻-語言任務中展示了巨大的潛力,現有的VLMs仍可能存在一些常見的局限性,例如粗粒度的跨模態對齊、時間動態的欠建模以及視頻-語言視圖的脫節。在本研究中,我們針對這些問題提出了一種細粒度的結構時空對齊學習方法(即Finsta),以增強VLMs的表現。
首先,我們使用細粒度的場景圖(SG)結構來表示輸入文本和視頻,并將這兩種模態統一到一個整體場景圖(HSG)中,以橋接兩種模態之間的差異。然后,我們構建了一個基于SG的框架,其中文本場景圖(TSG)通過圖Transformer進行編碼,而視頻動態場景圖(DSG)和整體場景圖(HSG)則通過一種新穎的循環圖Transformer進行空間和時間特征傳播。此外,我們還設計了一種時空高斯差分圖Transformer,以增強對物體在空間和時間維度上變化的感知。
接下來,基于TSG和DSG的細粒度結構特征,我們分別進行以物體為中心的空間對齊和以謂詞為中心的時間對齊,從而在空間性和時間性上增強視頻-語言的基礎。我們將該方法設計為一個即插即用的系統,可以集成到現有的經過良好訓練的VLMs中以進一步增強表示能力,而無需從頭開始訓練或在下游應用中依賴場景圖注釋。
在6個代表性的視頻-語言建模任務和12個數據集的標準和長視頻場景中,Finsta在細調和零樣本設置中持續改進了現有的13個高性能VLMs,并顯著刷新了當前的最先進的終端任務性能。
本綜述提供了在強化學習(RL)和機器人技術背景下,從視頻中學習(LfV)方法的概覽。我們關注那些能夠擴展到大規模互聯網視頻數據集的方法,并在此過程中提取關于世界動態和物理人類行為的基礎知識。這些方法對于開發通用機器人具有巨大的潛力。
我們從相關的基礎概念概述開始,這些概念與機器人學習的LfV設置相關。包括討論LfV方法可以提供的激動人心的好處(例如,超出可用機器人數據的泛化改進)和對LfV關鍵挑戰的評論(例如,視頻中缺失信息和LfV分布偏移的挑戰)。我們的文獻綜述從分析可以從大型、異質視頻數據集中提取知識的視頻基礎模型技術開始。接下來,我們回顧了專門利用視頻數據進行機器人學習的方法。在這里,我們根據哪種RL知識模式受益于視頻數據的使用來分類工作。我們還強調了緩解LfV挑戰的技術,包括回顧解決視頻中缺失動作標簽問題的動作表示法。
最后,我們審查LfV數據集和基準,然后通過討論LfV中的挑戰和機會來結束這篇綜述。在這里,我們倡導可擴展的方法,這些方法可以利用可用數據的全部范圍,并針對LfV的關鍵好處。總的來說,我們希望這篇綜述能夠成為LfV新興領域的全面參考資料,催化該領域的進一步研究,并最終有助于通用機器人的進展。
這項調查關注的目標是獲得通用型機器人。這些機器人能夠在非結構化的真實世界環境中執行多種物理任務。這樣的機器人將非常有用,并具有廣泛的商業應用(例如,家庭機器人、工廠機器人或自動駕駛)。然而,通用機器人設置面臨幾個挑戰。首先,通用機器人必須具備高水平的能力,這包括從高級能力(例如,推理和計劃)到基礎技能(例如,靈巧和技能)的維持。其次,為了在非結構化環境中操作,通用機器人必須依賴不完整的部分觀察(例如,視覺和觸覺感知)來感知世界。
我們如何獲得這樣的機器人?傳統的機器人技術不足以應對,因為它們通常依賴于手工制作的物理模型理想化,并且通常無法處理非結構化和未見過的場景[Krotkov et al., 2018]。相比之下,機器學習(ML)技術更具前景,并且在機器人學中的使用日益增多,從而引入了機器人學習這一術語[Argall et al., 2009; Peters et al., 2016; Kroemer et al., 2021; Ibarz et al., 2021]。現在,普遍認為機器學習的進步是由數據、算法和計算能力的提升驅動的。幸運的是,計算成本正在持續降低[Moore, 1998; Mack, 2011],且最近開發出了高效的算法——包括表現力強的深度學習架構,如變壓器[Vaswani et al., 2017]和擴散模型[Ho et al., 2020]——其性能隨著計算和數據的增加而持續和可預見地提高[Kaplan et al., 2020]。將這些算法與從互聯網抓取的大規模、多樣化數據集結合,已經在語言理解和生成[OpenAI, 2023]、圖像生成[Betker et al., 2023],以及最近的視頻生成[Brooks et al., 2024]方面取得了顯著的進步。
有希望的是,這些深度學習方法可以轉移到機器人學[Brohan et al., 2022; Team et al., 2023b]。然而,與其他領域不同的是,機器人學缺失了成功所需的關鍵成分:適當的大型多樣化數據集。實際上,機器人學面臨一個先有雞還是先有蛋的問題。首先,由于我們的機器人能力有限,我們無法輕易收集現實世界的機器人數據。這些有限的能力意味著部署機器人來收集數據可能是低效和危險的。隨后,由于缺乏數據,我們無法輕易改進我們的機器人。因此,可以說,數據目前是機器人學進步的關鍵瓶頸。 我們如何克服這個數據瓶頸?為了提供潛在解決方案的見解,我們現在簡要討論機器人學的主要數據來源。1)真實機器人數據:這是我們想要的確切數據。通過高質量的真實機器人數據,可以使用監督學習或離線強化學習(RL)來訓練我們的機器人控制策略。然而,無論是通過人類遠程操作還是自動策略,收集現實世界的機器人數據都是昂貴且困難的。2)模擬機器人數據:與現實世界數據收集相比,模擬收集的速度明顯更快、成本更低[Kaufmann et al., 2023a]。然而,模擬帶來了一些問題。模擬物理可能不準確。此外,創建適合訓練通用政策的多樣化模擬環境和任務并非易事。此外,我們仍然通常缺乏能夠收集模擬數據的自動策略。3)互聯網數據:互聯網是一個龐大而多樣化的數據來源。它為近期深度學習的進展奠定了基礎[OpenAI, 2023; Betker et al., 2023]。互聯網文本、圖像和視頻數據包含了大量與通用型機器人相關的信息。然而,互聯網數據并非直接或輕易適用于機器人學。這是由于互聯網數據與機器人領域之間的分布偏移,以及互聯網數據中關鍵信息的缺失(例如,文本不包含視覺信息,而視頻不包含動作標簽)。 鑒于其豐富的數量和相關內容,互聯網視頻數據有助于緩解機器人技術中的數據瓶頸問題,并推動創建通用型機器人的進程。更具體地說,我們希望從互聯網視頻中獲得以下好處:(1)提高超出可用機器人數據的泛化能力;(2)提高機器人數據的數據效率和分布內性能;(3)推測性地獲得僅憑機器人數據無法實現的新興能力。事實上,從視頻中學習(LfV)這一新興領域的最近進展令人鼓舞,證明了這些好處。這包括利用大規模視頻預測模型作為機器人動態模型的工作[Yang等人,2023c; Bruce等人,2024],或利用機器人數據和互聯網視頻訓練基礎機器人政策的工作[Sohn等人,2024]。 然而,將互聯網視頻用于機器人技術帶來了一些基本和實際挑戰。首先,一般來說,視頻是一個具有挑戰性的數據模式。視頻數據是高維的、噪音大的、隨機的,并且標記不佳。這些問題使得視頻基礎模型的進展落后于語言和圖像模型。其次,特別是為機器人技術使用視頻數據引入了自己的一套問題。視頻缺乏對機器人至關重要的信息,包括明確的動作信息和低級信息,如力和本體感知。此外,互聯網視頻與下游機器人設置之間可能存在各種分布偏移,包括環境、實體和視角的差異。鑒于這些挑戰,我們提出了兩個關鍵的LfV研究問題:
如何從互聯網視頻中提取相關知識?
如何將視頻提取的知識應用于機器人技術?在本綜述中(見圖1),我們回顧了試圖回答這些問題的現有文獻。對于第一個問題,我們調查了從大規模互聯網視頻中提取知識的視頻基礎建模技術,這些技術有望成為未來LfV進展的關鍵驅動力。對于第二個問題,我們進行了徹底的文獻分析,這些文獻利用視頻數據幫助機器人學習。我們根據強化學習知識模式(KM)(即哪些表示、政策、動態模型、獎勵函數或價值函數)直接受益于視頻數據的使用來分類這些文獻。此外,我們還回顧了用于緩解LfV挑戰的常見技術,如使用動作表示來解決視頻中缺失動作標簽的問題。
我們通過討論未來LfV研究的問題和機會來結束。這包括倡導可擴展的方法,這些方法可以最好地提供LfV的承諾好處。在此,我們建議針對政策和動態模型KM。此外,我們還討論了利用視頻基礎模型技術進行LfV的方向,然后觸及克服關鍵LfV挑戰的方向。
這些有前景的機會,加上近期在LfV方面的鼓舞人心的進展[Yang等人,2023c; Bruce等人,2024],強烈表明LfV的承諾好處是完全可以實現的。我們希望這份全面的綜述能鼓勵和通知未來的LfV研究,最終有助于加速我們創建通用型機器人的進程。
Sora的到來標志著文本到視頻擴散模型新時代的開始,為視頻生成及其潛在應用帶來了顯著的進步。然而,Sora以及其他文本到視頻擴散模型高度依賴于提示(prompt),而且目前沒有公開可用的數據集專門研究文本到視頻的提示。在本文中,我們介紹了VidProM,這是第一個大規模數據集,包含來自真實用戶的167萬個獨特的文本到視頻提示。此外,該數據集還包括由四種最先進的擴散模型生成的669萬個視頻和一些相關數據。我們首先展示了這個大規模數據集的策劃過程,這是一個耗時且成本高昂的過程。隨后,我們展示了所提出的VidProM與DiffusionDB(一個用于圖像生成的大規模提示庫數據集)的不同之處。基于這些提示的分析,我們認識到需要一個專門為文本到視頻生成設計的新提示數據集,并獲得了關于真實用戶在創建視頻時的偏好見解。我們的大規模和多樣化的數據集也激發了許多令人興奮的新研究領域。例如,為了開發更好、更高效、更安全的文本到視頻擴散模型,我們建議探索文本到視頻提示工程、高效視頻生成和擴散模型的視頻復制檢測。我們在GitHub和Hugging Face上公開提供收集的數據集VidProM,并在CC-BY-NC 4.0許可下提供。
//arxiv.org/pdf/2403.06098.pdf
Sora [6] 的出現為文本到視頻擴散模型開啟了一個新時代,通過顯著的進步徹底改變了視頻生成。這一突破為講故事、沉浸式體驗和內容創造提供了新的可能性,因為 Sora [6] 能夠輕松地將文本描述轉換成高質量視頻。然而,Sora [6] 和其他文本到視頻擴散模型 [9, 1, 3, 5] 高度依賴于使用的提示。盡管這些提示非常重要,但目前沒有專注于文本到視頻提示的公開可用數據集,這限制了這些模型的開發和評估。 在本文中,我們呈現了對文本到視頻提示的首次系統研究。具體而言,我們的工作主要集中在構建第一個文本到視頻提示庫數據集VidProM,與DiffusionDB [22] 進行深入比較,分析用戶偏好的主題,并基于我們的VidProM引入新的研究方向。VidProM的展示如圖 1 所示。 * 第一個文本到視頻提示庫數據集。我們的大規模VidProM包含來自真實用戶的167萬個獨特文本到視頻提示和由4種最先進擴散模型生成的669萬個視頻。這些提示來自官方Pika Discord頻道,視頻由Pika [9]、Text2Video-Zero [1]、VideoCraft2 [3]和ModelScope [5]生成。我們在配備了8個Nvidia V100 GPU的10臺服務器上分配生成過程。每個提示使用OpenAI的強大text-embedding-3-large模型進行嵌入,并分配了六個不適宜工作場合(NSFW)的概率,包括毒性、淫穢、身份攻擊、侮辱、威脅和性明示。我們還為VidProM中的每個數據點添加了一個通用唯一標識符(UUID)和時間戳。除主數據集外,我們還介紹了一個名為VidProS的子集,包含語義唯一的提示。在這個子集中,任意兩個提示之間的余弦相似度小于0.8,確保了高水平的語義多樣性。
與DiffusionDB的深入比較和人們偏好分析。我們注意到存在一個文本到圖像提示庫數據集DiffusionDB [22]。通過分析基本信息和提示,我們得出結論,我們的VidProM與DiffusionDB [22]的差異在于:(1)我們的VidProM包含更多語義唯一的提示,這些提示由更高級的模型嵌入并收集了更長的時間跨度。(2)我們通過網絡抓取和本地生成收集視頻,而DiffusionDB [22]只包含網絡抓取的圖像,導致我們的數據集更耗時和成本更高。(3)我們的提示語義與DiffusionDB中的顯著不同,我們的文本到視頻提示通常更加動態、更復雜且更長。這些差異凸顯了收集專門為文本到視頻擴散模型設計的新提示數據集的必要性。基于我們對新提示數據集的分析,我們得出結論:(1)頻繁出現的詞包括‘modern’、‘motion’、‘close’、‘forest’和‘sky’;(2)偏好的主題包括人類、科幻和動物。
激發新的研究方向。我們新的文本到視頻提示庫數據集VidProM的引入,開啟了眾多令人興奮的研究方向。研究者專注于開發更好、更高效、更安全的文本到視頻擴散模型:(1)為了更好的模型,研究者可以利用我們的VidProM作為一個全面的提示集來評估他們訓練的模型,使用我們的提示-(生成的)-視頻對新模型進行提煉,并參與提示工程。(2)為了更高效的模型,研究者可以在我們的VidProM中搜索相關的提示,并從相似的現有視頻中重構新視頻,從而避免從頭開始生成視頻的需要。(3)為了更安全的模型,研究者可以開發專門的模型來區分生成的視頻和真實視頻,以對抗錯誤信息,并訓練視頻復制檢測模型來識別潛在的版權問題。除了擴散模型外,文本-視頻對也在多模態學習任務中得到利用,如視頻-文本檢索和視頻字幕。我們的提示和合成視頻可以幫助緩解使用在線視頻相關的版權問題,并減輕收集高質量視頻-文本數據的困難。
總而言之,本文作出了以下貢獻:(1)我們貢獻了第一個文本到視頻提示庫數據集VidProM,包含來自真實用戶的167萬個獨特提示和由4種最先進擴散模型生成的669萬個視頻。(2)我們提供了與文本到圖像提示庫數據集DiffusionDB的詳細深入比較,并強調了VidProM以及真實用戶偏好的必要性。(3)我們揭示了VidProM激發的幾個令人興奮的研究方向,并將其定位為未來研究的豐富數據庫。
基于時空記憶(STM)的視頻目標分割(VOS)網絡通常每隔幾幀不斷增加存儲庫,表現出良好的性能。然而,1)隨著視頻長度的增加,硬件無法承受不斷增長的內存需求。2)存儲大量的信息不可避免地會引入大量的噪聲,這不利于從存儲庫中讀取最重要的信息。在本文中,我們提出一種循環動態嵌入(RDE)來建立一個固定大小的存儲庫。具體來說,我們通過提出的時空聚合模塊(SAM)顯式地生成和更新RDE,該模塊利用歷史信息的線索。為了避免重復使用SAM造成的誤差積累,我們在訓練階段提出了無偏導損失,這使得SAM在長視頻中更穩健。此外,由于不準確的網絡推斷,在內存庫中預測的掩碼是不準確的,影響了查詢幀的分割。為了解決這一問題,我們設計了一種新的自校正策略,使網絡能夠修復存儲庫中不同質量的掩模嵌入。大量實驗表明,我們的方法在性能和速度之間取得了最好的折衷。代碼可在//github.com/ Limingxing00/RDE-VOS-CVPR2022獲得。
持續學習變得越來越重要,因為它使NLP模型能夠隨著時間的推移不斷地學習和獲取知識。以往的持續學習方法主要是為了保存之前任務的知識,并沒有很好地將模型推廣到新的任務中。在這項工作中,我們提出了一種基于信息分解的正則化方法用于文本分類的持續學習。我們提出的方法首先將文本隱藏空間分解為對所有任務都適用的表示形式和對每個單獨任務都適用的表示形式,并進一步對這些表示形式進行不同的規格化,以更好地約束一般化所需的知識。我們還介紹了兩個簡單的輔助任務:下一個句子預測和任務id預測,以學習更好的通用和特定表示空間。在大規模基準上進行的實驗證明了我們的方法在不同序列和長度的連續文本分類任務中的有效性。
最近發布的GPT-3讓我對NLP中的零學習和小樣本的狀態產生了興趣。雖然大多數的零樣本學習研究集中在計算機視覺,也有一些有趣的工作在NLP領域。
我將會寫一系列的博文來涵蓋現有的關于NLP零樣本學習的研究。在這第一篇文章中,我將解釋Pushp等人的論文“一次訓練,到處測試:文本分類的零樣本學習”。本文從2017年12月開始,首次提出了文本分類的零樣本學習范式。
什么是零樣本學習?
零樣本學習是檢測模型在訓練中從未見過的類的能力。它類似于我們人類在沒有明確監督的情況下歸納和識別新事物的能力。
例如,我們想要做情感分類和新聞分類。通常,我們將為每個數據集訓練/微調一個新模型。相比之下,零樣本學習,你可以直接執行任務,如情緒和新聞分類,沒有任何特定的任務訓練。
一次訓練,隨處測試
本文提出了一種簡單的零樣本分類方法。他們沒有將文本分類為X類,而是將任務重新組織為二元分類,以確定文本和類是否相關。
主題: GANs in computer vision: Introduction to generative learning
主要內容: 在這個綜述系列文章中,我們將重點討論計算機視覺應用程序的大量GANs。具體地說,我們將慢慢地建立在導致產生性對抗網絡(GAN)進化的思想和原則之上。我們將遇到不同的任務,如條件圖像生成,3D對象生成,視頻合成。
目錄:
一般來說,數據生成方法存在于各種各樣的現代深度學習應用中,從計算機視覺到自然語言處理。在這一點上,我們可以用肉眼生成幾乎無法區分的生成數據。生成性學習大致可分為兩大類:a)變分自編碼器(VAE)和b)生成性對抗網絡(GAN)。