亚洲男人的天堂2018av,欧美草比,久久久久久免费视频精选,国色天香在线看免费,久久久久亚洲av成人片仓井空

Sora的到來標志著文本到視頻擴散模型新時代的開始,為視頻生成及其潛在應用帶來了顯著的進步。然而,Sora以及其他文本到視頻擴散模型高度依賴于提示(prompt),而且目前沒有公開可用的數據集專門研究文本到視頻的提示。在本文中,我們介紹了VidProM,這是第一個大規模數據集,包含來自真實用戶的167萬個獨特的文本到視頻提示。此外,該數據集還包括由四種最先進的擴散模型生成的669萬個視頻和一些相關數據。我們首先展示了這個大規模數據集的策劃過程,這是一個耗時且成本高昂的過程。隨后,我們展示了所提出的VidProM與DiffusionDB(一個用于圖像生成的大規模提示庫數據集)的不同之處。基于這些提示的分析,我們認識到需要一個專門為文本到視頻生成設計的新提示數據集,并獲得了關于真實用戶在創建視頻時的偏好見解。我們的大規模和多樣化的數據集也激發了許多令人興奮的新研究領域。例如,為了開發更好、更高效、更安全的文本到視頻擴散模型,我們建議探索文本到視頻提示工程、高效視頻生成和擴散模型的視頻復制檢測。我們在GitHub和Hugging Face上公開提供收集的數據集VidProM,并在CC-BY-NC 4.0許可下提供。

//arxiv.org/pdf/2403.06098.pdf

Sora [6] 的出現為文本到視頻擴散模型開啟了一個新時代,通過顯著的進步徹底改變了視頻生成。這一突破為講故事、沉浸式體驗和內容創造提供了新的可能性,因為 Sora [6] 能夠輕松地將文本描述轉換成高質量視頻。然而,Sora [6] 和其他文本到視頻擴散模型 [9, 1, 3, 5] 高度依賴于使用的提示。盡管這些提示非常重要,但目前沒有專注于文本到視頻提示的公開可用數據集,這限制了這些模型的開發和評估。 在本文中,我們呈現了對文本到視頻提示的首次系統研究。具體而言,我們的工作主要集中在構建第一個文本到視頻提示庫數據集VidProM,與DiffusionDB [22] 進行深入比較,分析用戶偏好的主題,并基于我們的VidProM引入新的研究方向。VidProM的展示如圖 1 所示。 * 第一個文本到視頻提示庫數據集。我們的大規模VidProM包含來自真實用戶的167萬個獨特文本到視頻提示和由4種最先進擴散模型生成的669萬個視頻。這些提示來自官方Pika Discord頻道,視頻由Pika [9]、Text2Video-Zero [1]、VideoCraft2 [3]和ModelScope [5]生成。我們在配備了8個Nvidia V100 GPU的10臺服務器上分配生成過程。每個提示使用OpenAI的強大text-embedding-3-large模型進行嵌入,并分配了六個不適宜工作場合(NSFW)的概率,包括毒性、淫穢、身份攻擊、侮辱、威脅和性明示。我們還為VidProM中的每個數據點添加了一個通用唯一標識符(UUID)和時間戳。除主數據集外,我們還介紹了一個名為VidProS的子集,包含語義唯一的提示。在這個子集中,任意兩個提示之間的余弦相似度小于0.8,確保了高水平的語義多樣性。

與DiffusionDB的深入比較和人們偏好分析。我們注意到存在一個文本到圖像提示庫數據集DiffusionDB [22]。通過分析基本信息和提示,我們得出結論,我們的VidProM與DiffusionDB [22]的差異在于:(1)我們的VidProM包含更多語義唯一的提示,這些提示由更高級的模型嵌入并收集了更長的時間跨度。(2)我們通過網絡抓取和本地生成收集視頻,而DiffusionDB [22]只包含網絡抓取的圖像,導致我們的數據集更耗時和成本更高。(3)我們的提示語義與DiffusionDB中的顯著不同,我們的文本到視頻提示通常更加動態、更復雜且更長。這些差異凸顯了收集專門為文本到視頻擴散模型設計的新提示數據集的必要性。基于我們對新提示數據集的分析,我們得出結論:(1)頻繁出現的詞包括‘modern’、‘motion’、‘close’、‘forest’和‘sky’;(2)偏好的主題包括人類、科幻和動物。

激發新的研究方向。我們新的文本到視頻提示庫數據集VidProM的引入,開啟了眾多令人興奮的研究方向。研究者專注于開發更好、更高效、更安全的文本到視頻擴散模型:(1)為了更好的模型,研究者可以利用我們的VidProM作為一個全面的提示集來評估他們訓練的模型,使用我們的提示-(生成的)-視頻對新模型進行提煉,并參與提示工程。(2)為了更高效的模型,研究者可以在我們的VidProM中搜索相關的提示,并從相似的現有視頻中重構新視頻,從而避免從頭開始生成視頻的需要。(3)為了更安全的模型,研究者可以開發專門的模型來區分生成的視頻和真實視頻,以對抗錯誤信息,并訓練視頻復制檢測模型來識別潛在的版權問題。除了擴散模型外,文本-視頻對也在多模態學習任務中得到利用,如視頻-文本檢索和視頻字幕。我們的提示和合成視頻可以幫助緩解使用在線視頻相關的版權問題,并減輕收集高質量視頻-文本數據的困難。

總而言之,本文作出了以下貢獻:(1)我們貢獻了第一個文本到視頻提示庫數據集VidProM,包含來自真實用戶的167萬個獨特提示和由4種最先進擴散模型生成的669萬個視頻。(2)我們提供了與文本到圖像提示庫數據集DiffusionDB的詳細深入比較,并強調了VidProM以及真實用戶偏好的必要性。(3)我們揭示了VidProM激發的幾個令人興奮的研究方向,并將其定位為未來研究的豐富數據庫。

付費5元查看完整內容

相關內容

Sora是OpenAI發布的一個AI模型,可以從文本指令中創建現實和想象的視頻。OpenAI發布首個文本生成視頻模型Sora,在生成視頻長度(60秒)和內容上表現突出,為AIGC發展過程中的一大里程碑事件,

 本文簡要介紹TPAMI 2024錄用論文“Turning a CLIP Model into a Scene Text Spotter”的主要工作。這篇文章介紹了一種新方法FastTCM,專注于直接將CLIP 模型用于文本檢測和端到端文本識別,無需設計特殊的預訓練代理任務。

一、研究背景****

大規模對比語言-圖像預訓練CLIP模型[1]通過利用預訓練的視覺和語言知識在各種下游任務中展現了巨大的潛力。場景文本包含豐富的文本和視覺信息,與像 CLIP 這樣的視覺語言大模型有著固有的聯系。現有利用視覺語言預訓練的工作[2-4]通常包含兩個階段:第一個階段需要設計合適的代理任務進行預訓練,充分挖掘文本知識,使得視覺編碼器能夠較好地感知到文本;第二個階段再對第一個階段預訓練好的視覺編碼器進行微調,使其能夠較好地執行下游的文本檢測或者端到端文本識別任務。這篇文章介紹了一種新方法FastTCM,專注于直接將CLIP 模型用于文本檢測和端到端文本識別,無需設計特殊的預訓練代理任務。

圖1 現有利用視覺語言知識進行文本檢測或者端到端文本識別的不同范式

二、方法原理簡述****

FastTCM整體框架如圖2所示,包含CLIP的圖像編碼器、文本編碼器、視覺提示模塊、文本提示單元和下游的文本檢測或端到端文本識別頭。其中,文本提示單元包含文本提示模塊和雙模態相似匹配機制。首先視覺編碼器對圖像進行編碼,得到全局視覺特征;其次,文本提示模塊通過可學習的元查詢和預定義的提示構造有利于下游任務的提示,并送入文本編碼器編碼得到文本嵌入;接著,雙模態相似匹配機制計算當前圖像特征和文本嵌入的相似度,并將該相似度和圖像特征相乘疊加到文本嵌入生成新的文本嵌入,該機制可以根據輸入的視覺圖像特征動態的調整文本編碼器的輸出,充分挖掘CLIP中預訓練的文本知識,有利于后續提取細粒度的視覺圖像特征。之后的流程和會議版本的工作[5]一致。在訓練時文本提示模塊的參數需要參與訓練優化,當訓練完成時該模塊參數被固定,在推理時可以將文本編碼器部分的輸出離線計算,以此來減少推理時間。 圖2 FastTCM方法整體框架圖 三、主要實驗結果****

作者將FastTCM應用于現有的文本檢測方法和端到端文本識別方法上進行了實驗驗證,發現FastTCM可以應用于改進現有的場景文本檢測方法和端到端文本識別方法,并且速度有所提升,同時可以提升現有方法的小樣本學習能力和泛化能力。表1 分別提升現有的文本檢測方法和端到端文本識別方法的性能 表2 提升現有的文本檢測方法和端到端文本識別方法上的小樣本學習能力 表3 提升現有的文本檢測和端到端文本識別方法上的泛化學習能力

作者進一步在旋轉目標檢測任務上進行了驗證,并在遙感圖像數據集DOTA-v1.0[6]上進行了實驗,本文提出的方法依舊可以適用于遙感目標檢測,下圖展示了可視化結果。

圖 3 在旋轉目標遙感數據集DOTA-v1.0上的可視化檢測結果

四、未來展望

本文提出了一種利用大規模對比語言-圖像預訓練 CLIP 模型來提升文本檢測和端到端文本識別下游任務,對邁向通用場景的文本感知任務更近了一步,未來可以繼續探索借助更強大的多模態大模型[7]的能力來實現更通用的文本感知和理解任務。 五、相關資源****

論文鏈接://ieeexplore.ieee.org/document/10476714代碼://github.com/wenwenyu/TCM 參考文獻****

[1] A. Radford, J. W. Kim, C. Hallacy, A. Ramesh, G. Goh, S. Agarwal, G. Sastry, A. Askell, P. Mishkin, J. Clark, G. Krueger, and I. Sutskever, “Learning transferable visual models from natural language supervision,” in ICML, 2021. [2] Q. Wan, H. Ji, and L. Shen, “Self-attention based text knowledge mining for text detection,” in CVPR, 2021. [3] S. Song, J. Wan, Z. Yang, J. Tang, W. Cheng, X. Bai, and C. Yao, “Vision-language pre-training for boosting scene text detectors,” in CVPR, 2022. [4] C. Xue, W. Zhang, Y. Hao, S. Lu, P. H. S. Torr, and S. Bai, “Language matters: A weakly supervised vision-language pretraining approach for scene text detection and spotting,” in ECCV, 2022. [5] W. Yu, Y. Liu, W. Hua, D. Jiang, B. Ren, and X. Bai, “Turning a clip model into a scene text detector,” in CVPR, 2023. [6] G.-S. Xia, X. Bai, J. Ding, Z. Zhu, S. J. Belongie, J. Luo, M. Datcu, M. Pelillo, and L. Zhang, “Dota: A large-scale dataset for object detection in aerial images,” in CVPR, 2017.[7] Z. Li, , B. Yang, Q. Liu, Z. Ma, S. Zhang, J. Yang, Y. Sun, Y. Liu, and X. Bai,“Monkey: Image Resolution and Text Label Are Important Things for Large Multi-modal Models,”in CVPR 2024.


原文作者:Wenwen Yu, Yuliang Liu*, Xingkui Zhu, Haoyu Cao,Xing Sun, Xiang Bai 撰稿:余文文編排:高 學審校:連宙輝發布:金連文

付費5元查看完整內容

去噪擴散模型已經成為各種圖像生成和編輯任務的強大工具,促進了以無條件或輸入條件方式合成視覺內容。它們背后的核心思想是學習逆轉逐漸向圖像添加噪聲的過程,使它們能夠從復雜分布中生成高質量樣本。在這篇綜述中,我們提供了一個關于使用擴散模型進行圖像編輯的現有方法的詳盡概述,涵蓋了該領域的理論和實踐方面。我們深入分析并從多個角度對這些工作進行了分類,包括學習策略、用戶輸入條件和可以完成的特定編輯任務的范圍。此外,我們特別關注圖像修復和擴展,并探索了早期的傳統上下文驅動方法和當前的多模態條件方法,提供了它們方法論的全面分析。為了進一步評估文本引導的圖像編輯算法的性能,我們提出了一個系統的基準,EditEval,特色是一個創新的指標,LMM分數。最后,我們討論了當前的局限性,并設想了未來研究的一些潛在方向。伴隨的倉庫發布在 //github.com/SiatMMLab/Awesome-Diffusion-Model-Based-Image-Editing-Methods。

在人工智能生成內容(AIGC)的領域中,利用人工智能來創建和修改數字內容,圖像編輯被認為是創新和實際應用的重要領域。與從最小輸入創建新圖像的圖像生成不同,圖像編輯涉及更改圖像的外觀、結構或內容,包括從微妙的調整到重大變革的一系列更改。這項研究在數字媒體、廣告和科學研究等各個領域都至關重要,其中改變視覺內容是必需的。圖像編輯的演變反映了數字技術的進步,從手工、勞動密集型過程發展到由基于學習的算法驅動的高級數字技術。在這一演進中的一個關鍵進步是生成對抗網絡(GANs)[1]-[6]的引入,顯著增強了創造性圖像操作的可能性。

最近,擴散模型在AIGC[1],[7]-[15]中嶄露頭角,帶來了視覺生成任務的顯著突破。擴散模型,受到非平衡熱力學[15]原理的啟發,通過逐漸向數據添加噪聲,然后學習逆轉這一過程,從隨機噪聲生成直到產生與源數據分布匹配的所需數據。它們大致可以分為去噪擴散基礎[15]-[18]和分數匹配基礎[19]-[23]。它們的適應性和有效性導致了在各種任務中的廣泛應用,如圖像生成[24]-[38]、視頻生成[39]-[56]、圖像恢復[57]-[71]和圖像編輯。

在圖像編輯中應用擴散模型的興趣激增,近年來在這一領域的研究出版物數量顯著增加為證。這種日益增長的關注突顯了擴散模型在改善圖像編輯性能方面相比于以往工作的潛力和多功能性。鑒于這一顯著進步,系統地回顧和總結這些貢獻是必要的。然而,現有關于擴散模型的綜述文獻集中在其他特定視覺任務上[72]-[75],如視頻應用[73]或圖像恢復與增強[74],[75]。一些提到圖像編輯的綜述往往只提供了一個粗略的概述[76]-[83],缺少對方法的詳細和專注探索。

為了填補這一空缺,我們進行了一項綜述,提供了一項專注于圖像編輯的深入和全面分析。我們深入研究了這一領域擴散模型所實現的方法論、輸入條件和廣泛的編輯任務。該綜述批判性地回顧了超過100篇研究論文,根據學習策略將它們組織成三個主要類別:基于訓練的方法、測試時微調方法和無需訓練和微調的方法。每個類別根據其核心技術進一步劃分,分別在第4、5和6節中進行了詳細討論。我們還探索了這些方法中使用的10種不同類型的輸入條件,包括文本、遮罩、參考(Ref.)圖像、類別、布局、姿態、草圖、分割(Seg.)圖、音頻和拖動點,以展示擴散模型在多樣化圖像編輯場景中的適應性。此外,我們的綜述提出了一種新的圖像編輯任務分類,將其劃分為三大類:語義編輯、風格編輯和結構編輯,涵蓋了12種特定類型。圖1直觀地表示了研究在學習策略、輸入條件和編輯任務類別之間的統計分布。另外,我們特別關注了修復和外擴,這兩者共同構成了一種獨特的編輯類型。我們探索了早期的傳統和當前的多模態條件方法,第7節提供了它們方法論的全面分析。我們還介紹了EditEval,這是一個旨在評估文本引導的圖像編輯算法的基準,詳細內容在第8節。特別地,我們通過利用大型多模態模型(LMMs)的先進視覺-語言理解能力,提出了一個有效的評估指標,LMM分數。最后,我們在第9節中展示了一些當前的挑戰和潛在的未來趨勢作為展望。 總之,這項綜述旨在系統地分類和批判性地評估基于擴散模型的圖像編輯研究的廣泛文獻。我們的目標是提供一個全面的資源,不僅綜合了當前的發現,而且還指導了這一快速進步領域的未來研究方向。

除了擴散模型在圖像生成、恢復和增強方面取得的重大進展之外,它們在圖像編輯方面也取得了顯著的突破,與之前占主導地位的GANs相比,提供了更強的可控性。與從零開始創建新圖像的圖像生成不同,以及旨在修復和提高降級圖像質量的圖像恢復和增強,圖像編輯涉及修改現有圖像的外觀、結構或內容,包括添加對象、替換背景和改變紋理等任務。

在這項綜述中,我們根據它們的學習策略將圖像編輯論文組織成三個主要群體:基于訓練的方法、測試時微調方法和無需訓練和微調的方法,分別在第4、5和6節中詳細闡述。此外,我們探索了這些方法用來控制編輯過程的10種類型的輸入條件,包括文本、遮罩、參考(Ref.)圖像、類別、布局、姿勢、草圖、分割(Seg.)圖、音頻和拖動點。此外,我們研究了這些方法可以完成的12種最常見的編輯類型,這些類型被組織成以下三大類。

  • 語義編輯:這一類別包括對圖像內容和敘述的修改,影響所描繪場景的故事、背景或主題元素。該類別內的任務包括對象添加(Obj. Add.)、對象移除(Obj. Remo.)、對象替換(Obj. Repl.)、背景更改(Bg. Chg.)和情感表達修改(Emo. Expr. Mod.)。

  • 風格編輯:這一類別專注于增強或轉換圖像的視覺風格和美學元素,而不改變其敘述內容。該類別內的任務包括顏色更改(Color Chg.)、紋理更改(Text. Chg.)和整體風格更改(Style Chg.),涵蓋藝術和現實風格。

  • 結構編輯:這一類別涉及圖像內元素的空間布局、位置、視點和特性的更改,強調場景內對象的組織和呈現。該類別內的任務包括對象移動(Obj. Move.)、對象大小和形狀更改(Obj. Size. Chg.)、對象動作和姿勢更改(Obj. Act. Chg.)和透視/視點更改(Persp./View. Chg.)。

表1全面總結了對調研論文的多角度分類,提供了快速搜索。

在基于擴散模型的圖像編輯領域中,基于訓練的方法已經獲得了顯著的突出地位。這些方法不僅因其穩定訓練擴散模型和有效建模數據分布而著稱,也因其在多種編輯任務中的可靠性能而備受關注。為了徹底檢查這些方法,我們根據它們的應用范圍、訓練所需的條件以及監督類型,將它們分類為四個主要組,如圖2所示。進一步地,在每個主要組內,我們根據它們的核心編輯方法將這些方法分類為不同的類型。這一分類展示了這些方法的范圍,從針對特定領域的應用到更廣泛的開放世界用途。

在圖像生成和編輯中,測試時微調代表了向精確度和控制性邁進的重要一步。本節探討了各種微調策略(見圖5),這些策略增強了圖像編輯的能力。如圖6所示,這些方法范圍從微調整個去噪模型到專注于特定層或嵌入。我們研究了微調整個模型、針對特定參數和優化基于文本的嵌入的方法。此外,我們討論了超網絡的集成和直接圖像表示優化。這些方法共同展示了微調技術在圖像編輯中的不斷復雜化和有效性,滿足了廣泛的編輯需求和用戶意圖。

在圖像編輯領域中,無需訓練和微調的方法起始于它們快速且低成本的前提——因為在整個編輯過程中,它們不需要任何形式的訓練(針對數據集)或微調(針對源圖像)。本節根據它們所修改的內容,將這些方法分為五個類別,如圖7和8所示。它們巧妙地利用擴散模型內在的原則來實現它們的編輯目標。

結論

我們已經全面概述了基于擴散模型的圖像編輯方法,從多個角度檢查了這一領域。我們的分析首先根據它們的學習策略,將超過100種方法分類為三個主要群體:基于訓練的、測試時微調的,以及無需訓練和微調的方法。然后,我們將圖像編輯任務分類為三個不同的類別:語義編輯、風格編輯和結構編輯,總共包含12種特定類型。我們探索了這些方法及其對提高編輯性能的貢獻。我們的圖像編輯基準EditEval中對7個任務及最近的最先進方法進行了評估。此外,引入了一種新的度量LMM分數,用于這些方法的比較分析。總結我們的綜述,我們強調了圖像編輯領域內的廣泛潛力,并建議了未來研究的方向。

付費5元查看完整內容

對比視覺-語言預訓練,即CLIP,展現了在感知開放世界視覺概念方面的顯著潛力,實現了有效的零樣本圖像識別。然而,基于CLIP的小樣本學習方法通常需要在少量樣本上進行離線微調參數,這導致了更長的推理時間和在某些領域過擬合的風險。為了應對這些挑戰,我們提出了Meta-Adapter,一種輕量級的殘差風格適配器,用以指導少樣本在線細化CLIP特征。通過少量的訓練樣本,我們的方法可以實現有效的小樣本學習能力,并且在沒有額外微調的情況下泛化到未見過的數據或任務,達到了具有競爭力的性能和高效率。我們的方法不需要復雜的附加功能,就在八個圖像分類數據集上平均超過了最新的在線小樣本學習方法3.6%的性能,并且具有更高的推理速度。此外,我們的模型簡單靈活,可作為直接適用于下游任務的即插即用模塊。在無需進一步微調的情況下,Meta-Adapter在開放詞匯的對象檢測和分割任務中取得了顯著的性能提升。

//www.zhuanzhi.ai/paper/988c88672e1bfafaceee944b23e8228e

付費5元查看完整內容

大型語言模型(LLMs)在自然語言處理領域表現出令人印象深刻的影響,但它們仍然在完整性、時效性、可靠性和適應性等方面存在一些問題。雖然最近的努力集中在將LLMs與外部知識源連接上,但知識庫(KBs)的集成仍未得到充分研究,并面臨一些挑戰。本文介紹了KnowledGPT,一個將LLMs與各種知識庫連接起來的綜合框架,促進知識的檢索和存儲。檢索過程采用思維提示程序,該程序以代碼格式生成用于KB操作的搜索語言。除了檢索外,KnowledGPT還提供了將知識存儲在個性化KB中的能力,以滿足個人用戶的需求。通過廣泛的實驗,我們表明,通過將LLMs與KBs集成,KnowledGPT與普通LLMs相比,能夠適當地回答更廣泛的需要世界知識的問題,利用廣泛存在的KBs中的知識和提取到個性化KB中的知識。

付費5元查看完整內容

**本文提出ODISE:基于開放詞匯擴散的全景分割,將預訓練的文本-圖像擴散和判別模型統一起來,以執行開放詞匯全景分割。**文本到圖像擴散模型已經顯示出了生成具有多種開放詞匯語言描述的高質量圖像的顯著能力。這表明它們的內部表示空間與現實世界中的開放概念高度相關。另一方面,像CLIP這樣的文本-圖像判別模型擅長將圖像分類為開放詞匯表標簽。本文建議利用這兩個模型的凍結表示來對實際環境中的任何類別進行全景分割。所提出方法在開放詞匯表全景任務和語義分割任務上都明顯優于之前的技術水平。特別是,在僅進行COCO訓練的情況下,所提出方法在ADE20K數據集上達到了23.4 PQ和30.0 mIoU,比之前的最先進水平有8.3 PQ和7.9 mIoU的絕對提升。項目頁面可以在這個https URL中找到。

//www.zhuanzhi.ai/paper/33848c7c700a2f8865607247b7663849

付費5元查看完整內容

隨著網絡視頻采集設備和應用的廣泛發展,如何高效地為用戶提供所需的視頻內容提出了更高的要求。視頻摘要通過創建一個緊湊的視頻摘要,方便快速掌握視頻內容。很多人致力于視頻自動摘要,并提出了各種問題設置和方法。我們的目標是提供這個領域的概述。本綜述涵蓋了利用深度學習技術的早期研究以及最近的方法。我們描述了視頻摘要方法及其基本概念。我們還討論了基準和評估。我們概述了以前的工作如何處理評估,并詳細介紹了評估協議的優點和缺點。最后,我們將討論該領域的開放挑戰。

互聯網的廣泛使用和價格低廉的視頻捕獲設備極大地改變了視頻創作和消費的格局。特別是,隨著視頻流媒體服務和社交網絡的發展,用戶創建的視頻比以往任何時候都更加流行。視頻創作的快速增長需要先進的技術,以實現所需視頻內容的高效消費。這些場景包括提高視頻流服務觀眾的用戶體驗,為需要瀏覽大量視頻的視頻創作者和需要監控監控視頻的安全團隊提供快速視頻瀏覽功能。

視頻摘要通過創建一個緊湊的視頻摘要,方便快速掌握視頻內容。實現視頻摘要的一種簡單的方法是提高播放速度或以統一的間隔對短片段進行采樣。然而,前者會降低音頻質量并扭曲運動(Benaim et al., 2020),而后者可能由于方法的隨機采樣性質而錯過重要內容。與這些簡單的解決方案不同,視頻摘要的目的是提取觀眾想要的信息,以便更有效地瀏覽視頻。

根據不同的應用場景,視頻摘要的目的有很大的不同。對于體育比賽,觀眾希望看到對比賽結果至關重要的時刻,而對于監控,視頻摘要需要包含不尋常和值得注意的場景。隨著越來越多的視頻被創造出來,應用場景也在增長,例如,我們開始看到新的視頻類型,如視頻游戲直播和視頻博客(vlog)。這就導致了視頻摘要的新問題,因為不同類型的視頻具有不同的特點,觀眾對摘要有不同的要求。這種多樣化的應用刺激了該領域的異質研究。視頻摘要解決兩個主要問題:“一個理想的視頻摘要的本質是什么”和“我們如何為視頻內容建模”。答案取決于應用場景。雖然對于大多數應用程序場景,這些仍然是未解決的問題,但文獻中已經提出了許多有前途的想法。早期的工作對視頻摘要的需求做了各種假設,例如獨特性(較少冗余)、多樣性和趣味性。一些作品專注于制作與用戶意圖相關、涉及用戶交互的視頻摘要。最近的研究更多地關注于數據驅動方法,即從帶注釋的數據集學習所需的視頻摘要。

視頻內容的計算建模也是視頻摘要的一個重要挑戰。從低層次特征開始,應用了各種特征表示,如人臉識別和視覺顯著性。近年來,主要采用深度神經網絡的特征提取方法。一些應用程序進一步利用輔助信息,如紀錄片視頻的字幕,體育視頻的游戲日志,以及用可穿戴攝像頭捕捉的以自我為中心的視頻的腦電波。本綜述的目的是對視頻摘要文獻提供一個全面的概述。我們回顧了各種視頻摘要方法,并比較了它們的基本概念和假設。我們從提出了視頻摘要的開創性概念的早期工作開始,還介紹了利用端到端深度學習的最新數據驅動方法。通過對不同研究的應用場景和使用的技術進行分類,我們旨在幫助研究人員和實踐者建立針對不同目的和應用場景的視頻摘要系統。我們還回顧了現有的基準和評估協議,并討論了評估視頻摘要的關鍵挑戰,由于難以獲得地面真相摘要,這是不直接的。我們概述了以前的工作是如何解決圍繞評估的挑戰的,并討論了現有評估協議的優點和缺點。最后,我們討論這個領域的開放挑戰。

付費5元查看完整內容

自動化機器學習(AutoML)有望將原始數據轉換為準確的預測,而不需要大量的人力、專業知識和人工實驗。在這個講座式的教程中,我們將演示多模態AutoML的基本技術。與大多數專注于解決包含分類和數字特征的表格任務的AutoML系統不同,我們考慮對各種類型的數據(包括表格特征、文本和圖像及其組合)進行監督學習任務。我們強調的不是單個ML模型如何工作的技術描述,而是如何在接受原始訓練數據并輸出測試數據預測的整體ML流程中最好地使用模型。

我們教程的主要重點是自動構建和訓練深度學習模型,這些模型功能強大,但手動管理起來很麻煩。本教程中涉及的每個主題都附帶了一個實踐的Jupyter筆記本,它實現了最佳實踐(教程前后都可以在GitHub上獲得)。大部分代碼采用了AutoGluon,這是一個最新的開源AutoML工具包,它既先進又易于使用。

付費5元查看完整內容

基于時空記憶(STM)的視頻目標分割(VOS)網絡通常每隔幾幀不斷增加存儲庫,表現出良好的性能。然而,1)隨著視頻長度的增加,硬件無法承受不斷增長的內存需求。2)存儲大量的信息不可避免地會引入大量的噪聲,這不利于從存儲庫中讀取最重要的信息。在本文中,我們提出一種循環動態嵌入(RDE)來建立一個固定大小的存儲庫。具體來說,我們通過提出的時空聚合模塊(SAM)顯式地生成和更新RDE,該模塊利用歷史信息的線索。為了避免重復使用SAM造成的誤差積累,我們在訓練階段提出了無偏導損失,這使得SAM在長視頻中更穩健。此外,由于不準確的網絡推斷,在內存庫中預測的掩碼是不準確的,影響了查詢幀的分割。為了解決這一問題,我們設計了一種新的自校正策略,使網絡能夠修復存儲庫中不同質量的掩模嵌入。大量實驗表明,我們的方法在性能和速度之間取得了最好的折衷。代碼可在//github.com/ Limingxing00/RDE-VOS-CVPR2022獲得。

付費5元查看完整內容

論文摘要:參考視頻對象分割任務(RVOS)涉及在給定視頻的幀中分割文本引用的對象實例。由于這個多模式任務的復雜性,它結合了文本推理、視頻理解、實例分割和跟蹤,現有的方法通常依賴復雜的管道來處理它。在本文中,我們提出了一種簡單的基于Transformer器的RVOS方法。我們的框架稱為多模態跟蹤Transformer(MTTR),將RVOS任務建模為一個序列預測問題。隨著計算機視覺和自然語言處理的最新進展,MTTR基于這樣一種實現,即視頻和文本可以通過單一的多模態Transformer模型有效而優雅地一起處理。MTTR是端到端可訓練的,不需要文本相關的感應偏差組件,不需要額外的掩模改進后處理步驟。因此,與現有方法相比,它大大簡化了RVOS管道。對標準基準的評估表明,MTTR在多個指標上顯著優于以前的藝術。特別是,MTTR在A2D-Sentences和jhmd - sentences數據集上分別顯示了+5.7和+5.0的mAP增益,而每秒處理76幀。此外,我們報告了reference - youtube - vos公共驗證集的強勁結果,這是一個更具挑戰性的RVOS數據集,尚未得到研究人員的注意。
● 論文視頻://user-images.githubusercontent.com/29209964/143956960-73e84321-757f-4272-afc5-385900905093.mp4
● 論文鏈接:
● 論文代碼:
● 作者單位:以色列理工學院

付費5元查看完整內容

檢測語義異常具有挑戰性,因為它們可能以無數種方式出現在真實數據中。雖然增強網絡的健壯性可能足以對簡單異常進行建模,但沒有一種已知的好方法來準備模型,以應對可能發生的所有潛在的、看不見的異常,比如出現新的對象類。在本文中,我們展示了一個以前被忽視的異常檢測(AD)策略,即對從一些大型和多樣的語義任務轉移過來的表示引入一個顯式的歸納偏差。我們在使用干預的對照試驗中嚴格驗證了我們的假設,并表明它產生了出乎意料的有效輔助目標,優于以往的AD范式。

//proceedings.mlr.press/v139/deecke21a.html

付費5元查看完整內容
北京阿比特科技有限公司