亚洲男人的天堂2018av,欧美草比,久久久久久免费视频精选,国色天香在线看免费,久久久久亚洲av成人片仓井空

擴散模型(DMs)在高質量圖像合成中顯示出巨大的潛力。然而,在制作復雜場景的圖像時,如何正確地描述圖像的全局結構和對象細節仍然是一個具有挑戰性的任務。在這篇論文中,我們提出了Frido,一個特征金字塔擴散模型執行多尺度粗-細去噪過程的圖像合成。我們的模型將輸入圖像分解為尺度相關的矢量量化特征,然后進行從粗到細的調制生成圖像輸出。在上述多尺度表示學習階段,可以進一步利用文本、場景圖或圖像布局等附加輸入條件。因此,Frido也可以用于條件或交叉模態圖像合成。我們在各種無條件和有條件的圖像生成任務上進行了廣泛的實驗,從文本到圖像合成,從布局到圖像,從場景到圖像,到標簽到圖像。更具體地說,我們在五個基準上獲得了最先進的FID得分,分別是COCO和OpenImages上的布局到圖像,COCO和Visual Genome上的場景到圖像,以及COCO上的標簽到圖像。

//www.zhuanzhi.ai/paper/d6197fd1315f12b3d3cd40944d4d9272

付費5元查看完整內容

相關內容

人們普遍認為,一個詞的標題的不確定性越高,就需要更多相互關聯的上下文信息來確定它。然而,目前的圖像描述生成方法通常考慮順序、平等地生成句子中的所有單詞。在本文中,我們提出了一個不確定性感知的圖像描述成框架,該框架并行迭代地在已有詞之間從易到難插入不連續候選詞,直到收斂。我們假設句子中的高不確定性詞需要更多的先驗信息才能做出正確的決定,應該在后面的階段產生。由此產生的非自回歸層次結構使得標題生成可解釋且直觀。具體來說,我們利用圖像條件下的單詞袋模型來測量單詞的不確定度,并應用動態規劃算法來構造訓練對。在推理過程中,我們設計了一種不確定性自適應并行波束搜索技術,它產生了一個經驗對數時間復雜度。在MS COCO基準上的大量實驗表明,我們的方法在描述質量和解碼速度上都優于強基準和相關方法。

//www.zhuanzhi.ai/paper/51c79cb91932a14e0000e8d71d3f8399

付費5元查看完整內容

論文題目:Advancing High-Resolution Video-Language Representation with Large-Scale Video Transcriptions

作者:薛宏偉*,杭天愷*,曾艷紅*,孫宇沖*,劉蓓,楊歡,傅建龍,郭百寧 論文概述:我們研究了視頻和語言(VL)的聯合預訓練,以實現跨模態學習并使大量的下游VL任務受益。現有的研究要么是提取低質量的視頻特征,要么是學習有限的文本嵌入,而忽略了高分辨率的視頻和多樣化的語義可以顯著增強跨模態學習。在本文中,我們提出了一個新穎的高分辨率和多樣化的視頻-文本預訓練模型(HD-VILA),用于許多視覺任務。我們收集了一個具有兩個特性的大型數據集:(1)高分辨率,包括371.5K小時的720p視頻,以及(2)多樣化,涵蓋15個流行的YouTube類別。為了實現VL預訓練,我們通過一個混合Transformer和一個多模態Transformer來共同優化HD-VILA模型,前者學習豐富的時空特征,后者進行視頻特征與多樣化文本的交互。我們的預訓練模型在10個VL理解任務和2個文本到視覺的生成任務中取得了最先進的結果。例如,我們在zero-shot MSR-VTT文本到視頻檢索任務中超越了SOTA模型,相對增加了38.5%R@1,在高分辨率數據集LSMDC中增加了53.6%。學習到的VL嵌入在文本到視覺編輯和超分辨率任務中也能有效地產生視覺效果好、語義上的相關結果。

付費5元查看完整內容

Towards Robust Visual Information Extraction in Real World: New Dataset and Novel Solution

近年來,視覺信息提取技術因其在文檔理解、自動標注、智能教育等方面的先進應用而備受關注。現有的研究大多將這一問題解耦為文本點識別(text detection and recognition)和信息提取幾個獨立的子任務,在優化過程中完全忽略了它們之間的高相關性。在本文中,我們提出了一個面向真實場景的魯棒視覺信息提取系統(VIES),它是一個統一的端到端可訓練的框架,以單個文檔圖像作為輸入和輸出結構化信息,同時進行文本檢測、識別和信息提取。信息提取分支從文本點識別中收集豐富的視覺和語義表征,進行多模態特征融合,提供更高層次的語義線索,有助于文本點識別的優化。此外,針對公共基準的不足,我們構建了一個全注釋數據集EPHOIE (//github.com/HCIILAB/EPHOIE),該數據集是第一個同時用于文本識別和視覺信息提取的中文基準。EPHOIE包含1,494張復雜布局和背景的試卷頭圖像,包括15,771個中文手寫或打印文本實例。與最先進的方法相比,我們的VIES在EPHOIE數據集中顯示了顯著的優越性能,并且在端到端場景下,在廣泛使用的SROIE數據集上獲得9.01%的F-score增益。

付費5元查看完整內容
北京阿比特科技有限公司