亚洲男人的天堂2018av,欧美草比,久久久久久免费视频精选,国色天香在线看免费,久久久久亚洲av成人片仓井空

本文是北京大學&華為諾亞等聯合提出的一種圖像處理Transformer。Transformer自提出之日起即引起極大的轟動,BERT、GPT-3等模型迅速占用NLP各大榜單;后來Transformer被用于圖像分類中同樣引起了轟動;再后來,Transformer在目標檢測任務中同樣引起了轟動。現在Transformer再出手,占領了low-level多個任務的榜首,甚至它在去雨任務上以1.6dB超越了已有最佳方案。

論文鏈接: //arxiv.org/abs/2012.00364

Abstract

隨機硬件水平的提升,在大數據集上預訓練的深度學習模型(比如BERT,GPT-3)表現出了優于傳統方法的有效性。transformer的巨大進展主要源自其強大的特征表達能力與各式各樣的架構。

在這篇論文中,作者對low-level計算機視覺任務(比如降噪、超分、去雨)進行了研究并提出了一種新的預訓練模型:IPT(image processing transformer)。為最大挖掘transformer的能力,作者采用知名的ImageNet制作了大量的退化圖像數據對,然后采用這些訓練數據對對所提IPT(它具有多頭、多尾以適配多種退化降質模型)模型進行訓練。此外,作者還引入了對比學習以更好的適配不同的圖像處理任務。經過微調后,預訓練模型可以有效的應用不到的任務中。僅僅需要一個預訓練模型,IPT即可在多個low-level基準上取得優于SOTA方案的性能。

付費5元查看完整內容

相關內容

預訓練模型是深度學習架構,已經過訓練以執行大量數據上的特定任務(例如,識別圖片中的分類問題)。這種訓練不容易執行,并且通常需要大量資源,超出許多可用于深度學習模型的人可用的資源。

預訓練已被證實能夠大大提升下游任務的性能。傳統方法中經常利用大規模的帶圖像標注分類數據集(如 ImageNet)進行模型監督預訓練,近年來自監督學習方法的出現,讓預訓練任務不再需要昂貴的人工標簽。然而,絕大多數方法都是針對圖像分類進行設計和優化的。但圖像級別的預測和區域級別 / 像素級別存在預測差異,因此這些預訓練模型在下游的密集預測任務上的性能可能不是最佳的。

基于此,來自阿德萊德大學、同濟大學、字節跳動的研究者設計了一種簡單且有效的密集自監督學習方法,不需要昂貴的密集人工標簽,就能在下游密集預測任務上實現出色的性能。目前該論文已被 CVPR 2021 接收。

//www.zhuanzhi.ai/paper/4b31c2807b7c37ca49ca8f7c43b4b7d4

該研究提出的新方法 DenseCL(Dense Contrastive Learning)通過考慮局部特征之間的對應關系,直接在輸入圖像的兩個視圖之間的像素(或區域)特征上優化成對的對比(不相似)損失來實現密集自監督學習。

兩種用于表征學習的對比學習范式的概念描述圖。

現有的自監督框架將同一張圖像的不同數據增強作為一對正樣本,利用剩余圖像的數據增強作為其負樣本,構建正負樣本對實現全局對比學習,這往往會忽略局部特征的聯系性與差異性。該研究提出的方法在此基礎上,將同一張圖像中最為相似的兩個像素(區域)特征作為一對正樣本,而將余下所有的像素(區域)特征作為其負樣本實現密集對比學習。

具體而言,該方法去掉了已有的自監督學習框架中的全局池化層,并將其全局映射層替換為密集映射層實現。在匹配策略的選擇上,研究者發現最大相似匹配和隨機相似匹配對最后的精度影響非常小。與基準方法 MoCo-v2[1] 相比,DenseCL 引入了可忽略的計算開銷(僅慢了不到 1%),但在遷移至下游密集任務(如目標檢測、語義分割)時,表現出了十分優異的性能。

付費5元查看完整內容

本文是第一個將Transformers應用于視頻分割領域的方法。視頻實例分割指的是同時對視頻中感興趣的物體進行分類,分割和跟蹤的任務。現有的方法通常設計復雜的流程來解決此問題。本文提出了一種基于Transformers的視頻實例分割新框架VisTR,該框架將視頻實例分割任務視為直接端到端的并行序列解碼和預測的問題。給定一個含有多幀圖像的視頻作為輸入,VisTR直接按順序輸出視頻中每個實例的掩碼序列。該方法的核心是一種新的實例序列匹配和分割的策略,該策略在整個序列級別上對實例進行監督和分割。VisTR將實例分割和跟蹤統一到了相似度學習的框架下,從而大大簡化了流程。在沒有任何trick的情況下,VisTR在所有使用單一模型的方法中獲得了最佳效果,并且在YouTube-VIS數據集上實現了最快的速度。

//www.zhuanzhi.ai/paper/0dfba6abdc5e6a189d86770822c17859

付費5元查看完整內容

人臉復原 (Face Restoration) 是指從低質量的人臉中復原得到高清的人臉。真實世界中的人臉復原是一個很有挑戰的任務,因為降質 (degradation) 過程復雜且不盡相同。來自騰訊 PCG 應用研究中心 (ARC) 的研究者們提出了利用預先訓練好的人臉生成模型提供的先驗,來指導人臉復原的任務。

真實世界的人臉復原是一個盲問題,即我們不清楚降質過程, 在實際應用中,同時也面臨著各種各樣降質過程的挑戰。對于人臉這個特定的任務, 之前的工作往往會探索人臉特定的先驗, 并且取得了較好的效果。常見的人臉先驗有兩類:

幾何人臉先驗, 比如人臉關鍵點、人臉分割圖、人臉熱力圖。然而從低質量的圖片中很難取得比較準確的幾何信息。此外, 它們很難提供紋理方面的信息。

參考圖,即從數據庫中取得相同或者相似的人臉作為參考 (Reference) 來復原。但是這樣的高質量的參考圖在實際中很難獲取。ECCV20 提出的 DFDNet 工作進一步構建了一個人臉五官的字典來作為參考, 它可以取得更好的效果, 但是會受限于字典的容量, 而且只考慮了五官, 沒有考慮整個臉。

與此同時, 生成對抗網絡 GAN 的蓬勃發展, 特別是 StyleGAN2 能夠生成足夠以假亂真的人臉圖像給來自騰訊 PCG 應用研究中心 (ARC) 的研究者們提供了一個思路: 是否可以利用包含在人臉生成模型里面的「知識」來幫助人臉復原呢?

研究核心利用了包含在訓練好的人臉生成模型里的「知識」, 被稱之為生成人臉先驗 (Generative Facial Prior, GFP)。它不僅包含了豐富的五官細節, 還有人臉顏色, 此外它能夠把人臉當作一個整體來對待, 能夠處理頭發、耳朵、面部輪廓。基于預訓練好的生成模型, 研究者們提出了利用生成人臉先驗 GFP 的人臉復原模型 GFP-GAN。先來看看它做到的效果:

相比于近幾年其他人臉復原的工作, GFP-GAN 不僅在五官恢復上取得了更好的細節, 整體也更加自然, 同時也能夠對顏色有一定的增強作用。

付費5元查看完整內容

本文研究了卷積神經網絡(CNN)和視覺語言預訓練Transformer(VLPT)的聯合學習,旨在從數百萬個圖像-文本對中學習跨模態對齊。當前大多數文章都是先抽取出圖像中的顯著性區域,再將其與文字一一對齊。由于基于區域的視覺特征通常代表圖像的一部分,因此現有的視覺語言模型要充分理解配對自然語言的語義是一項挑戰。由于基于區域的視覺特征通常代表圖像的一部分,現有的視覺語言模型很難完全理解成對自然語言的語義。本文提出SOHO“開箱即看”的概念,將完整的圖像為輸入,以一種端到端的方式學習視覺語言表達。SOHO不需要邊界框標注,這使得推理速度比基于區域的方法快10倍。特別地,SOHO學會了通過視覺詞典(VD)來提取全面而緊湊的圖像特征,這有助于跨模態理解。大量的實驗結果也驗證了本文SOHO的有效性。

//www.zhuanzhi.ai/paper/a8c52c4b641c0a5bc840a955b6258b39

付費5元查看完整內容

通過一個transformer編碼器-解碼器架構的目標檢測transformers (DETR)取得了與Faster R-CNN相匹配的性能。受預訓練transformer在自然語言處理中取得的巨大成功的啟發,我們提出了一種基于隨機查詢補丁檢測的無監督預訓練目標檢測任務。具體地說,我們從給定的圖像中隨機裁剪小塊,然后將它們作為查詢輸入解碼器。該模型經過預訓練,從原始圖像中檢測出這些查詢補丁。在預訓練,我們解決了兩個關鍵問題:多任務學習和多查詢定位。(1)為了權衡在前置任務中分類和定位的多任務學習,我們凍結CNN骨干,提出一個與patch檢測聯合優化的patch特征重構分支。(2)為實現多查詢定位,我們引入了單查詢補丁的UP-DETR ,并將其擴展為具有對象查詢洗牌和注意掩碼的多查詢補丁。在我們的實驗中,UP-DETR算法在PASCAL VOC和COCO數據集上具有更快的收斂速度和更高的精度,顯著提高了DETR算法的性能。代碼很快就會發布。

付費5元查看完整內容
北京阿比特科技有限公司