亚洲男人的天堂2018av,欧美草比,久久久久久免费视频精选,国色天香在线看免费,久久久久亚洲av成人片仓井空

基于Transformers 從序列到序列的角度重新思考語義分割

Rethinking Semantic Segmentation from a Sequence-to-Sequence Perspective with Transformers

我們希望為語義分割方法提供另一種思路,將語義分割轉變為序列到序列的預測任務。在本文中,我們使用transformer(不使用卷積和降低分辨率)將圖像編碼為一系列patch序列。transformer的每一層都進行了全局的上下文建模,結合常規的Decoder模塊,我們得到了一個強大的語義分割模型,稱之為Segmentation transformer(SETR)。大量實驗表明,SETR在ADE20K(50.28%mIoU),Pascal Context(55.83%mIoU)上達到SOTA,并在Cityscapes上取得了較好結果。

付費5元查看完整內容

相關內容

Transformer是谷歌發表的論文《Attention Is All You Need》提出一種完全基于Attention的翻譯架構

知識薈萃

精品入門和進階教程、論文和代碼整理等

更多

查看相關VIP內容、論文、資訊等

BiSeNet已被證明在實時分割two-stream網絡中是有效的。但是,其添加額外path以對空間信息進行編碼的原理很耗時,并且由于缺少任務專用設計,因此從預訓練任務(例如圖像分類)中借用的主干可能無法有效地進行圖像分割。

為了解決這些問題,作者提出了一種新穎且有效的結構,即通過消除結構冗余來緩解以上的耗時問題(Short-Term Dense Concatenate network)。具體來說,本文將特征圖的維數逐漸降低,并將特征圖聚合起來進行圖像表征,形成了STDC網絡的基本模塊。在decoder中,提出了一個Detail Aggregation module將空間信息的學習以single-stream方式集成到low-level layers中。最后,將low-level features和deep features融合以預測最終的分割結果。

付費5元查看完整內容

基于CAM的弱監督定位方法主要通過多樣的空間正則提高目標響應區域,忽略了模型中隱含的目標結構信息。我們提出了基于高階相似性的目標定位方法 (SPA),充分挖掘了模型隱含的目標結構信息,顯著提高了弱監督目標定位準確度。

目前代碼已開源:

//github.com/Panxjia/SPA_CVPR2021

弱監督目標檢測近年來逐漸受到國內外研究機構以及工業界關注。基于全監督的目標檢測方法需要耗費大量的人力、物力獲取大量準確的標注信息,對于任務更新以及遷移極其不友好。近年來,全世界范圍內的研究者試圖從弱監督學習方面突破標注數據的限制,為目標檢測尋找一種更加高效、低廉的解決框架

弱監督定位研究如何僅利用圖像的類別標簽對圖像中目標進行定位。

2014年MIT提出的類別響應圖CAM,得到目標的響應掩模,之后通過最小包圍框得到目標的定位結果。CAM得到的類別響應掩模只能覆蓋目標最具判別性的局部區域,如圖1第二行所示。后續的研究工作多通過空間正則技術,如通過擦除、多分支補充等方法試圖擴大類別響應區域。雖然在響應區域上有一定的改善,但是現有的工作均忽略了保持目標結構特性的重要性,無法刻畫目標的邊緣、形狀等特性。另外,現有方法的分類網絡均采用Global Average Pooling(GAP)結構對特征進行聚合,這在一定程度上損失了目標的結構信息。

本文提出了一種兩階段的弱監督目標定位方法(SPA),從模型結構與類別響應圖兩個方面優化定位結果,提高響應掩模的準確度。整體方法框架如圖2所示。

具體地,從模型結構方面,我們提出了受限激活模塊。

現有方法中往往采用Global Average Pooling (GAP)+Softmax的分類結構,這種結構導致模型丟失目標結構信息,主要原因包括:

一,GAP結構將前景目標與背景區域混為一談,限制了模型定位前景目標的能力;

二,無限制的類別響應特征圖往往出現局部極高響應誤導模型分類的現象,不利于模型準確定位到目標的位置。

因此,我們設計了一個簡單有效的受限激活模塊,主要包括兩個部分:

一,我們首先通過計算每個特征位置在類別響應圖上的方差分布得到粗略的偽mask, 用以區分前背景;

二,我們利用Sigmoid操作對類別響應特征圖進行歸一化,之后利用提出的受限激活損失函數引導模型關注目標前景區域。

付費5元查看完整內容

Mobile Network設計的最新研究成果表明,通道注意力(例如,SE注意力)對于提升模型性能具有顯著效果,但它們通常會忽略位置信息,而位置信息對于生成空間選擇性attention maps是非常重要。

因此在本文中,作者通過將位置信息嵌入到通道注意力中提出了一種新穎的移動網絡注意力機制,將其稱為“Coordinate Attention”。

與通過2維全局池化將特征張量轉換為單個特征向量的通道注意力不同,coordinate注意力將通道注意力分解為兩個1維特征編碼過程,分別沿2個空間方向聚合特征。這樣,可以沿一個空間方向捕獲遠程依賴關系,同時可以沿另一空間方向保留精確的位置信息。然后將生成的特征圖分別編碼為一對方向感知和位置敏感的attention map,可以將其互補地應用于輸入特征圖,以增強關注對象的表示。

本文所提的Coordinate注意力很簡單,可以靈活地插入到經典的移動網絡中,例如MobileNetV2,MobileNeXt和EfficientNet,而且幾乎沒有計算開銷。大量實驗表明,Coordinate注意力不僅有益于ImageNet分類,而且更有趣的是,它在下游任務(如目標檢測和語義分割)中表現也很好。

付費5元查看完整內容

本文是第一個將Transformers應用于視頻分割領域的方法。視頻實例分割指的是同時對視頻中感興趣的物體進行分類,分割和跟蹤的任務。現有的方法通常設計復雜的流程來解決此問題。本文提出了一種基于Transformers的視頻實例分割新框架VisTR,該框架將視頻實例分割任務視為直接端到端的并行序列解碼和預測的問題。給定一個含有多幀圖像的視頻作為輸入,VisTR直接按順序輸出視頻中每個實例的掩碼序列。該方法的核心是一種新的實例序列匹配和分割的策略,該策略在整個序列級別上對實例進行監督和分割。VisTR將實例分割和跟蹤統一到了相似度學習的框架下,從而大大簡化了流程。在沒有任何trick的情況下,VisTR在所有使用單一模型的方法中獲得了最佳效果,并且在YouTube-VIS數據集上實現了最快的速度。

//www.zhuanzhi.ai/paper/0dfba6abdc5e6a189d86770822c17859

付費5元查看完整內容

Neural Architecture Search with Random Labels 現有的主流NAS算法通過子網絡在驗證集上的預測性能來進行模型搜索,但是在參數共享機制下,驗證集上的預測性能和模型真實性能存在較大的差異。我們首次打破了這種基于預測性能進行模型評估的范式,從模型收斂速度的角度來進行子網絡評估并假設:模型收斂速度越快,其對應的預測性能越高。

基于模型收斂性框架,我們發現模型收斂性與圖像真實標簽無關,便進一步提出使用隨機標簽進行超網絡訓練的新NAS范式-RLNAS。RLNAS在多個數據集(NAS-Bench-201,ImageNet)以及多個搜索空間(DARTS,MobileNet-like)進行了驗證,實驗結果表明RLNAS僅使用隨機標簽搜索出來的結構便能達到現有的NAS SOTA的水平。RLNAS初聽比較反直覺,但其出乎意料的好結果為NAS社區提出了一組更強的基線,同時也進一步啟發了對NAS本質的思考。 //www.zhuanzhi.ai/paper/73ff2aa2c413ba1035d0c205173ca72a

付費5元查看完整內容

通過一個transformer編碼器-解碼器架構的目標檢測transformers (DETR)取得了與Faster R-CNN相匹配的性能。受預訓練transformer在自然語言處理中取得的巨大成功的啟發,我們提出了一種基于隨機查詢補丁檢測的無監督預訓練目標檢測任務。具體地說,我們從給定的圖像中隨機裁剪小塊,然后將它們作為查詢輸入解碼器。該模型經過預訓練,從原始圖像中檢測出這些查詢補丁。在預訓練,我們解決了兩個關鍵問題:多任務學習和多查詢定位。(1)為了權衡在前置任務中分類和定位的多任務學習,我們凍結CNN骨干,提出一個與patch檢測聯合優化的patch特征重構分支。(2)為實現多查詢定位,我們引入了單查詢補丁的UP-DETR ,并將其擴展為具有對象查詢洗牌和注意掩碼的多查詢補丁。在我們的實驗中,UP-DETR算法在PASCAL VOC和COCO數據集上具有更快的收斂速度和更高的精度,顯著提高了DETR算法的性能。代碼很快就會發布。

付費5元查看完整內容

通常而言,性能和效率對語義分割同樣很重要。最新的語義分割算法主要基于空洞卷積的全卷積網絡(dilatedFCN),該網絡在主干網絡中采用空洞卷積來提取高分辨率的特征圖以實現高性能的分割性能。但是,由于高分辨率特征圖上進行了許多卷積運算,因此這種基于FCN的空洞卷積方法導致較大的計算復雜性和內存消耗。為了平衡性能和效率,出現了編碼器-解碼器結構,主要融合來自編碼器的多級特征圖來逐漸恢復空間信息。然而,現有的編碼器-解碼器方法的性能遠不能與基于空洞卷積的FCN的方法相媲美。在本文中,提出了一種Ef-ficientFCN方法,其主干網絡是一個普通的ImageNet預訓練網絡,沒有使用任何空洞卷積。另外,在網絡中引入了整體引導(holistically-guided )的解碼器,以通過編碼器的多尺度特征獲得高分辨率的語義豐富的特征圖。解碼任務被轉換為新的codebook生成(codebook generation)和codeword匯編( codeword assembly)任務,這利用了編碼器的高層和低層特征。這樣的框架僅以1/3的計算成本即可達到與最新方法相當甚至更好的性能。實驗部分,在PASCAL Context,PASCAL VOC,ADE20K數據集上進行了大量實驗驗證了所提出的EfficientFCN的有效性。

付費5元查看完整內容
北京阿比特科技有限公司