卷積神經網絡(CNN)是基于深度學習的醫學圖像分析中最流行的架構,但其固有的歸納偏差和不充分的接受域仍然在功能上受到限制。為了解決這個問題而誕生的Transformer,由于其在捕獲遠程依賴關系方面的卓越能力,在自然語言處理和計算機視覺領域引起了爆炸性的關注。然而,最新的基于變壓器的醫學圖像分割方法在基于CNN的方法中直接將普通Transformer作為輔助模塊,由于Transformer中的patch劃分方法過于嚴格,導致了嚴重的細節丟失。為了解決這個問題,我們提出了C2FTrans,一種新穎的多尺度架構,將醫學圖像分割作為一個從粗到細的過程。C2FTrans主要由一個跨尺度的全局Transformer(CGT)和一個邊界感知的局部Transformer(BLT)組成,前者處理CNN中的局部上下文相似性,后者克服了Transformer中剛性patch劃分帶來的邊界不確定性。CGT在三個不同的小尺度特征映射之間構建全局依賴關系,以可接受的計算成本獲得豐富的全局語義特征;BLT在熵的指導下,自適應地在邊界周圍生成窗口,以降低基于大尺度特征映射的計算復雜度和細節損失。在三個公共數據集上的大量實驗結果表明,C2FTrans在參數更少、故障更低的情況下,相對于最先進的基于CNN和基于Transformer的方法具有更好的性能。我們相信,C2FTrans的設計將進一步啟發未來開發高效、輕量化的醫學圖像分割Transformer的工作。本文的源代碼在//github.com/xianlin7/C2FTrans上公開。
卷積神經網絡通過逐步探索上下文和語義特征在邊緣檢測方面取得了重大進展。然而,隨著感受野的擴大,局部細節逐漸被抑制。最近,視覺Transformer在捕獲遠程依賴方面表現出出色的能力。受此啟發,我們提出了一種新穎的基于Transformer的邊緣檢測器,邊緣檢測Transformer(EDTER)。通過同時利用完整的圖像上下文信息和詳細的局部線索來提取清晰明快的對象邊界和有意義的邊緣。EDTER 分兩個階段工作。在第一階段,全局Transformer編碼器用于在粗粒度圖像塊上捕獲遠程全局上下文。然后在第二階段,局部Transformer編碼器在細粒度補丁上工作以挖掘短程本地線索。每個Transformer編碼器后面都有一個精心設計的雙向多級聚合解碼器,以實現高分辨率特征。最后,全局上下文和局部線索由特征融合模塊組合并輸入決策頭進行邊緣預測。在 BSDS500、NYUDv2 和 Multicue 上進行的大量實驗證明了 EDTER 與最先進技術相比的優越性。
//www.zhuanzhi.ai/paper/caf1c942ec21ace11a0a80157fe4d35f
【導讀】作為計算機視覺領域的三大國際頂會之一,ICCV 每年都會吸引全球領域眾多專業人士參與。不久前,ICCV2021接收結果已經公布,本次ICCV共計 6236 篇有效提交論文,其中有 1617 篇論文被接收,接收率為25.9%。
為此,專知小編為大家整理了五篇 ICCV 2021 語義分割(Semantic Segmentation)相關研究和應用,這塊這幾年一直比較受關注——弱監督語義分割、半監督語義分割、無監督語義分割、少樣本語義分割、實例分割
CVPR2021CL、CVPR2021DA、CVPR2021IVC、CVPR2021PID、CVPR2021IC、CVPR2021VU、CVPR2021OD、CVPR2021OT、CVPR2021AR
1. Leveraging Auxiliary Tasks with Affinity Learning for Weakly Supervised Semantic Segmentation
作者:Lian Xu, Wanli Ouyang, Mohammed Bennamoun, Farid Boussaid, Ferdous Sohel, Dan Xu
摘要:在缺乏大量標記數據的情況下,語義分割是一項具有挑戰性的任務。僅依靠具有圖像級標簽的類激活圖 (CAM) 作為語義分割的監督信息是遠遠不夠的。因此,先前的工作用預訓練的模型來生成粗粒度的顯著圖(Saliency Map),以指導偽分割標簽的生成。然而,常用的離線啟發式生成過程不能充分利用這些粗顯著圖的優點。受顯著的任務間相關性的啟發,本文提出了一種新的弱監督多任務框架,稱為AuxSegNet,利用顯著性檢測和多標簽圖像分類作為輔助任務,僅使用圖像級真實標簽來改進語義分割的主要任務。受它們相似的結構化語義的啟發,本文還提出從顯著性和分割表示中學習跨任務全局像素級親和圖。學習到的跨任務親和性可用于改進顯著性預測,并傳播 CAM 映射,從而為這兩個任務提供改進的偽標簽。偽標簽更新和跨任務親和學習之間的相互促進,使得分割性能得到迭代改進。大量實驗證明了本文所提出的輔助學習網絡結構和跨任務親和學習方法的有效性。該方法在具有挑戰性的PASCAL VOC 2012和MS COCO基準測試中達到了最先進的弱監督分割性能。
論文: //arxiv.org/abs/2107.11787
代碼:
2. Re-distributing Biased Pseudo Labels for Semi-supervised Semantic Segmentation: A Baseline Investigation
作者:Ruifei He, Jihan Yang, Xiaojuan Qi
摘要:雖然自訓練具有先進的半監督語義分割,但它嚴重受到現實世界語義分割數據集上的長尾類分布的影響,導致偽標記數據偏向于多數類。本文提出了一種簡單而有效的分布對齊和隨機采樣 (DARS) 方法,來生成無偏偽標簽,來與標記數據中估計的真實類別分布匹配。此外,本文還提供了漸進式數據增強和標記策略,以促進使用偽標記數據進行模型訓練。Cityscapes 和 PASCAL VOC 2012 數據集的實驗證明了本文方法的有效性。盡管很簡單,但與最先進的方法相比,本文的方法表現不錯。
論文:
代碼:
3. Labels4Free: Unsupervised Segmentation using StyleGAN
作者:Rameen Abdal, Peihao Zhu, Niloy Mitra, Peter Wonka
摘要:
本文為StyleGAN生成的目標對象提出了一個無監督的分割框架。本文基于兩個主要觀察結果。首先,StyleGAN生成的特征包含有價值的信息,可用于訓練分割網絡。其次,前景和背景通常可以被視為在很大程度上是獨立的,并以不同的方式合成。對于本文的解決方案,本文提出使用分割分支來增強StyleGAN2生成器架構,并將生成器拆分為前景和背景網絡。這使本文能夠以無監督的方式為前景對象生成軟分割掩碼。在多個對象類別上,本文報告了與最先進的監督分割網絡的可比結果,而與最佳的無監督分割方法相比,本文在定性和定量指標上都表現出了明顯的改進。
論文:
4. Mining Latent Classes for Few-shot Segmentation
作者:Lihe Yang, Wei Zhuo, Lei Qi, Yinghuan Shi, Yang Gao
摘要:少樣本分割(FSS)旨在僅在給定幾個帶注釋的樣本的情況下分割不可見的類。現有方法存在特征破壞的問題,即在訓練階段將潛在的新類作為背景。本文的方法旨在緩解這個問題并增強潛在新類的特征嵌入。在本文的工作中,本文提出了一種新穎的聯合訓練框架。基于對支持-查詢對的常規情景訓練,本文添加了一個額外的挖掘分支,該分支通過可轉移的子集群利用潛在的新類,并在背景和前景類別上采用新校正技術,以得到更穩定的原型。除此之外,本文的可轉移子集群能夠利用額外的未標記數據來進一步增強特征。在兩個 FSS 基準測試中的大量實驗表明,本文的方法在PASCAL-5i上mIOU提升3.7%,在COCO-20i上的mIOU提升7.0%,大幅優于以前的最先進技術,參數減少了74%,推理速度提升2.5 倍。
論文:
5. Rank & Sort Loss for Object Detection and Instance Segmentation
作者:Kemal Oksuz, Baris Can Cam, Emre Akbas, Sinan Kalkan
摘要:本文提出Rank & Sort (RS) Loss,作為基于排序的損失函數來訓練深度目標檢測和實例分割方法(即視覺檢測器)。RS Loss監督分類器,分類器是這些方法的一個子網絡,來將每個正例排在所有負例之上,并根據(wrt.)它們的連續定位質量(例如 Intersection-over-Union - IoU)在它們之間對正例進行排序。為了解決排序和排序的不可區分性,本文將錯誤驅動更新與反向傳播的結合重新制定為Identity Update,這使本文能夠對正樣本中的新排序錯誤進行建模。使用 RS Loss,本文顯著地簡化了訓練:(i)由于本文的排序目標,分類器優先考慮正例,而無需額外的輔助頭(例如,centerness、IoU、mask-IoU),(ii)由于基于排序的性質,RS Loss對類不平衡具有魯棒性,因此,不需要采樣啟發式(iii)本文使用無微調任務平衡系數來解決視覺檢測器的多任務性質。使用 RS Loss,本文僅通過調整學習率來訓練七個不同的視覺檢測器,并表明它始終優于基線:例如本文的 RS Loss將 (i) 在 COCO 數據集上,Faster R-CNN 上box AP提高了3,而 aLRP Loss(基于排名的基線)提高了2,(ii)LVIS 數據集上,具有重復因子采樣(RFS)的 Mask R-CNN 上mask AP提高了 3.5(稀有類約為 7);并且也優于所有同行。
論文:
代碼:
本文是第一個將Transformers應用于視頻分割領域的方法。視頻實例分割指的是同時對視頻中感興趣的物體進行分類,分割和跟蹤的任務。現有的方法通常設計復雜的流程來解決此問題。本文提出了一種基于Transformers的視頻實例分割新框架VisTR,該框架將視頻實例分割任務視為直接端到端的并行序列解碼和預測的問題。給定一個含有多幀圖像的視頻作為輸入,VisTR直接按順序輸出視頻中每個實例的掩碼序列。該方法的核心是一種新的實例序列匹配和分割的策略,該策略在整個序列級別上對實例進行監督和分割。VisTR將實例分割和跟蹤統一到了相似度學習的框架下,從而大大簡化了流程。在沒有任何trick的情況下,VisTR在所有使用單一模型的方法中獲得了最佳效果,并且在YouTube-VIS數據集上實現了最快的速度。
//www.zhuanzhi.ai/paper/0dfba6abdc5e6a189d86770822c17859
題目: Embracing Imperfect Datasets:A Review of Deep Learning Solutions for Medical Image Segmentation
摘要: 醫學影像文獻在基于卷積神經網絡的高性能分割模型方面取得了顯著進展。盡管新的性能很高,最近的高級分割模型仍然需要海量的、典型的,高質量的帶有標簽的數據集。然而,我們很少有一個完美的訓練數據集,特別是在醫學圖像領域,因為獲取數據和打標簽都是昂貴的。近年來,大量的研究對不完全數據集的醫學圖像分割問題進行了研究,解決了兩大數據集的局限性:一是訓練有標簽的數據太少,只有有限的標簽數據可用;二是訓練數據只有稀疏標簽、噪聲標簽或圖像級標簽的軟標簽。在本文中,我們對上述解決方案進行了詳細的回顧,總結了技術創新和經驗結果。我們進一步比較涉及的方法的好處和要求,并提供我們推薦的解決方案。我們希望這篇綜述文章能提高公眾對處理不完善的醫學圖像分割數據集的技術的認識。