對于圖像分割,目前的標準是通過線性超平面在歐幾里德輸出嵌入空間中進行像素級優化和推理。**在這項工作中,我們表明雙曲流形為圖像分割提供了一個有價值的替代方案,并提出了一個易于處理的公式,層次像素級分類在雙曲空間。**雙曲圖像分割為分割開辟了新的可能性和實際的好處,如自由不確定性估計和邊界信息,零標簽泛化,提高了低維輸出嵌入的性能。
Affine Medical Image Registration with Coarse-to-Fine Vision Transformer Authors: Tony C. W. Mok, Albert C. S. Chung
仿射配準是綜合醫學圖像配準過程中不可缺少的環節。然而,關于快速、魯棒的仿射配準算法的研究卻很少。這些研究大多利用卷積神經網絡(convolutional neural network, CNNs)學習聯合仿射和非參數配準,而仿射子網絡的獨立性能研究較少。此外,現有的基于CNN的仿射配準方法要么關注輸入的局部不對齊,要么關注輸入的全局方向和位置來預測仿射變換矩陣,這些方法對空間初始化很敏感,除了訓練數據集之外,泛化能力有限。本文提出了一種快速、魯棒的基于學習的三維仿射醫學圖像配準算法——粗糙-精細視覺Transformer (C2FViT)。我們的方法自然地利用了卷積視覺轉換器的全局連接性和局部性,以及多分辨率策略來學習全局仿射配準。對該方法進行了三維腦圖譜配準和模板匹配歸一化的評價。綜合結果表明,我們的方法在保持基于學習方法的運行時間優勢的同時,在配準精度、魯棒性和通用性方面都優于現有的基于CNN的仿射配準方法。源代碼可以在//github.com/cwmok/C2FViT上找到。
Class Re-Activation Maps for Weakly-Supervised Semantic Segmentation(弱監督語義分割的類重新激活圖) code://github.com/zhaozhengChen/ReCAM
本文介紹了一種非常簡單高效的方法:使用名為 ReCAM 的 softmax 交叉熵損失 (SCE) 重新激活具有 BCE 的收斂 CAM。給定一張圖像,本文使用 CAM 提取每個類的特征像素,并使用它們與類標簽一起使用 SCE 學習另一個全連接層(在主干之后)。收斂后,本文以與 CAM 中相同的方式提取 ReCAM。由于 SCE 的對比性質,像素響應被分解為不同的類別,因此預期的掩碼模糊性會更小。對 PASCAL VOC 和 MS COCO 的評估表明,ReCAM 不僅可以生成高質量的遮罩,還可以在任何 CAM 變體中以很少的開銷支持即插即用。
弱監督目標定位(WSOL)只關注在圖像級分類掩碼的監督下進行對象定位。以前的大多數WSOL方法都遵循分類激活映射(classification activation map, CAM),它使用多實例學習(MIL)機制基于分類結構對目標進行本地化。然而,MIL機制使得CAM只能激活識別目標的部分而不能激活整個目標,削弱了其本地化目標的性能。**為了避免這一問題,本文提出了一種新的視角,將WSOL建模為域適應(DA)任務,即在源/圖像域上訓練的分數估計器在目標/像素域上進行測試以定位目標。**在此視角下,DA-WSOL流程設計可以更好地將DA方法引入到WSOL中,以提高本地化性能。利用所提出的目標采樣策略來選擇不同類型的目標樣本。基于這些類型的目標樣本,對域自適應定位(DAL)損耗進行了闡述。該方法通過DA對兩個域之間的特征分布進行對齊,并通過Universum正則化使估計器感知目標域線索。實驗表明,該方法在多基準測試上的性能優于SOTA方法。代碼發布在 //github.com/zh460045050/DA-WSOL_CVPR2022。
預訓練已被證實能夠大大提升下游任務的性能。傳統方法中經常利用大規模的帶圖像標注分類數據集(如 ImageNet)進行模型監督預訓練,近年來自監督學習方法的出現,讓預訓練任務不再需要昂貴的人工標簽。然而,絕大多數方法都是針對圖像分類進行設計和優化的。但圖像級別的預測和區域級別 / 像素級別存在預測差異,因此這些預訓練模型在下游的密集預測任務上的性能可能不是最佳的。
基于此,來自阿德萊德大學、同濟大學、字節跳動的研究者設計了一種簡單且有效的密集自監督學習方法,不需要昂貴的密集人工標簽,就能在下游密集預測任務上實現出色的性能。目前該論文已被 CVPR 2021 接收。
//www.zhuanzhi.ai/paper/4b31c2807b7c37ca49ca8f7c43b4b7d4
該研究提出的新方法 DenseCL(Dense Contrastive Learning)通過考慮局部特征之間的對應關系,直接在輸入圖像的兩個視圖之間的像素(或區域)特征上優化成對的對比(不相似)損失來實現密集自監督學習。
兩種用于表征學習的對比學習范式的概念描述圖。
現有的自監督框架將同一張圖像的不同數據增強作為一對正樣本,利用剩余圖像的數據增強作為其負樣本,構建正負樣本對實現全局對比學習,這往往會忽略局部特征的聯系性與差異性。該研究提出的方法在此基礎上,將同一張圖像中最為相似的兩個像素(區域)特征作為一對正樣本,而將余下所有的像素(區域)特征作為其負樣本實現密集對比學習。
具體而言,該方法去掉了已有的自監督學習框架中的全局池化層,并將其全局映射層替換為密集映射層實現。在匹配策略的選擇上,研究者發現最大相似匹配和隨機相似匹配對最后的精度影響非常小。與基準方法 MoCo-v2[1] 相比,DenseCL 引入了可忽略的計算開銷(僅慢了不到 1%),但在遷移至下游密集任務(如目標檢測、語義分割)時,表現出了十分優異的性能。
我們提出了自監督幾何感知(SGP),這是第一個學習特征描述符進行對應匹配的通用框架,不需要任何真實的幾何模型標簽(例如,相機姿態,剛性轉換)。我們的第一個貢獻是將幾何感知形式化為一個優化問題,在給定大量視覺測量數據(如圖像、點云)的基礎上,聯合優化特征描述符和幾何模型。在這個優化公式下,我們展示了視覺領域的兩個重要的研究流,即魯棒模型擬合和深度特征學習,對應著優化未知變量的一個塊,同時固定另一個塊。這種分析自然引出了我們的第二個貢獻——SGP算法,它執行交替最小化來解決聯合優化。SGP迭代地執行兩個元算法:一個教師對已知的學習特征進行魯棒模型擬合以生成幾何偽標簽,一個學生在偽標簽的嘈雜監督下進行深度特征學習。作為第三個貢獻,我們將SGP應用于大規模真實數據集上的兩個感知問題,即MegaDepth上的相對相機姿態估計和3DMatch上的點云配準。我們證明,SGP達到了最先進的性能,與使用真實標簽訓練的受監督的模型相當。
跨模態檢索方法為來自多種模態的樣本建立了一個共同的表示空間,尤其是來自視覺和語言領域的樣本。對于圖像和它們的說明文字,對應的多樣性使得這項任務特別具有挑戰性。給定一個圖像(分別是一個標題),有多個同樣有意義的標題(分別是圖像)。在本文中,我們認為確定性函數不足以捕獲這種一對多對應。相反,我們提出使用概率交叉模態嵌入(PCME),來自不同模態的樣本在公共嵌入空間中表示為概率分布。由于諸如COCO這樣的通用基準測試在跨模態匹配時存在非詳盡注釋的問題,我們建議額外評估CUB數據集上的檢索,這是一個更小但更干凈的數據庫,其中所有可能的圖像標題對都被注釋。我們廣泛地ablate PCME,并證明它不僅提高了檢索性能,其確定性對等物,但也提供不確定性估計,使嵌入更可解釋。
組合優化是計算機視覺的常用方法。例如,在諸如語義分割、人體姿態估計和動作識別等應用中,為解決條件隨機域(CRFs)中的推理問題而編寫的程序可以生成與圖像視覺特征一致的結構化輸出。然而,在CRFs中求解推理通常是棘手的,而近似方法在計算上要求很高,并且僅限于一元的、成對的和手工制作的高階勢形式。在這篇論文中,我們證明了我們可以學習程序啟發式。策略,用于解決高階CRFs中推理任務的語義分割,采用強化學習。我們的方法有效地解決了推理任務,而沒有對勢的形式施加任何約束。我們在Pascal VOC和MOTS數據集上展示了引人注目的結果。
圖卷積運算符將深度學習的優勢引入到各種以前認為無法實現的圖和網格處理任務中。隨著他們的不斷成功,人們希望設計更強大的架構,通常是通過將現有的深度學習技術應用于非歐幾里德數據。在這篇論文中,我們認為在新興的幾何深度學習領域,幾何應該保持創新的主要驅動力。我們將圖神經網絡與廣泛成功的計算機圖形學和數據近似模型:徑向基函數(RBFs)聯系起來。我們推測,與RBFs一樣,圖卷積層將受益于將簡單函數添加到強大的卷積內核中。我們引入了仿射跳躍連接,這是一種將全連通層與任意圖卷積算子相結合而形成的新型構造塊。通過實驗驗證了該方法的有效性,表明改進的性能不僅僅是參數數目增加的結果。在我們評估的每一項任務中,配備了仿射跳躍連接的操作人員都顯著地優于他們的基本性能。形狀重建,密集形狀對應,和圖形分類。我們希望我們的簡單而有效的方法將作為一個堅實的基線,并有助于緩解未來在圖神經網絡的研究。