論文題目:Siamese Network with Interactive Transformer for Video Object Segmentation
作者:Meng Lan, Jing Zhang, Fengxiang He, Lefei Zhang
指導教師:張樂飛教授
論文概述:在半監督視頻目標分割中如何高效的學習和利用過去幀中目標的時空特征對于當前幀目標的分割至關重要。本文提出了一個新穎的基于交互式transformer和暹羅網絡的視頻目標分割框架SITVOS,交互式transformer以暹羅網路提取的當前幀和過去幀的特征作為輸入,分別通過自注意力機制和互注意力機制對目標特征表達進行增強,并實現時序目標特征信息向當前幀的傳播,實現對當前幀指定目標的特征增強,最后通過一個解碼器完成指定目標的分割。相比于之前的基于匹配的方法,我們采用的暹羅網絡在維護memory bank時可以實現特征復用,提高模型的效率。SITVOS在三個標準測試集上都達到了SOTA的性能。
編輯、內容生產、自動駕駛等領域。其中,半監督視頻目標分割,是指給定一段視頻和第一幀的目標物體,在視頻的所有剩余幀中分割出該物體。在一個視頻序列中,目標物體往往會因為連續運動和視角變化發生很大的外觀改變,包括形變和遮擋。同時視頻中往往會有和目標相似的其他物體存在,使得分辨目標更加困難。因此,視頻目標分割是一個比較有挑戰性的問題,至今還沒有很好的解決。
從最近的研究成果來看,Memory-based 的方法是目前 VOS 領域性能表現最佳的一類方法,其代表作是 STM。STM 提出利用過往所有歷史幀的信息,對于當前待分割的幀,STM 會將其與所有歷史幀在時空域上做一個匹配學習,從而將當前幀的特征和歷史幀的特征關聯起來,得到了遠超之前方法的效果。然而 STM 的分割結果中仍然有很多不足。如下圖所示,可以觀察到有兩個典型的錯誤現象:
左邊一列圖中,STM 會傾向于把和目標物體同類別的其他物體也分割出來。右邊一列圖中,STM 的分割結果中會出現一些錯誤的碎塊。這些錯誤樣本都有一個共同特點,就是其局部像素塊的外觀特征和待分割目標局部區域的外觀特征極為相似。這些 badcase 的現象和 STM 本身的原理是有關聯的,因為類似 STM 的 Memory-based 方法,在幀間關系建模上,是均等地在時間和空間域上做了一個特征像素級別的匹配,傾向于找出當前幀和所有歷史幀標記 mask 區域的特征相似區域,因此會產生上述 badcase。
為了進一步提升 Memory-based 的 VOS 方法,該研究提出從兩個方面去改進:
一、位置一致性。目標物體在視頻幀間的運動是遵循一定軌跡的,如果在某一幀的一些位置出現和目標物體相似的同類物體,如果其位置不合理,那么該物體是目標物體的可能性就會降低,不應該被分割。
二、目標一致性。視頻目標分割本質上也可以理解為是一個像素級別的物體跟蹤。雖然分割是像素級的任務,但 VOS 的處理對象是物體(object),需要有一個類似圖像實例分割中對于物體級別的約束。顯然那些錯誤的碎塊分割結果是不滿足一個目標物體整體的概念的。
本文提出一種Transformer輔助跟蹤框架,可與判別式跟蹤器結合(如組成:TrDiMP),表現SOTA!性能優于SiamRPN++等,代碼剛剛開源!
在視頻目標跟蹤中,連續幀之間存在豐富的時間上下文,在現有的跟蹤器中已大大忽略了這些上下文。在這項工作中,我們橋接單個視頻幀,并通過一個用于穩固對象跟蹤的Transformer架構探索跨它們的時間上下文。與在自然語言處理任務中使用轉換器的經典用法不同,我們將其編碼器和解碼器分為兩個并行分支,并在類似于Siamese的跟蹤pipeline中精心設計它們。Transformer編碼器通過基于注意力的特征增強來促進目標模板,這有利于高質量跟蹤模型的生成。Transformer解碼器將跟蹤提示從先前的模板傳播到當前幀,從而簡化了對象搜索過程。我們的Transformer輔助跟蹤框架整潔并以端到端的方式進行了訓練。使用提出的Transformer,一種簡單的連體匹配方法就可以勝過當前表現最佳的跟蹤器。通過將我們的Transformer與最新的判別式跟蹤pipeline相結合,我們的方法在流行的跟蹤基準上創下了一些新的最新記錄。
//www.zhuanzhi.ai/paper/c862787c6e21054a17ed51c178372f5e
基于深度學習的半監督學習(SSL)算法在醫學圖像分割方面取得了很有前途的結果,并可以通過利用未標記的數據減輕醫生昂貴的標注。然而,現有文獻中的大多數SSL算法都傾向于通過干擾網絡和/或數據來規約模型訓練。考慮到多/雙任務學習涉及到具有固有的預測擾動的各個級別的信息,我們在這項工作中提出了一個問題:我們能夠顯式地構建任務級別的正則化,而不是隱式地構建用于SSL的網絡和/或數據級別的擾動和轉換嗎?為了回答這個問題,我們首次提出了一個新的雙任務一致性半監督框架。具體地說,我們使用一個雙任務深度網絡來聯合預測一個像素級分割圖和一個幾何感知的目標集表示。通過可微任務轉換層將水平集表示轉換為近似分割映射。同時,我們在水平集導出的分割圖和直接預測的分割圖之間引入了一種雙任務一致性正則化,用于標記和未標記數據。在兩個公共數據集上的大量實驗表明,我們的方法可以通過合并未標記數據極大地提高性能。同時,我們的框架優于最先進的半監督醫學圖像分割方法。代碼可以在//github.com/Luoxd1996/DTC找到。