基于時空記憶(STM)的視頻目標分割(VOS)網絡通常每隔幾幀不斷增加存儲庫,表現出良好的性能。然而,1)隨著視頻長度的增加,硬件無法承受不斷增長的內存需求。2)存儲大量的信息不可避免地會引入大量的噪聲,這不利于從存儲庫中讀取最重要的信息。在本文中,我們提出一種循環動態嵌入(RDE)來建立一個固定大小的存儲庫。具體來說,我們通過提出的時空聚合模塊(SAM)顯式地生成和更新RDE,該模塊利用歷史信息的線索。為了避免重復使用SAM造成的誤差積累,我們在訓練階段提出了無偏導損失,這使得SAM在長視頻中更穩健。此外,由于不準確的網絡推斷,在內存庫中預測的掩碼是不準確的,影響了查詢幀的分割。為了解決這一問題,我們設計了一種新的自校正策略,使網絡能夠修復存儲庫中不同質量的掩模嵌入。大量實驗表明,我們的方法在性能和速度之間取得了最好的折衷。代碼可在//github.com/ Limingxing00/RDE-VOS-CVPR2022獲得。
我們提出了提示分布學習,以有效地適應一個預訓練的視覺語言模型,以解決下游的識別任務。我們的方法不僅從一些樣本中學習低偏差提示,而且還捕獲不同提示的分布,以處理不同的視覺表示。這樣,我們提供了高質量的任務相關內容,便于識別。這種快速分布學習是通過一種學習提示的輸出嵌入而不是輸入嵌入的有效方法實現的。因此,我們可以使用高斯分布來有效地建模,并導出有效訓練的替代損失。在12個數據集上的大量實驗表明,我們的方法始終和顯著地優于現有的方法。例如,與人工制作的提示相比,每個類別有一個樣本,它的平均結果相對提高了9.1%。
//www.zhuanzhi.ai/paper/0c6359fedd7bfc3067c0c0ddaf8a29f4
Language as Queries for Referring Video Object
這篇工作由字節跳動商業化技術團隊與香港大學合作完成。 文章提出了在參考視頻目標分割(Referring Video Object Segmentation, RVOS)領域進行端到端分割的解決方案。 參考視頻目標分割(RVOS)任務需要在視頻中將文本所指代的參考對象進行實例分割,與目前得到廣泛研究的參考圖像分割(RIS)相比,其文本描述不僅可以基于目標的外觀特征或者空間關系,還可以對目標所進行的動作進行描述,這要求模型有著更強的時空建模能力,且保證分割目標在所有視頻幀上的一致性;與傳統的視頻目標分割(VOS)任務相比,RVOS 任務在預測階段沒有給定分割目標的真值,從而增加了對目標進行正確精細分割的難度。
現有的 RVOS 方法往往都依賴于復雜的多階段框架,以保證分割目標的一致性。為了解決以上問題,本文提出了一種基于 Transformer 的端到端 RVOS 框架 —— ReferFormer,其將語言描述作為查詢條件,在視頻中僅僅關注于參考目標,并采用動態卷積對目標進行分割;除此之外,通過連接不同幀上相對應的查詢進行實例的整體輸出,可自然地完成目標的追蹤,無需任何后處理。該方法在四個 RVOS 數據集上(Ref-Youtube-VOS, Ref-DAVIS17, A2D-Sentences, JHMDB-Sentences)均取得了當前最優的性能。
論文題目:Siamese Network with Interactive Transformer for Video Object Segmentation
作者:Meng Lan, Jing Zhang, Fengxiang He, Lefei Zhang
指導教師:張樂飛教授
論文概述:在半監督視頻目標分割中如何高效的學習和利用過去幀中目標的時空特征對于當前幀目標的分割至關重要。本文提出了一個新穎的基于交互式transformer和暹羅網絡的視頻目標分割框架SITVOS,交互式transformer以暹羅網路提取的當前幀和過去幀的特征作為輸入,分別通過自注意力機制和互注意力機制對目標特征表達進行增強,并實現時序目標特征信息向當前幀的傳播,實現對當前幀指定目標的特征增強,最后通過一個解碼器完成指定目標的分割。相比于之前的基于匹配的方法,我們采用的暹羅網絡在維護memory bank時可以實現特征復用,提高模型的效率。SITVOS在三個標準測試集上都達到了SOTA的性能。
本文將歸納式和直推式學習整合到一個統一的框架中,以利用它們之間的互補性來進行準確和穩健的視頻目標分割,并引入Transformer,性能優于CFBI、LWL等網絡,代碼即將開源!
半監督視頻目標分割是在第一幀中僅給定mask注釋的視頻序列中分割目標對象的任務。有限的可用信息使其成為一項極具挑戰性的任務。大多數以前表現最好的方法都采用基于匹配的轉導推理或在線歸納學習。然而,它們要么對類似實例的區分度較低,要么在時空信息的利用上不足。在這項工作中,我們提出將歸納式和直推式學習整合到一個統一的框架中,以利用它們之間的互補性來進行準確和穩健的視頻目標分割。所提出的方法由兩個功能分支組成。transduction 分支采用輕量級的 Transformer 架構來聚合豐富的時空線索,而 Induction 分支執行在線歸納學習以獲得有判別力的目標信息。為了橋接這兩個不同的分支,引入了一個雙頭標簽編碼器來為每個分支學習合適的目標先驗。生成的mask編碼被進一步強制解開以更好地保持它們的互補性。對幾個流行基準的大量實驗表明,在不需要合成訓練數據的情況下,所提出的方法創造了一系列新的最先進記錄。
編輯、內容生產、自動駕駛等領域。其中,半監督視頻目標分割,是指給定一段視頻和第一幀的目標物體,在視頻的所有剩余幀中分割出該物體。在一個視頻序列中,目標物體往往會因為連續運動和視角變化發生很大的外觀改變,包括形變和遮擋。同時視頻中往往會有和目標相似的其他物體存在,使得分辨目標更加困難。因此,視頻目標分割是一個比較有挑戰性的問題,至今還沒有很好的解決。
從最近的研究成果來看,Memory-based 的方法是目前 VOS 領域性能表現最佳的一類方法,其代表作是 STM。STM 提出利用過往所有歷史幀的信息,對于當前待分割的幀,STM 會將其與所有歷史幀在時空域上做一個匹配學習,從而將當前幀的特征和歷史幀的特征關聯起來,得到了遠超之前方法的效果。然而 STM 的分割結果中仍然有很多不足。如下圖所示,可以觀察到有兩個典型的錯誤現象:
左邊一列圖中,STM 會傾向于把和目標物體同類別的其他物體也分割出來。右邊一列圖中,STM 的分割結果中會出現一些錯誤的碎塊。這些錯誤樣本都有一個共同特點,就是其局部像素塊的外觀特征和待分割目標局部區域的外觀特征極為相似。這些 badcase 的現象和 STM 本身的原理是有關聯的,因為類似 STM 的 Memory-based 方法,在幀間關系建模上,是均等地在時間和空間域上做了一個特征像素級別的匹配,傾向于找出當前幀和所有歷史幀標記 mask 區域的特征相似區域,因此會產生上述 badcase。
為了進一步提升 Memory-based 的 VOS 方法,該研究提出從兩個方面去改進:
一、位置一致性。目標物體在視頻幀間的運動是遵循一定軌跡的,如果在某一幀的一些位置出現和目標物體相似的同類物體,如果其位置不合理,那么該物體是目標物體的可能性就會降低,不應該被分割。
二、目標一致性。視頻目標分割本質上也可以理解為是一個像素級別的物體跟蹤。雖然分割是像素級的任務,但 VOS 的處理對象是物體(object),需要有一個類似圖像實例分割中對于物體級別的約束。顯然那些錯誤的碎塊分割結果是不滿足一個目標物體整體的概念的。
本文是第一個將Transformers應用于視頻分割領域的方法。視頻實例分割指的是同時對視頻中感興趣的物體進行分類,分割和跟蹤的任務。現有的方法通常設計復雜的流程來解決此問題。本文提出了一種基于Transformers的視頻實例分割新框架VisTR,該框架將視頻實例分割任務視為直接端到端的并行序列解碼和預測的問題。給定一個含有多幀圖像的視頻作為輸入,VisTR直接按順序輸出視頻中每個實例的掩碼序列。該方法的核心是一種新的實例序列匹配和分割的策略,該策略在整個序列級別上對實例進行監督和分割。VisTR將實例分割和跟蹤統一到了相似度學習的框架下,從而大大簡化了流程。在沒有任何trick的情況下,VisTR在所有使用單一模型的方法中獲得了最佳效果,并且在YouTube-VIS數據集上實現了最快的速度。
//www.zhuanzhi.ai/paper/0dfba6abdc5e6a189d86770822c17859
該工作將度量學中一個重要的屬性“動態范圍”引入到深度度量學習,從而得到一個新的任務叫做“動態度量學習”。我們發現,以往的深度度量其實只蘊含一個刻度,例如僅僅區分人臉、行人是相似還是不相似。這樣的量具無論多精確,在實際使用中都是靈活不足、用途有限的。實際上,我們日常的量具通常具有動態范圍,例如尺子總是有多個刻度(例如1mm、1cm乃至10cm)來測量不同尺度的物體。我們認為,深度度量學習領域已經到了需要引入動態范圍的時候了。因為,視覺概念本身就有著不同的大小,“動物”、“植物”都對應大尺度,而“麋鹿”卻對應相對較小的尺度。在小尺度下,兩只麋鹿可能看上去很不一樣,但是在另一個大尺度下,同樣兩只麋鹿卻應該被認為非常相似。
//www.zhuanzhi.ai/paper/cc9fa0af60aee58e256bce07f15065a0
code:
本文是新加坡國立大學Qinbin Hou&Jiashi Feng等人在注意力機制方面的一次探索,針對如何有效提升移動網絡的卷積特征表達能力,以及通道注意力(如SE)機制能夠有效建模通道間相關性但忽視了位置信息的問題,提出了一種的新穎的注意力機制:Coordinate Attention。
Coordinate Attention通過水平與垂直方向注意力圖捕獲特征的遠程依賴關系,而且水平與垂直注意力還可以有效保持精確的位置信息。所提注意力集中的精確位置信息無論對于分類,還是檢測與分割而言都是一種非常重要的性能,因而所提注意力機制在圖像分類、目標檢測以及語義分割方面均取得了顯著的性能提升,尤其需要注意的是,所提注意力尤其適合于語義分割等稠密預測任務
移動網絡設計的近期研究表明:通道注意力(如Squeeze-and-Excitation)機制對于提升模型性能極為有效,但是忽略了位置信息,這對于生成空間選擇注意力圖非常重要。
針對通道注意力機制存在的上述問題,我們提出了一種用于移動網絡的新穎注意力機制:它將位置信息嵌入到通道注意力中,我們將其稱之為Coordinate Attention。不同于通道注意力將特征張量通過GAP轉換為特征向量,坐標注意力將通道注意力拆分為兩個1D特征編碼過程,分別沿著兩個空間方向集成特征。
通過這種處理,遠程相關性可以通過空間方向捕獲,于此同時,精確的位置信息可以通過另一個空間方向得以保持。所得到的特征圖分辨編碼為成對的方向相關注意力圖與通道注意力圖(兩者具有互補性),并用于增強輸入特征以增廣目標的表達能力。
所提坐標注意力機制極為簡單,可以靈活嵌入到現有移動網絡(比如MobileNetV2, MobileN2Xt, EfficientNet)中,且幾乎不會導致額外的計算負載。
我們通過實驗證實:坐標注意力不僅有助于ImageNet分類,在下游任務(比如目標檢測、語義分割)上表達更佳。下圖給出了所提注意力與SE/CBAM在不同任務上的性能對比。
我們提出了自監督幾何感知(SGP),這是第一個學習特征描述符進行對應匹配的通用框架,不需要任何真實的幾何模型標簽(例如,相機姿態,剛性轉換)。我們的第一個貢獻是將幾何感知形式化為一個優化問題,在給定大量視覺測量數據(如圖像、點云)的基礎上,聯合優化特征描述符和幾何模型。在這個優化公式下,我們展示了視覺領域的兩個重要的研究流,即魯棒模型擬合和深度特征學習,對應著優化未知變量的一個塊,同時固定另一個塊。這種分析自然引出了我們的第二個貢獻——SGP算法,它執行交替最小化來解決聯合優化。SGP迭代地執行兩個元算法:一個教師對已知的學習特征進行魯棒模型擬合以生成幾何偽標簽,一個學生在偽標簽的嘈雜監督下進行深度特征學習。作為第三個貢獻,我們將SGP應用于大規模真實數據集上的兩個感知問題,即MegaDepth上的相對相機姿態估計和3DMatch上的點云配準。我們證明,SGP達到了最先進的性能,與使用真實標簽訓練的受監督的模型相當。