群體行為識別 (GAR) 是人物行為識別的一個子問題,群體行為由人物的個人行為和人物之間的交互組成,該任務旨在推斷場景中人物群體的整體行為標簽。GAR有著豐富的應用場景,包括監控視頻分析、體育視頻解析、社交場景理解等。GAR的關鍵問題是在給定視頻片段的情況下,結合時空交互因素來獲得精細的行為特征表示。
最近提出的推理模塊主要結合時空交互因素來獲得精細的活動表示,最常用的方法主要結合循環神經網絡、注意力機制和圖神經網絡 (GNN)。GNN是GAR中經常采用的方法,GNN在構建的語義圖上執行消息傳遞,并在公開數據集的測試中取得了有競爭力的結果。然而,以前使用GNN的方法只在預定義的圖形上對個人之間的交互進行建模,但是存在以下缺點:
對于給定人的交互模式是預先定義的而不是基于目標人的視覺時空上下文,預定義的圖推理不適用于所有人的特征更新;
預定義全連接或者交叉連接的圖模型很容易導致過度平滑,使特征無法區分并降低性能。
此外,如果擴展到長視頻片段或擴展到有很多人的場景,計算開銷會顯著上漲。
為了解決以上問題,受[1,2]啟發,我們提出了動態推理網絡 (DIN),其中包含動態關系 (DR) 和動態游走 (DW) 兩個模塊。這兩個模塊組合可以用于預測人物各異的交互圖,以便更好地建模交互,如上圖所示。對于時空圖上的給定人物特征,本文首先定義其時空鄰居為時空交互域,該交互域在DR和DW之間共享。
該交互域的大小不會受到空間或時間擴展的影響,從而減少計算。在這個初始化的交互域中,我們使用 DR 來預測一個中心特征的關系矩陣,表示人與人之間的交互關系。然后,為了對長時期的時間和空間依賴性建模,我們使用 DW 來預測域內每個特征的動態游走偏移,動態游走允許局部初始化的交互域可以在全局的時空圖上更新特征。DR和DW實現簡單,很容易部署到任何廣泛使用的主干網絡上,我們把這整個時空推理框架稱為DIN。
此外,以前的方法很少進行計算復雜度分析,但這是對設計模塊的重要評估,因此本文進行了計算復雜性分析,并表明提出的模塊在效果更好的同時,計算開銷更低。
對于視頻理解任務而言,多種模態的輸入數據往往會攜帶大量的冗余信息,除了普通的RGB幀數據,視頻多模態分析還會用到音頻、光流和深度圖等模態的數據,但是對于某些時刻,其他模態的數據不論是數據獲取還是前向傳播都會有更高的計算性能要求,這對于一些即時的多模態應用是不合理的。
基于此,本文設計了一種自適應的多模態學習框架對一段視頻的不同片段選取最為合適的模態數據作為輸入,在保證識別精度的同時,獲得了較為明顯的計算量節省效果。 本文的整體框架包含了一個輕量的策略級網絡Policy Network和一個識別網絡Recognition Network,其中策略網絡的作用是對視頻序列的每個模態片段計算二進制策略向量,用來判斷是否保留當前模態的數據進行后續的識別。
識別網絡由多個子網絡構成,分別對上一步選取得到的多模態數據進行特征提取和后融合得到識別結果。整體網絡聯合訓練,在測試階段,首先將輸入多模態視頻片段送入策略網絡,其輸出決定用于給定片段的正確模態,然后將選擇的輸入模態路由到識別網絡中的相應的子網絡以生成片段級預測。
最后,網絡將所有片段級預測平均作為視頻級預測。與普通的視頻理解模型相比,輕量級策略網絡(本文使用的是MobileNetV2)產生的額外計算成本可以忽略不計。
經過一系列的實驗表明,本文方法在四個標準數據集上都取得了較好的效果。
預測視頻的未來幀是一項具有挑戰性的任務,部分原因在于潛在的隨機現實現象。解決這個任務的先驗方法通常估計一個潛在的先驗特征,但是不能解釋(深度學習)模型的預測不確定性。這種方法往往從生成的幀與真實值之間的均方誤差(MSE)獲得訓練信號,這可能導致次優訓練,尤其是在預測不確定性高的情況下。為此,我們引入神經不確定性量詞(NUQ)——對模型的預測不確定性進行隨機量化,并用它來衡量MSE損失。我們提出了一個分層的、變分的框架,以一種有原則的方式,使用一個深度的貝葉斯圖模型來派生NUQ。我們在四個基準隨機視頻預測數據集上的實驗表明,我們提出的框架比最先進的模型訓練更有效(特別是當訓練集很小的時候),同時顯示出更好的視頻生成質量和多樣性。
論文鏈接://arxiv.org/abs/2109.06620 代碼鏈接: 作者單位:北京大學深圳研究生院 & 鵬城實驗室
自然圖像中的非局部自相似性已被證實是圖像恢復的有效先驗。然而,大多數現有的深度非局部方法為每個查詢項分配固定數量的鄰域塊,忽略了非局部相關性的動態。此外,非局部相關性通常基于像素,容易因圖像退化而產生偏差。為了糾正這些弱點,在本文中,我們提出了一種動態注意圖學習模型(DAGL)來探索圖像恢復塊級別的動態非局部屬性。具體來說,我們提出了一種改進的圖模型,以對每個節點具有動態和自適應數量的鄰居執行逐塊圖卷積。通過這種方式,圖像內容可以通過其連接的鄰域的數量自適應地平衡過度平滑和過度銳化的偽影,并且塊方式的非局部相關性可以增強消息傳遞過程。各種圖像恢復任務的實驗結果:合成圖像去噪、真實圖像去噪、圖像去馬賽克和壓縮偽影減少表明,我們的 DAGL 可以產生具有卓越精度和視覺質量的最新結果。
本文將歸納式和直推式學習整合到一個統一的框架中,以利用它們之間的互補性來進行準確和穩健的視頻目標分割,并引入Transformer,性能優于CFBI、LWL等網絡,代碼即將開源!
半監督視頻目標分割是在第一幀中僅給定mask注釋的視頻序列中分割目標對象的任務。有限的可用信息使其成為一項極具挑戰性的任務。大多數以前表現最好的方法都采用基于匹配的轉導推理或在線歸納學習。然而,它們要么對類似實例的區分度較低,要么在時空信息的利用上不足。在這項工作中,我們提出將歸納式和直推式學習整合到一個統一的框架中,以利用它們之間的互補性來進行準確和穩健的視頻目標分割。所提出的方法由兩個功能分支組成。transduction 分支采用輕量級的 Transformer 架構來聚合豐富的時空線索,而 Induction 分支執行在線歸納學習以獲得有判別力的目標信息。為了橋接這兩個不同的分支,引入了一個雙頭標簽編碼器來為每個分支學習合適的目標先驗。生成的mask編碼被進一步強制解開以更好地保持它們的互補性。對幾個流行基準的大量實驗表明,在不需要合成訓練數據的情況下,所提出的方法創造了一系列新的最先進記錄。
本文提出6個用于Siamese目標跟蹤的新匹配算子,基于Ocean進行改進,表現SOTA!性能優于KYS、SiamBAN等網絡,速度高達50 FPS!代碼即將開源!
跟蹤近年來取得了突破性的性能,其本質是高效匹配算子互相關及其變體。除了顯著的成功之外,重要的是要注意啟發式匹配網絡設計在很大程度上依賴于專家經驗。此外,我們通過實驗發現,在所有具有挑戰性的環境中,一個唯一的匹配算子很難保證穩定跟蹤。因此,在這項工作中,我們從特征融合的角度而不是顯式相似性學習的角度引入了六種新穎的匹配算子,即串聯、逐點加法、成對關系、FiLM、簡單Transformer和轉導引導,以探索更多的可行性匹配運算符選擇。分析揭示了這些算子對不同環境退化類型的選擇性適應性,這激勵我們將它們結合起來探索互補的特征。為此,我們提出二進制通道操作(BCM)來搜索這些算子的最佳組合。BCM 通過學習其對其他跟蹤步驟的貢獻來決定重新訓練或丟棄一個算子。通過將學習到的匹配網絡插入到強大的基線跟蹤器 Ocean 中,我們的模型在 OTB100、LaSOT 和 TrackingNet 上分別獲得了 67.2→71.4、52.6→58.3、70.3→76.0 的有利增益。值得注意的是,我們的跟蹤器稱為 AutoMatch,使用的訓練數據/時間比基線跟蹤器少一半,并且使用 PyTorch 以 50 FPS 運行。
論文標題:Rank & Sort Loss for Object Detection and Instance Segmentation
論文鏈接://arxiv.org/abs/2107.11669
代碼鏈接:
漲點神器!RS Loss:新損失函數!可助力現有目標檢測和實例分割網絡漲點,如應用于Cascade R-CNN、SOLOv2等,優于QFL、AP和Focal Loss等損失,代碼剛剛開源!
本文提出 Rank & Sort (RS) Loss,作為基于ranking的損失函數來訓練深度目標檢測和實例分割方法(即視覺檢測器)。RS Loss 監督分類器,這些方法的一個子網絡,將每個positive 排名高于所有負面,并根據(wrt.)它們的連續定位質量(例如 Intersection-over-Union - IoU)對它們之間的positive 進行排序.為了解決排序和排序的不可區分性,我們重新制定了錯誤驅動更新與反向傳播的結合作為身份更新,這使我們能夠對正樣本中的新排序錯誤進行建模。使用 RS 損失,我們顯著簡化了訓練:(i)由于我們的排序目標,分類器優先考慮正數,而無需額外的輔助頭(例如,對于中心度、IoU、mask-IoU),(ii)由于其排名 -基于性質,RS 損失對類不平衡具有魯棒性,因此,不需要采樣啟發式,并且(iii)我們使用無調整任務平衡系數來解決視覺檢測器的多任務性質。使用 RS 損失,我們僅通過調整學習率來訓練七個不同的視覺檢測器,并表明它始終優于基線:例如我們的 RS 損失在 COCO 數據集上將 (i) Faster R-CNN 提高了約 3 個框 AP 和 aLRP 損失(基于排名的基線)提高了約 2 個框 AP,(ii)具有重復因子采樣(RFS)的 Mask R-CNN 提高了 3.5 LVIS 數據集上的掩碼 AP(稀有類約為 7 個 AP);并且也優于所有同行。
視頻實例分割是一項復雜的任務,我們需要檢測、分割和跟蹤任何給定視頻的每個對象。以往的方法只利用單幀特征來檢測、分割和跟蹤目標,而目標在視頻場景中會因為運動模糊和劇烈的外觀變化等問題而受到影響。為了消除僅使用單幀特征所帶來的模糊性,我們提出了一種新的綜合特征聚合方法(CompFeat),利用時間和空間上下文信息在幀級和對象級對特征進行細化。聚合過程是精心設計的一個新的注意機制,這大大增加了識別能力的學習特征。通過結合特征相似性和空間相似性的暹羅設計,進一步提高了模型的跟蹤能力。在YouTube-VIS數據集上進行的實驗驗證了提出的CompFeat的有效性。我們的代碼將在//github.com/shi-labs/compfeat-forvideo - instance - segmentation提供。
邊緣流通常用于捕獲動態網絡中的交互,如電子郵件、社交或計算機網絡。邊緣流異常或罕見事件的檢測問題有著廣泛的應用。然而,由于缺乏標簽,交互的高度動態特性,以及網絡中時間和結構變化的糾纏,它提出了許多挑戰。目前的方法在解決上述挑戰和有效處理大量交互方面能力有限。在此,我們提出了一種檢測邊緣流異常的新方法- F-FADE,它使用一種新的頻率因子分解技術來有效地模擬節點對間相互作用頻率的時間演化分布。然后,根據觀測到的每一次相互作用頻率的可能性來確定異常。F-FADE能夠在在線流媒體設置中處理時間和結構變化的各種異常,而只需要恒定的內存。我們在一個合成和六個真實世界動態網絡上的實驗表明,F-FADE達到了最先進的性能,可以檢測出以前的方法無法發現的異常。
目標檢測和數據關聯是多目標跟蹤系統的關鍵組成部分。盡管這兩個組件高度依賴于彼此,但MOT中的一個流行趨勢是將檢測和數據關聯作為單獨的模塊執行,并按級聯順序處理。由于這種級聯過程,所生成的MOT系統只能執行前向推理,而不能將錯誤反向傳播到整個管道并進行糾正。這導致整個管道的性能低于最佳水平。為了解決這個問題,最近的工作聯合優化了檢測和數據關聯,并形成了一個綜合的MOT方法,已被證明提高了檢測和跟蹤的性能。為此,我們提出了一種基于圖神經網絡(GNNs)的聯合MOT方法。該方法的關鍵思想是,GNNs能夠在空間和時間域內顯式地建模多個目標之間的復雜交互,這對于學習識別特征進行檢測和數據關聯至關重要。我們還利用了運動特征與外觀特征一起使用時對MOT有用這一事實。因此,我們提出的聯合MOT方法也將外觀和運動特征納入我們的基于圖的特征學習框架,從而使MOT更好地學習特征。在MOT挑戰數據集上的大量實驗表明,我們提出的方法在目標檢測和MOT檢測上都取得了最先進的性能。