視覺跟蹤是計算機視覺領域的一個重要問題,在視覺監控、智能交通、機器人等視覺系統中發揮著重要作用。然而,現有的跟蹤方法往往基于 RGB 圖像序列,這些序列對亮度的變化非常敏感,因此一些目標在弱光條件下是無效的。在這種情況下,現有方法的跟蹤性能可能會顯著降低。
//www.zhuanzhi.ai/paper/c6cc2d20fe3e758d83a8decbbc882956
引入諸如深度和紅外數據等其他方式是處理單個源成像局限性的有效方法,但多模態成像平臺通常需要精心設計,目前無法應用于許多現實應用中。近紅外(NIR)成像是許多監控攝像機的重要組成部分,其成像可以根據光照強度在 RGB 和 NIR 之間切換。這兩種方式是異質的,具有不同的視覺特性,因此給視覺跟蹤帶來了巨大的挑戰。然而,現有的研究工作尚未對這一具有挑戰性的問題進行研究。那么如何設計一種合適的算法,以緩解RGB和NIR模式之間的外觀差距,并靈活地嵌入到不同的跟蹤框架中,實現魯棒的跨模式目標跟蹤?如何創建視頻基準數據集以促進跨模態目標跟蹤的研究和發展?
在這項工作中,我們解決了跨模態目標跟蹤課題,并提出了一個新的視頻數據集CMOTB,包括654個跨模態圖像序列,總幀數超過486k,平均視頻長度超過735幀。為了促進跨模態目標跟蹤的研究和發展,我們提出了一個新的即插即用模塊。該模塊學習感知模態的目標表示,以減少在跟蹤過程中 RGB 和 NIR 不同模態之間的外觀差距,可以靈活地嵌入不同的跟蹤框架中。在我們提出的數據集上進行了廣泛的實驗,證明了所提出的模塊對于兩個代表性的跟蹤框架,即 dimp-50和 RT-MDNet 上的17種最先進的跟蹤方法的有效性。
以人為中心的感知在視覺和圖形學中起著至關重要的作用。但是他們的數據注釋非常昂貴。因此,希望有一個通用的預訓練模型,作為數據高效的下游任務轉移的基礎。為此,我們提出了以人為中心的多模態對比學習框架HCMoCo,該框架利用人類數據的多模態特性(如RGB、深度、2D關鍵點)來進行有效的表示學習。該目標面臨兩個主要挑戰: 多模態數據的密集預訓練,稀疏人類先驗的有效利用。**為了解決這一問題,我們設計了一種新型的密集樣本內對比學習和稀疏結構感知對比學習目標,通過層次化學習具有連續和有序特征分布和結構感知語義一致性的模態不變潛空間。**HCMoCo通過組合異構數據集為不同的模態提供預訓練,這允許有效地使用現有的特定于任務的人類數據。在四個不同模式的下游任務上的大量實驗證明了HCMoCo的有效性,特別是在數據效率設置下(DensePose Estimation和Human Parsing提高了7.16%和12%)。此外,通過探索跨模態監督和缺失模態推理,我們證明了HCMoCo的多功能性,驗證了它在跨模態聯想和推理方面的強大能力。
//www.zhuanzhi.ai/paper/3e8a73c1d485a5e417b1e659558792c0
凝視行為是人類社會行為的一個重要方面,具有很強的研究意義,但針對該任務缺乏一個統一的解決框架。一個直觀的解決方案是在現有的視線估計方法中加入一個目標檢測分支。然而,現有的視線估計方法通常使用兩個不同的網絡來提取場景和頭部圖像中的特征,這將導致網絡結構過于復雜并阻止每個分支的聯合優化。
//www.zhuanzhi.ai/paper/bc53529bc71e91a3504fa5162f10a186
為此,論文提出了一個名為GaTector的新框架,以統一的方式解決凝視對象的預測問題。首先本文提出了一個特定-一般-特定(SGS)的特征提取器,利用一個共享的主干來提取場景和頭部圖像的一般特征。針對不同子網絡的特殊性,SGS在共享主干之前引入了兩個特定的輸入處理層,在共享主干之后引入了三個不同的輸出處理層。然后,本文設計了一個新穎的散焦結構,在不丟失信息且無需額外計算量的前提下為目標檢測任務生成特定的物體特征。此外,框架引入了能量聚集損失,對不同的子網絡完成聯合優化。最后,本文提出了一個新的mDAP指標,即使不同邊界框之間沒有重疊的區域,它也可以揭示不同邊界框之間的差異。此框架在GOO數據集上進行的大量實驗驗證了本文的方法在目標檢測、視線估計和凝視物體預測三個任務中的優越性。
CVPR全稱IEEE國際計算機視覺與模式識別會議(IEEE Conference on Computer Vision and Pattern Recognition),該會議始于1983年,是人工智能、計算機視覺和模式識別領域的頂級會議。根據谷歌學術公布的 2021 年最新學術期刊和會議影響力排名, CVPR在所有學術刊物中位居第4(超越柳葉刀),僅次于Nature,NEJM和Science。
回答關于圖像的復雜問題是機器智能的一個雄心勃勃的目標,它需要對圖像、文本和常識的聯合理解,以及強大的推理能力。最近,多模態變換器在視覺常識推理(Visual Commonsense Reasoning, VCR)任務上取得了很大的進展,通過跨通道注意力層共同理解視覺對象和文本標記。然而,這些方法并沒有利用場景的豐富結構和對象之間的交互作用,而這些在回答復雜的常識問題時是必不可少的。我們提出了一個場景圖增強圖像-文本學習(SGEITL)框架,將視覺場景圖納入常識推理。為了利用場景圖結構,在模型結構層次上,我們提出了一種多跳圖轉換器來正則化各跳間的注意力交互。在預訓練方面,提出了一種場景感知的預訓練方法,利用視覺場景圖中提取的結構知識。此外,我們還介紹了一種使用文本注釋在弱監督方式下訓練和生成領域相關視覺場景圖的方法。在VCR和其他任務上的大量實驗表明,與最先進的方法相比,性能有顯著提高,并證明了所提出的每個組件的有效性。
現有的視覺和語言學習方法通常需要為每個任務設計特定于任務的架構和目標。例如,用于視覺問答的多標簽答案分類器、用于參考表達式理解的區域評分器和用于圖像字幕的語言解碼器等。為了減輕這些麻煩,在這項工作中,我們提出了一個統一的框架,在同一個語言建模目標的單一體系結構中學習不同的任務,即多模態條件文本生成,我們的模型學習在基于視覺和文本輸入的文本中生成標簽。在7個流行的視覺和語言基準測試中,包括視覺問答,參考表達理解,視覺常識推理,其中大多數之前被建模為判別性任務,我們的生成方法(具有單一統一的體系結構)達到了與最近特定任務的最先進的視覺和語言模型相當的性能。此外,我們的生成方法顯示出更好的泛化能力的問題,有稀有的答案。此外,我們還表明,我們的框架允許在單一體系結構中使用單一參數集進行多任務學習,實現了與單獨優化的單任務模型相似的性能。我們的代碼在//github.com/j-min/VL-T5上公開。
論文:Adaptive Consistency Regularization for Semi-Supervised Transfer Learning 鏈接: //www.zhuanzhi.ai/paper/43d085f2c66d68b77584edcb0ee36ba0 代碼:
盡管最近半監督學習的研究在利用標記和未標記數據方面有顯著進步,但大多數假設模型的基本設置是隨機初始化的。
因此本文將半監督學習和遷移學習相結合提出了一種半監督的轉移學習框架,該方法不僅能利用目標域(目標任務數據集)中的標記/未標記數據,還能利用源域(具有不同語義的通用數據集,如:ImageNet)中的預訓練模型。為了更好地利用預訓練權重和未標記目標數據,我們引入了自適應一致性正則化,它由兩個互補組件組成:源模型和目標模型之間的示例上的自適應知識一致性(AKC),以及自適應表示一致性(ARC) ),在目標模型上標記和未標記的示例之間,根據它們對目標任務的潛在貢獻,自適應地選擇一致性正則化中涉及的示例。
通過微調ImageNet預訓練的ResNet-50模型,我們在幾個流行的基準上進行了廣泛的實驗,包括CUB-200-2011,MIT Indoor-67,MURA。結果表明,我們提出的自適應一致性正則化性能優于最新的半監督學習技術,例如Pseudo Label,Mean Teacher和MixMatch。此外,我們的算法能與現有方法共同使用,因此能夠在MixMatch和FixMatch之上獲得其他改進。
本文的主要貢獻包含以下三點:
1、第一個提出用于深度神經網絡的半監督轉移學習框架 2、利用半監督學習和轉移學習的特性引入自適應一致性正則化來改善半監督轉移學習 3、實驗結果表明所提出的自適應一致性正則化性能優于最新的半監督學習技術
跨模態檢索方法為來自多種模態的樣本建立了一個共同的表示空間,尤其是來自視覺和語言領域的樣本。對于圖像和它們的說明文字,對應的多樣性使得這項任務特別具有挑戰性。給定一個圖像(分別是一個標題),有多個同樣有意義的標題(分別是圖像)。在本文中,我們認為確定性函數不足以捕獲這種一對多對應。相反,我們提出使用概率交叉模態嵌入(PCME),來自不同模態的樣本在公共嵌入空間中表示為概率分布。由于諸如COCO這樣的通用基準測試在跨模態匹配時存在非詳盡注釋的問題,我們建議額外評估CUB數據集上的檢索,這是一個更小但更干凈的數據庫,其中所有可能的圖像標題對都被注釋。我們廣泛地ablate PCME,并證明它不僅提高了檢索性能,其確定性對等物,但也提供不確定性估計,使嵌入更可解釋。
目標檢測和數據關聯是多目標跟蹤系統的關鍵組成部分。盡管這兩個組件高度依賴于彼此,但MOT中的一個流行趨勢是將檢測和數據關聯作為單獨的模塊執行,并按級聯順序處理。由于這種級聯過程,所生成的MOT系統只能執行前向推理,而不能將錯誤反向傳播到整個管道并進行糾正。這導致整個管道的性能低于最佳水平。為了解決這個問題,最近的工作聯合優化了檢測和數據關聯,并形成了一個綜合的MOT方法,已被證明提高了檢測和跟蹤的性能。為此,我們提出了一種基于圖神經網絡(GNNs)的聯合MOT方法。該方法的關鍵思想是,GNNs能夠在空間和時間域內顯式地建模多個目標之間的復雜交互,這對于學習識別特征進行檢測和數據關聯至關重要。我們還利用了運動特征與外觀特征一起使用時對MOT有用這一事實。因此,我們提出的聯合MOT方法也將外觀和運動特征納入我們的基于圖的特征學習框架,從而使MOT更好地學習特征。在MOT挑戰數據集上的大量實驗表明,我們提出的方法在目標檢測和MOT檢測上都取得了最先進的性能。
從圖像中進行自監督學習的目標是通過不需要對大量訓練圖像進行語義注釋的前置任務來構造語義上有意義的圖像表示。許多前置任務導致與圖像變換協變的表示。相反,我們認為語義表示在這種轉換下應該是不變的。具體來說,我們開發了前置不變表示學習(PIRL,發音為“pearl”),該學習基于前置任務的不變表示。我們將PIRL與一個常用的前置任務一起使用,該任務涉及解決拼圖游戲。我們發現,PIRL極大地提高了學習圖像表示的語義質量。我們的方法設置了一個新的藝術的自監督學習從圖像上幾個流行的基準自我監督學習。盡管是無監督的,但PIRL在學習圖像表示和目標檢測方面的表現優于有監督的前訓練。總之,我們的結果證明了具有良好不變性的圖像表示的自監督學習的潛力。
【導讀】自監督學習是新的研究熱點-【AAAI2020圖靈獎得主YannLecun】自監督學習Self-Supervised Learning是未來 。近日,深度學習先驅Geoffrey Hinton領銜的Google大腦團隊發布了他們在視覺表示對比學習的最新研究成果-SimLCR,建立了新的SOTA視覺ImageNet識別模型,76.5%的top-1準確度,比以前的水平提高了7%,與監督的ResNet-50的性能相當。并有一系列重要的發現:包括(1) 數據增廣的組成在定義有效的預測任務中發揮了至關重要的作用,(2) 引入一個可學的非線性變換在視覺表示和對比損失之間大大提高學習表示的質量,和 (3) 與監督學習相比,對比學習受益于更大的批量尺寸和更多的訓練步驟,不得不看!
本文提出了一個簡單的視覺表示對比學習(contrastive learning)框架。我們簡化了最近提出的對比型自監督學習算法,不需要專門的架構或存儲庫。為了了解是什么使對比預測任務能學習有用的表示,我們系統地研究了我們提出的框架的主要組成部分。我們表明, (1) 數據增廣的組成在定義有效的預測任務中發揮了至關重要的作用,(2) 引入一個可學的非線性變換在視覺表示和對比損失之間大大提高學習表示的質量,和 (3) 與監督學習相比,對比學習受益于更大的批量尺寸和更多的訓練步驟。結合這些發現,我們能夠在很大程度上超越以往的方法,在ImageNet上進行自監督和半監督學習。在SimCLR學習的自監督表示上訓練的線性分類器實現了76.5%的top-1準確度,比以前的水平提高了7%,與監督的ResNet-50的性能相當。當僅對1%的標簽進行微調時,我們實現了85.8%的前5名準確度,以100倍的標簽數超過了AlexNet。
概述
學習沒有人類監督的有效視覺表示是一個長期存在的問題。大多數主流方法可分為兩類:生成式和判別式。生成式方法學習在輸入空間中生成或以其他方式建模像素 (Hinton et al., 2006; Kingma & Welling, 2013; Goodfellow et al., 2014)。然而,像素級的生成在計算上是昂貴的,而且對于表示學習可能不是必需的。判別方法使用與監督學習類似的目標函數來學習表示,但是訓練網絡執行下游任務,其中輸入和標簽都來自未標記的數據集。許多這類方法依賴于啟發法來設計下游任務(Doersch et al., 2015; Zhang et al., 2016; Noroozi & Favaro, 2016; Gidaris et al., 2018),這可能限制了學習表示的普遍性。基于潛在空間中的對比學習的判別方法最近顯示出了巨大的潛力,取得了最先進的結果(Hadsell et al., 2006; Dosovitskiy et al., 2014; Oord et al., 2018; Bachman et al., 2019)。
圖1: ImageNet top-1在不同自監督方法學習的表示上訓練的線性分類器的精度(在ImageNet上預先訓練)。灰色十字表示有監督的ResNet-50。我們的方法SimCLR以粗體顯示。
在這項工作中,我們介紹了視覺表示對比學習的一個簡單框架,我們稱之為SimCLR。SimCLR不僅優于以前的工作(圖1),而且更簡單,不需要專門的架構(Bachman et al., 2019; Hénaff et al., 2019)或者存儲池 (Wu et al., 2018; Tian et al., 2019; He et al., 2019a; Misra & van der Maaten, 2019)。
為了了解是什么使好的對比表示學習成為可能,我們系統地研究了我們的框架的主要組成部分,并表明:
[topsep=0pt, partopsep=0pt, leftmargin=13pt, parsep=0pt, itemsep=4pt]
在定義產生有效表示的對比預測任務時,多個數據增強操作的組合是至關重要的。另外,無監督對比學習比監督學習具有更強的數據增強性。
在表示和對比損失之間引入一個可學習的非線性變換,極大地提高了學習表示的質量。
具有對比交叉熵損失的表示法學習得益于歸一化嵌入和適當調整的溫度參數。
與監督學習相比,對比學習受益于更大的批量和更長的訓練。與監督學習一樣,對比學習也受益于更深更廣的網絡。
我們結合這些發現,在ImageNet ILSVRC-2012上實現了一種新的自監督和半監督學習(Russakovsky et al., 2015)。** 在線性評價方案下,SimCLR達到了76.5%的top-1準確率,相對于之前的最先進水平(Henaff et al., 2019)提高了7%。當僅使用1%的ImageNet標簽進行微調時,SimCLR達到了85.8%的top-5準確率,相對提高了10% (Henaff et al., 2019)。當對其他自然圖像分類數據集進行微調時,SimCLR在12個數據集中的10個上的表現與強監督基線(Kornblith et al., 2019)相當或更好。**