近年來,在單個圖像中進行陰影檢測已引起了學界廣泛的研究興趣。但是,關于動態視頻場景中陰影檢測的探索工作卻很少,其面臨的一個主要瓶頸是缺乏具有高質量像素級標注的視頻陰影檢測數據集。在本工作中,我們收集和標注了一個新的視頻陰影檢測數據集(ViSha),其中包含120個視頻,總計11685幀,涵蓋了60個不同的陰影對象類別,也包括了不同長度、不同運動和照明條件下的視頻,并且我們為所有的11685幀都提供了精確的像素級標注。據我們所知,這是用于視頻陰影檢測的第一個面向深度學習的數據集。此外,我們設計了一個基礎模型,即基于三元合作模式的視頻陰影檢測模型(TVSD-Net)。TVSD-Net以協作的方式利用三元并行網絡來學習視頻內和視頻間級別的判別表示。在網絡內部,我們提出了協同注意力模塊來約束同一視頻中相鄰幀的特征,同時引入輔助相似度損失來挖掘不同視頻之間的語義信息。最后,我們在ViSha的測試集上對12種相似任務中使用的模型進行了評估(包括單個圖像陰影檢測器,視頻對象分割和顯著性檢測方法)。實驗表明,我們的模型在視頻陰影問題上優于上述對比方法。
今天的計算機視覺擅長于識別現實世界的限定部分:我們的模型似乎能在基準數據集中準確地檢測出像貓、汽車或椅子這樣的物體。然而,部署模型要求它們在開放世界中工作,開放世界包括各種設置中的任意對象。目前的方法在兩個方面都有困難:他們只認識到少數的類別,并且在不同的訓練分布的環境中切換。解決這些挑戰的模型可以作為下游應用的基本構建模塊,包括識別操作、操作對象和繞過障礙進行導航。本論文提出了我們在建立魯棒檢測和跟蹤目標模型的工作,特別是有很少或甚至沒有訓練的樣例。首先,我們將探索傳統模型如何泛化到現實世界,傳統模型只識別一小部分對象類。我們表明,目前的方法是極其敏感的:即使是輸入圖像或測試分布的細微變化,都可能導致精度下降。我們的系統評估顯示,模型——即使是那些訓練很好的對對抗或合成損壞具有魯棒性的模型——經常正確地分類視頻的一幀,但在相鄰的感知相似的幀上卻失敗了。類似的現象甚至適用于由數據集之間的自然變化引起的微小分布變化。最后,我們提出了一種解決對象外觀泛化的極端形式的方法:檢測完全遮擋的對象。接下來,我們探索歸納到大的或無限的詞匯,其中包含罕見的和從未見過的類。由于當前的數據集很大程度上局限于一個小的、封閉的對象集合,我們首先提出了一個大型詞匯基準來衡量檢測和跟蹤的進展。我們展示了當前的評估不足以滿足大型詞匯量基準測試,并提供了適當評估此設置中的進度的替代指標。最后,我們提出了利用封閉世界識別的進展來為任何對象建立精確、通用的檢測器和跟蹤器的方法。
//www.ri.cmu.edu/publications/open-world-object-detection-and-tracking/
本文簡要介紹CVPR2021錄用論文“Sequence-to-Sequence Contrastive Learning for Text Recognition”的主要工作。該論文提出了一種針對文本識別,序列到序列對比學習的無監督方法SeqCLR。
無監督的對比學習方法在圖像分類、目標檢測和圖像分割[1,2,3,4]中都取得不錯的成果。但是無監督和半監督的方法在文本識別中還有待進一步探索。 對于已有的無監督方法SimCLR[1],它將整張圖像作為對比學習中的輸入元素,這種整圖、非序列化的無監督方法從后文的實驗中證明對文本識別的效果很差。所以本文提出了一個序列化的無監督方法SeqCLR,它從整張圖片中映射出一定數量的實例來作為對比學習中的輸入元素。 圖片
圖1(a)目前的對比方法比較從整個圖像中計算出的單個表示。(b)SeqCLR的對比方法比較從整個圖像中計算出的多個表示。
本文的方法是第一個提出用于文本識別的自我監督表示學習的工作。通過在特征圖中加窗產生正負樣本來將文本圖片序列化,這種方法在一些手寫文本和場景文本數據集中取得不錯的效果。
小樣本識別的目標是在每類只有少量有標簽樣本可供使用的限制下識別新的類別。受到人類學習過程的啟發,現有的一些方法引入了額外語義模態來增強從訓練樣本(稱為支持樣本)學習更好的表征。然而,這些方法忽視了為測試樣本(稱為查詢樣本)設計特殊的處理機制。在失去了潛在的效果提升的同時,這些方法可能導致模態混合表征和同類別的純視覺表征之間存在偏移,最終導致識別的錯誤率上升。
在本文中,我們提出一種屬性指導的注意力模塊(AGAM),來使用人工屬性標注學習更有區分性的特征。這種即插即用的模塊能夠利用視覺內容和對應的屬性標注一起關注支持樣本中重要的通道和區域。同時,對于屬性標注不可得的查詢樣本,這種特征選擇過程同樣能夠只利用視覺內容便可執行。因此,兩種樣本的表征經過了相似的細粒度優化。另外,我們提出一種注意力對齊機制,來從屬性的指導蒸餾知識到純視覺的特征選擇過程,使其能夠在不利用屬性標注的限制下學會關注更具語義的特征。大量的實驗和分析表明,我們提出的模塊可以顯著改進現有的基于度量的方法來達到最先進的性能。
場景圖以結構化、符號化的方式將圖像的高層內容進行了概括,兩幅圖像的場景圖之間的相似性反映了其內容的相關性。基于這一思想,我們提出了一種利用圖神經網絡測量場景圖相似度的圖像到圖像檢索新方法。在我們的方法中,圖神經網絡被訓練來預測代理圖像的關聯度量,使用預先訓練的句子相似度模型從人工標注的標題計算。我們收集并發布由人類標注員測量的圖像相關性數據集,以評估檢索算法。收集到的數據集表明,我們的方法比其他基準方法更符合人類對圖像相似性的感知。
對于有足夠標記樣本的基類,小樣本分類的目標是在只有少量標記樣本的情況下識別新類的未標記樣本。現有的方法大多只關注新類的標記樣本和未標記樣本之間的關系,沒有充分利用基類內部的信息。在本文中,我們為研究小樣本分類問題做了兩個貢獻。首先,我們提出了一個簡單而有效的基線,通過傳統的監督學習的方式在基類上訓練,可以取得與目前水平相當的結果。其次,在基線的基礎上,我們提出了一個協作的雙路徑分類度量,它利用基類和新類之間的相關性來進一步提高分類的準確性。在兩個廣泛使用的基準上的實驗表明,該方法是一種簡單有效的分類方法,在小樣本分類領域開創了一種新局面。
互聯網上短視頻的快速涌現為視頻內容的精準檢索帶來了前所未有的挑戰。使用自然語言文本描述對視頻進行跨模態檢索(Cross-modal Video-Text Retrieval)是最符合自然人機交互的方式之一,能更加全面細粒度地表達用戶檢索需求,得到了越來越多的研究關注。
當前跨模態檢索的主要方法將視頻和文本模態映射到聯合視覺語義空間以計算跨模態相似度。大部分工作[1,2]使用全局特征向量分別表示視頻和文本信息,但是文本和視頻中包含了豐富復雜的元素,例如圖1中的事件檢索涉及了不同的動作、實體、以及動作實體之間的關系等等,使用單一的特征表示很難捕獲細粒度的語義信息。少量工作[3]提出細粒度的密集匹配,將視頻和文本表示為序列化特征,對每一序列元素進行局部對齊匹配,融合得到全局跨模態相似度,然而僅使用序列化表示忽略了文本或視頻內部復雜的拓撲結構,不能準確地表示事件中不同元素之間的關系,使得局部對齊匹配的語義表達能力下降。
視頻文本匹配被分解包括事件(Event)、動作(Action)和實體(Entities)的三個層次,形成整體到局部的結構。一方面,模型可借助局部語義元素增強全局語義匹配;另一方面,全局語義信息也能幫助局部元素的語義理解,增強局部信息的跨模態匹配。
因此,我們提出了層次化圖推理模型(Hierarchical Graph Reasoning model, HGR),更好地結合全局和局部密集匹配的優點,并彌補其不足。如圖1所示,我們將視頻文本匹配分解為三層的語義級別,分別負責刻畫全局事件(Event)以及局部的動作(Action)和實體(Entities),以涵蓋整體到局部的語義信息。首先對于文本編碼,全局事件由整個句子表示,動作由動詞表示,實體則由名詞短語表示。不同語義級別不是獨立的,它們之間的交互反映了它們在事件中扮演的語義角色(Semantic Role),因此我們建立三層語義級別的語義角色圖(Semantic Role Graph),提出利用基于注意力的圖推理方法來捕捉圖中的交互信息。然后,不同層次的文本特征用于指導多樣化的視頻編碼,視頻也被編碼為與事件、動作和實體相關的層次化表示。每一層次級通過注意力機制進行跨模態匹配,最后進行不同層次的融合。
我們在三個視頻描述數據集上進行實驗,從3個方面證明了所提出模型的有效性: 1) HGR模型在多個數據集中取得更好的跨模態檢索結果;2) 在跨數據集實驗中,HGR模型具有更強泛化性能;3) 提出了一個新的細粒度二元選擇任務,HGR模型更能區分細粒度語義變化和選擇更加全面的檢索結果。
本文由騰訊優圖實驗室和中科院軟件所聯合提出。細粒度視覺分類(Fine-Grained Visual Categorization,FGVC)因樣本類間差異更加細微,往往只能借助微小的局部差異才能區分出不同的類別,使其成為一項重要但具有挑戰性的任務。本文提出了一種基于注意力機制的卷積二叉神經樹結構。具體來說,我們將傳統的決策樹與神經網絡結合,在樹的內部節點中使用路由來確定樹內從根到葉的計算路徑,并且在樹的邊上添加了卷積操作增強表示學習,最終決策融合了所有葉節點的預測。該模型以一種由粗到細的層次方式學習具有判別力的特征。此外,我們采用了非對稱的策略來增加多尺度特征提取,增強樣本的區分性特征表示。我們采用SGD優化方法以端到端的方式訓練整個網絡。我們的方法在CUB-200-2011,Stanford Cars 和 Aircraft數據集上進行了評估,顯著優于當前其他的弱監督細粒度方法。