【導讀】作為計算機視覺領域的三大國際頂會之一,IEEE國際計算機視覺與模式識別會議CVPR(IEEE Conference on Computer Vision and Pattern Recognition) 每年都會吸引全球領域眾多專業人士參與。CVPR 2021將在線舉行, 中國科學院院士、中科院自動化所智能感知與計算研究中心主任譚鐵牛將出任大會主席(General Chair,GC),上海科技大學的虞晶怡教授將任程序主席(Program Chair,PC)。今年的CVPR有效投稿多達7500篇,一共有1663篇論文被接收,接收率為27%。
為此,專知小編提前為大家整理了五篇CVPR 2021視覺目標檢測(Object Detection)相關論文,讓大家先睹為快——開放域目標檢測、實例蒸餾、多實例主動學習、自監督多目標檢測、少樣本目標檢測
1. Towards Open World Object Detection
作者:K J Joseph, Salman Khan, Fahad Shahbaz Khan, Vineeth N Balasubramanian
摘要:人類具有識別其環境中未知目標實例的本能。當相應的知識最終可用時,對這些未知實例的內在好奇心有助于學習它們。這促使我們提出了一個新穎的計算機視覺問題:“開放世界目標檢測”,該模型的任務是:1)在沒有明確監督的情況下將尚未引入該目標的目標識別為“未知”,以及2)當逐漸接收到相應的標簽時,逐步學習這些已識別的未知類別,而不會忘記先前學習的類別。我們提出了問題,引入了強大的評價準則并提供了一種新穎的解決方案,我們稱之為ORE:基于對比聚類和基于能量的未知標識的開放世界目標檢測器。我們的實驗評估和消去實驗研究分析了ORE在實現開放世界目標方面的功效。作為一個有趣的副產品,我們發現識別和表征未知實例有助于減少增量目標檢測設置中的混亂,在此方法中,我們無需任何方法上的努力即可獲得最先進的性能。我們希望我們的工作將吸引對這個新發現的但至關重要的研究方向的進一步研究。
圖片 代碼:
網址:
2. General Instance Distillation for Object Detection
作者:Xing Dai, Zeren Jiang, Zhao Wu, Yiping Bao, Zhicheng Wang, Si Liu, Erjin Zhou
摘要:近年來,知識蒸餾已被證明是模型壓縮的有效解決方案。這種方法可以使輕量級的學生模型獲得從繁瑣的教師模型中提取的知識。但是,先前的蒸餾檢測方法對于不同的檢測框架具有較弱的概括性,并且嚴重依賴ground truth (GT),而忽略了實例之間有價值的關系信息。因此,我們提出了一種新的基于區分性實例檢測任務的蒸餾方法,該方法不考慮GT區分出的正例或負例,這稱為一般實例蒸餾(GID)。我們的方法包含一個通用實例選擇模塊(GISM),以充分利用基于特征的,基于關系的和基于響應的知識進行蒸餾。廣泛的結果表明,在各種檢測框架下,學生模型可顯著提高AP的表現,甚至優于教師模型。具體來說,在Reconet上使用ResNet-50的RetinaNet在COCO數據集上具有GID的mAP達到了39.1%,比基線的36.2%超出了2.9%,甚至比具有38.1%的AP的基于ResNet-101的教師模型更好。
圖片 網址:
3. Multiple Instance Active Learning for Object Detection
作者:Tianning Yuan, Fang Wan, Mengying Fu, Jianzhuang Liu, Songcen Xu, Xiangyang Ji, Qixiang Ye
摘要:盡管主動學習(active learning)在圖像識別方面取得了長足的進步,但仍然缺乏為目標檢測任務設置的實例級主動學習方法。在本文中,我們提出了多實例主動學習(MIAL),通過觀察實例級別的不確定性來選擇信息量最大的圖像進行檢測器訓練。MIAL定義了實例不確定性學習模塊,該模塊利用在標記集上訓練的兩個對抗性實例分類器的差異來預測未標記集的實例不確定性。MIAL將未標記的圖像視為實例包,并將圖像中的特征錨視為實例,并通過以多實例學習(MIL)方式對實例重新加權來估計圖像不確定性。迭代實例不確定性學習和重新加權有助于抑制嘈雜的實例,以彌合實例不確定性和圖像級不確定性之間的差距。實驗證明,MIAL為實例級的主動學習設置了堅實的基準。在常用的目標檢測數據集上,MIAL具有明顯的優勢,優于最新方法,尤其是在標記集很小的情況下。
圖片 代碼:
4. There is More than Meets the Eye: Self-Supervised Multi-Object Detection and Tracking with Sound by Distilling Multimodal Knowledge
作者:Francisco Rivera Valverde, Juana Valeria Hurtado, Abhinav Valada
摘要:目標固有的聲音屬性可以提供有價值的線索,以學習豐富的表示形式來進行目標檢測和跟蹤。此外,可以通過僅監視環境中的聲音來利用視頻中視聽事件的共現來在圖像上定位目標。到目前為止,這僅在攝像機靜止且用于單個目標檢測的情況下才可行。此外,這些方法的魯棒性受到限制,因為它們主要依賴于高度易受光照和天氣變化影響的RGB圖像。在這項工作中,我們提出了一種新穎的自監督的MM-DistillNet框架,該框架由多名教師組成,這些教師利用RGB,深度和熱圖像等多種模式,同時利用互補線索和提煉知識到單個音頻學生網絡中。我們提出了新的MTA損失函數,該函數有助于以自監督的方式從多模態教師中提取信息。此外,我們為有聲讀物的學生提出了一種新穎的自監督的前置任務,使我們不必依賴勞動強度大的人工注釋。我們引入了一個大型多模態數據集,其中包含113,000多個時間同步的RGB,深度,熱和音頻模態幀。大量實驗表明,我們的方法優于最新方法,同時能夠在推理甚至移動過程中僅使用聲音來檢測多個目標。
圖片 網址:
5. Semantic Relation Reasoning for Shot-Stable Few-Shot Object Detection
作者:Chenchen Zhu, Fangyi Chen, Uzair Ahmed, Marios Savvides
摘要:由于真實世界數據固有的長尾分布,少樣本目標檢測是當前非常需要研究的問題。它的性能在很大程度上受到新的類別數據匱乏的影響。但是,無論數據可用性如何,新穎類和基類之間的語義關系都是恒定的。在這項工作中,我們研究將這種語義關系與視覺信息一起使用,并將顯式關系推理引入新穎目標檢測的學習中。具體來說,我們通過從大型語料庫中學到的語義嵌入來表示每個類的概念。檢測要求將目標的圖像表示投影到此嵌入空間中。我們發現如果僅僅使用啟發式知識圖譜作為原始嵌入是遠遠不夠的,提出使用一種動態關系圖來擴展原始嵌入向量。因此,我們提出的SRR-FSD的少樣本檢測器對于新目標的變化能夠保持穩定的性能。實驗表明,SRR-FSD可以在higher shots下獲得還不錯的結果,更重要地是,在較低的explicit shots和implicit shots的情況下,SRR-FSD的性能也要好得多。
圖片 網址:
【導讀】作為計算機視覺領域的三大國際頂會之一,IEEE國際計算機視覺與模式識別會議CVPR(IEEE Conference on Computer Vision and Pattern Recognition) 每年都會吸引全球領域眾多專業人士參與。CVPR 2021將在線舉行, 中國科學院院士、中科院自動化所智能感知與計算研究中心主任譚鐵牛將出任大會主席(General Chair,GC),上海科技大學的虞晶怡教授將任程序主席(Program Chair,PC)。今年的CVPR有效投稿多達7500篇,一共有1663篇論文被接收,接收率為27%。
為此,專知小編提前為大家整理了五篇CVPR 2021領域自適應(Domain Adaptation)相關論文,這塊這幾年一直比較受關注,特別是未知域、通用域學習等等?大家先睹為快——真實域泛化、多目標域自適應、通用領域自適應、頻域空間域方法、未知域泛化
CVPR2021IVC、CVPR2021PID、CVPR2021IC、CVPR2021VU、CVPR2021OD、CVPR2021OT、CVPR2021AR
1. Adaptive Methods for Real-World Domain Generalization
作者:Abhimanyu Dubey, Vignesh Ramanathan, Alex Pentland, Dhruv Mahajan
摘要:不變性(Invariant)方法在解決域泛化問題方面非常成功,其目的是對在訓練中使用的數據分布不同的數據分布進行推斷。在我們的工作中,我們調研了是否有可能利用來自不可見的測試樣本本身的域信息。我們提出了一種包含兩個步驟的領域自適應方法:a)我們首先從無監督的訓練示例中學習判別性領域嵌入,以及b)使用該領域嵌入作為補充信息來構建領域自適應模型,該模型同時采用了以下兩種方法:進行預測時要考慮輸入及其域。對于不可見的域,我們的方法僅使用一些未標記的測試示例來構建域嵌入。這可以在任何不可見的域上進行自適應分類。我們的方法可在各種領域通用基準上實現最先進的性能。此外,我們推出了第一個真實的,大規模的領域通用基準測試Geo-YFCC,其中包含110萬個樣本,經過40個訓練,7個驗證和15個測試域,比以前的工作大了幾個數量級。我們顯示,與在所有訓練域的數據聯合上訓練模型的簡單基準相比,現有方法無法擴展到該數據集或表現不佳。相比之下,我們的方法實現了1%的顯著改進。
網址: //arxiv.org/abs/2103.15796
2. Curriculum Graph Co-Teaching for Multi-Target Domain Adaptation
作者:Subhankar Roy, Evgeny Krivosheev, Zhun Zhong, Nicu Sebe, Elisa Ricci
摘要:在本文中,我們討論了多目標域適應(MTDA),其中給定一個標記的源域數據集和多個數據分布不同的未標記的目標域數據集,任務是為所有目標域學習可靠的預測模型。我們確定了兩個關鍵方面,可以幫助減輕MTDA中的多領域轉移:特征聚合和課程學習(curriculum learning)。為此,我們提出了使用雙重分類器的課程圖協同教學模型 Curriculum Graph Co-Teaching(CGCT),其中之一是圖卷積網絡(GCN),該圖卷積網絡匯總了跨域相似樣本的特征。為了防止分類器過分適合自己的嘈雜偽標簽,我們與雙分類器一起使用了一種共同教學策略,并借助課程學習來獲得更可靠的偽標簽。此外,當域標簽可用時,我們提出了Domain-aware Curriculum Learning(DCL),這是一種順序適應策略,首先適應較容易的目標域,然后適應較難的目標域。我們在幾個基準上實驗性地證明了我們提出的框架的有效性,并大幅提高了MTDA中的最新水平(例如,在DomainNet上為+ 5.6%)。
代碼:
網址:
3. Domain Consensus Clustering for Universal Domain Adaptation
作者:Guangrui Li, Guoliang Kang, Yi Zhu, Yunchao Wei, Yi Yang
摘要:在本文中,我們研究了通用域自適應(UniDA)問題,該問題旨在在不對齊的標簽空間下將知識從源域轉移到目標域。UniDA的主要挑戰在于如何將公共類(即跨域共享的類)與私有類(即僅在一個域中存在的類)分開。先前的工作將目標域中的私有樣本視為一個通用類,但忽略了它們的固有結構。因此,所得到的表示在潛在空間中不夠緊湊,并且很容易與普通樣本混淆。為了更好地利用目標域的內在結構,我們提出了Domain Consensus Clustering(DCC),它利用域共識知識來發現普通樣本和私有樣本上的區分性聚類。具體來說,我們從兩個方面汲取領域共識知識,以促進聚類和私有類發現,即語義級別的共識(將周期一致的簇標識為通用類)和樣本級別的共識,利用交叉域分類協議以確定集群的數量并發現私有類。基于DCC,我們能夠將私有類與公共類分開,并區分私有類本身。最后,我們在識別出的常見樣本上應用了分類感知比對技術,以最大程度地減少分布偏移,并應用原型正則化方法來激發可辨別的目標集群。在四個基準上進行的實驗表明,DCC明顯優于以前的最新技術。
網址:
4. FSDR: Frequency Space Domain Randomization for Domain Generalization
作者:Jiaxing Huang, Dayan Guan, Aoran Xiao, Shijian Lu
摘要:域泛化旨在從“已知”源域中為各種“未知”目標域學習可泛化的模型。已經通過域隨機化對它進行了廣泛的研究,該方法將源圖像轉移到空間中的不同樣式以學習域不可知的特征。然而,大多數現有的隨機化方法使用的GAN常常缺乏控制力,甚至改變了圖像的語義結構。受到將空間圖像轉換成多個頻率分量(FC)的JPEG理念的啟發,我們提出了頻空域隨機化(FSDR),該方法通過僅保留域不變FC(DIF)和隨機化域變FC(DVF)來隨機化頻率空間中的圖像。FSDR具有兩個獨特的功能:1)將圖像分解為DIF和DVF,從而允許對其進行顯式訪問和操縱以及更可控的隨機化;2)它對圖像的語義結構和領域不變特征的影響最小。我們統計地檢查了FC的域方差和不變性,并設計了一個網絡,該網絡可以通過迭代學習動態地識別和融合DIF和DVF。對多個領域可概括的分割任務的廣泛實驗表明,FSDR實現了出色的分割,其性能甚至與在訓練中訪問目標數據的領域自適應方法相當。
網址:
5. RobustNet: Improving Domain Generalization in Urban-Scene Segmentation via Instance Selective Whitening
作者:Sungha Choi, Sanghun Jung, Huiwon Yun, Joanne Kim, Seungryong Kim, Jaegul Choo
摘要:將深度神經網絡的泛化能力提高到不可見域對于現實世界中與安全相關的應用(如自動駕駛)至關重要。為了解決這個問題,本文提出了一種新的實例選擇性白化損失(instance selective whitening loss),以提高針對未知域的分割網絡的魯棒性。我們的方法解開了特征表示的高階統計量(即特征協方差)中編碼的特定于域的樣式和域不變內容,并有選擇地僅刪除導致域移位的樣式信息。如圖1所示,我們的方法為(a)低照度,(b)多雨和(c)不可見的結構提供了合理的預測。這些類型的圖像未包含在訓練數據集中,其中基線顯示出明顯的性能下降,這與我們的方法相反。我們的方法提高了各種骨干網絡的魯棒性,而沒有額外的計算成本。我們在城市場景分割中進行了廣泛的實驗,顯示了我們的方法在現有工作中的優越性。
代碼:
網址:
【導讀】作為計算機視覺領域的三大國際頂會之一,IEEE國際計算機視覺與模式識別會議CVPR(IEEE Conference on Computer Vision and Pattern Recognition) 每年都會吸引全球領域眾多專業人士參與。CVPR 2021將在線舉行, 中國科學院院士、中科院自動化所智能感知與計算研究中心主任譚鐵牛將出任大會主席(General Chair,GC),上海科技大學的虞晶怡教授將任程序主席(Program Chair,PC)。今年的CVPR有效投稿多達7500篇,一共有1663篇論文被接收,接收率為27%。
為此,專知小編提前為大家整理了五篇CVPR 2021圖像/視頻描述生成(Image/Video Captioning)相關論文,這塊這幾年一直比較受關注,但是競爭也比較激烈,可以看看最新是如何創新,如何開展的?大家先睹為快——RGB-D描述生成、視頻的文本生成、可控圖像描述生成、圖像描述預訓練模型、開放域視頻描述生成
CVPR2021PID、CVPR2021IC、CVPR2021VU、CVPR2021OD、CVPR2021OT、CVPR2021AR
1. Scan2Cap: Context-aware Dense Captioning in RGB-D Scans
作者:Dave Zhenyu Chen, Ali Gholami, Matthias Nie?ner, Angel X. Chang
摘要:在commodity RGB-D 傳感器的3D掃描中,我們介紹了密集描述生成(dense captioning)的任務。作為輸入,我們假設3D場景的點云;預期的輸出是邊界框以及基礎目標的描述。為了解決3D目標檢測和描述生成問題,我們提出了一種Scan2Cap(一種端到端訓練有素的方法),以檢測輸入場景中的目標并以自然語言描述它們。在引用局部上下文的相關組件時,我們使用一種注意力生成機制來生成描述性標記。為了在生成的標題中反映目標關系(即相對空間關系),我們使用信息傳遞圖模塊來促進學習目標關系特征。我們的方法可以有效地定位和描述來自ScanReferdataset的場景中的3D目標,其性能大大優于2D基線方法(27.61%[email protected]改進)。
圖片 網址:
2. VX2TEXT: End-to-End Learning of Video-Based Text Generation From Multimodal Inputs
作者:Xudong Lin, Gedas Bertasius, Jue Wang, Shih-Fu Chang, Devi Parikh, Lorenzo Torresani
摘要:我們介紹了VX2TEXT,這是一個用于從多模態輸入生成文本的框架,該輸入由視頻加上文本,語音或音頻組成。為了利用已被證明在建模語言方面有效的transformer網絡,本文首先將每個模態由可學習的tokenizer生成器轉換為一組語言嵌入。這使我們的方法可以在語言空間中執行多模態融合,從而消除了對臨時跨模態融合模塊的需求。為了解決連續輸入(例如:視頻或音頻)上tokenization的不可區分性,我們使用了一種relaxation 方案(relaxation scheme),該方案可進行端到端訓練。此外,與以前的僅編碼器模型不同,我們的網絡包括自回歸解碼器,可從語言編碼器融合的多模態嵌入中生成開放式文本。這使我們的方法完全具有生成性,并使其可直接應用于不同的“視頻+ x到文本”問題,而無需為每個任務設計專門的網絡負責人。本文所提出的框架不僅在概念上簡單,而且非常有效:實驗表明,我們基于單一體系結構的方法在字幕,問答和視聽這三個基于視頻的文本生成任務上均優于最新技術場景感知對話框架。
網址:
3. Human-like Controllable Image Captioning with Verb-specific Semantic Roles
作者:Long Chen, Zhihong Jiang, Jun Xiao, Wei Liu
摘要:過去幾年來,可控圖像字幕(CIC)(根據指定的控制信號生成圖像描述)受到了前所未有的關注。為了模仿人類控制字幕生成的能力,當前的CIC研究僅關注與客觀屬性(例如:感興趣的內容或描述性模式)有關的控制信號。但是,我們認為幾乎所有現有的目標控制信號都忽略了理想控制信號的兩個必不可少的特征:1)事件兼容:在單個句子中提及的所有視覺內容應與所描述的活動兼容。2)適合樣本:控制信號應適合于特定的圖像樣本。為此,我們為CIC提出了一個新的控制信號:動詞特定的語義角色(VSR)。VSR由一個動詞和一些語義角色組成,它們表示目標活動以及此活動中涉及的實體的角色。給定指定的VSR,我們首先訓練一個語義角色標記(GSRL)模型,以識別每個角色的所有實體。然后,我們提出了一個語義結構計劃器(SSP)來學習類似人的描述性語義結構。最后,我們使用角色轉換描述模型來生成描述。大量的實驗和消融表明,在兩個具有挑戰性的CIC基準測試中,我們的框架比幾個強大的基準可以實現更好的可控性。此外,我們可以輕松生成多層次的不同描述。
代碼:
網址:
4. VirTex: Learning Visual Representations from Textual Annotations
作者:Karan Desai, Justin Johnson
摘要:實際上,許多解決視覺任務的方法是從預訓練的視覺表示開始,通常是通過ImageNet的監督訓練來學習的。最近的方法已經探索了無監督的預訓練,以擴展到大量未標記的圖像。相反,我們旨在從更少的圖像中學習高質量的視覺表示。為此,我們重新審視了有監督的預訓練,并尋求基于數據的有效方法來替代基于分類的預訓練。我們提出了VirTex——這是一種使用語義密集描述來學習視覺表示的預訓練方法。我們從頭開始在COCO Captions上訓練卷積網絡,并將其轉移到下游識別任務,包括圖像分類,目標檢測和實例分割。在所有任務上,VirTex所產生的特征都可以與ImageNet上達到或超過的特征(在監督或無監督的情況下)相提并論,并且其所使用的圖像最多減少十倍。
網址:
5. Open-book Video Captioning with Retrieve-Copy-Generate Network
作者:Ziqi Zhang, Zhongang Qi, Chunfeng Yuan, Ying Shan, Bing Li, Ying Deng, Weiming Hu
摘要:在本文中,我們將傳統的視頻描述任務轉換為一種新的范例,即``Open-book視頻描述'',它可以在與視頻內容相關的句子的提示下生成自然語言,而不僅限于視頻本身。為了解決Open-book的視頻描述問題,我們提出了一種新穎的“檢索-復制-生成”網絡,該網絡中構建了可插入的視頻到文本檢索器,以有效地從訓練語料庫檢索句子作為提示,而復制機制生成器則是引入動態提取多檢索語句中的表達式。這兩個模塊可以端到端或分別進行訓練,這是靈活且可擴展的。我們的框架將傳統的基于檢索的方法與正統的編碼器/解碼器方法進行了協調,它們不僅可以利用檢索到的句子中的各種表達方式,還可以生成自然而準確的視頻內容。在幾個基準數據集上進行的大量實驗表明,我們提出的方法超越了最新技術的性能,表明了在視頻描述任務中提出的范例的有效性和前景。
網址:
【導讀】作為計算機視覺領域的三大國際頂會之一,IEEE國際計算機視覺與模式識別會議CVPR(IEEE Conference on Computer Vision and Pattern Recognition) 每年都會吸引全球領域眾多專業人士參與。CVPR 2021將在線舉行, 中國科學院院士、中科院自動化所智能感知與計算研究中心主任譚鐵牛將出任大會主席(General Chair,GC),上海科技大學的虞晶怡教授將任程序主席(Program Chair,PC)。今年的CVPR有效投稿多達7500篇,一共有1663篇論文被接收,接收率為27%。
為此,專知小編提前為大家整理了六篇CVPR 2021行人重識別(Person Re-identification)相關論文,這塊近幾年非常火,但是競爭也比較激烈,可以看看最新是如何創新,如何開展的?大家先睹為快——視頻行人重識別、領域自適應行人重識別、無監督行人重識別、開放域行人重識別、
CVPR2021IC、CVPR2021VU、CVPR2021OD、CVPR2021OT、CVPR2021AR
1. Watching You: Global-guided Reciprocal Learning for Video-based Person Re-identification
作者:Xuehu Liu, Pingping Zhang, Chenyang Yu, Huchuan Lu, Xiaoyun Yang
摘要:基于視頻的行人重識別(RE-ID)旨在自動在非重疊攝像機下檢索同一個人的視頻序列。為實現這一目標,充分利用視頻中豐富的空間和時間線索是關鍵。現有方法通常專注于最具顯著性的圖像區域,因此由于圖像序列中的行人類型不同,他們可能很容易錯過細粒度的線索。為了解決上述問題,在本文中,我們提出了一種新的全局指導的互惠學習(Global-guided Reciprocal Learning,GRL)框架,用于基于視頻的行人重識別。具體地,我們首先提出了全局指導的相關估計(Global-guided Correlation Estimation,GCE)來生成局部特征和全局特征的特征相關圖,這有助于定位高相關性區域和低相關性區域,以識別同一個人。此后,在全局表示的指導下,區分特征被分解為高相關特征和低相關特征。此外,設計了一種新的時間互惠學習(Temporal Reciprocal Learning ,TRL)機制,以依次增強高相關語義信息并積累低相關亞臨界線索。在三個公共基準上進行了廣泛的實驗。實驗結果表明,與其他最新技術相比,我們的方法可以實現更好的性能。
代碼:
網址:
2. Group-aware Label Transfer for Domain Adaptive Person Re-identificatio
作者:Kecheng Zheng, Wu Liu, Lingxiao He, Tao Mei, Jiebo Luo, Zheng-Jun Zha
摘要:無監督域自適應(UDA)行人重識別(ReID)的目的是使在有標記源域數據集上訓練的模型適應目標域數據集,而無需任何其他標記。最成功的UDA-ReID方法將基于聚類的偽標簽預測與表示學習相結合,并以交替的方式執行這兩個步驟。但是,這兩個步驟之間的離線交互可能使有噪聲的偽標簽阻礙模型的性能。在本文中,我們提出了一種組感知標簽轉移(GLT)算法,該算法可實現偽標簽預測和表示學習的在線交互和相互促進。具體而言,標簽轉移算法在使用偽標簽來訓練數據的同時將偽標簽細化為在線聚類算法。它將在線標簽提煉問題視為最佳運輸問題,它探索了將M個樣本分配給N個偽標簽的最低成本。更重要的是,我們引入了一種組感知策略來為樣本分配隱式屬性組ID。在線標簽細化算法和群體感知策略的結合可以在線方式糾正嘈雜的偽標簽,并縮小目標身份的搜索空間。Market1501→DukeMTMC (82.0%)和DukeMTMC→Market1501(92.2%)的實驗結果(Rank-1準確性)證明了擬議GLT的有效性,顯著縮小了行人重識別時無監督表現與有監督表現之間的差距。
代碼:
網址:
3. Intra-Inter Camera Similarity for Unsupervised Person Re-Identification
作者:Shiyu Xuan, Shiliang Zhang
摘要:大多數無監督的行人重識別(RE-ID)通過測量特征相似性來生產偽標簽,而不考慮相機之間的分布差異,導致相機標簽計算中的準確性降低。本文通過研究基于相機內相似性的偽標簽生成來解決這一挑戰。我們將樣本相似度計算分解為兩個階段,即分別是相機內和相機間計算。攝像機內部計算直接利用CNN特征進行每個攝像機內的相似度計算。在不同攝像機上生成的偽標簽在多分支網絡中訓練行人重識別模型。第二階段將不同相機上每個樣本的分類分數視為新的特征向量。這一新特征有效地緩解了攝像機之間的分配差異,并生成了更可靠的偽標簽。因此,我們將分別在兩個階段訓練我們的行人重識別模型,分別使用相機內和相機間的偽標簽。這種簡單的相機內和相機間的相似性在多個數據集上產生了令人驚訝的良好性能,例如,在Market1501數據集上達到了18.5%的準確度,比最近的無監督作品高了9 +%,可與最新的遷移學習作品相提并論但不需要利用額外的注釋。
代碼:
Xuan/IICS
網址:
4. Joint Noise-Tolerant Learning and Meta Camera Shift Adaptation for Unsupervised Person Re-Identification
作者:Fengxiang Yang, Zhun Zhong, Zhiming Luo, Yuanzheng Cai, Yaojin Lin, Shaozi Li, Nicu Sebe
摘要:本文考慮了無監督行人重識別(re-ID)的問題,該問題旨在學習使用未標記數據的判別模型。一種流行的方法是通過聚類獲得偽標簽并將其用于優化模型。盡管這種方法已顯示出令人信服的準確性,但它受到以下因素的阻礙:1)聚類產生的噪聲標簽;2)相機移位導致的特征變化。前者會導致錯誤的優化,從而影響模型的準確性。后者將導致將不同攝像機的類內樣本分配給不同的偽標簽,從而使模型對攝像機變化敏感。在本文中,我們提出了一個統一的框架來解決這兩個問題。具體而言,我們提出了一種動態和對稱的交叉熵損失(DSCE)來處理噪聲的樣本,并提出了一種可感知相機的元學習算法(MetaCam)以適應相機的偏移。DSCE可以減輕噪聲樣本的負面影響,并在每個聚類步驟之后適應聚類的變化。MetaCam通過將訓練數據基于攝像機ID分為元訓練和元測試來模擬跨攝像機約束。通過元訓練和元測試的交互梯度,該模型被強制學習相機不變的特征。在三個re-ID基準上進行的大量實驗證明了所提出的DSCE和MetaCam的有效性和互補性。在完全無監督的re-ID和無監督的域自適應re-ID上,我們的方法都優于最新方法。
代碼:
網址:
5. Meta Batch-Instance Normalization for Generalizable Person Re-Identification
作者:Seokeon Choi, Taekyung Kim, Minki Jeong, Hyoungseob Park, Changick Kim
摘要:盡管有監督行人重識別(Re-ID)方法表現出令人印象深刻的性能,但是它們在看不見的域上具有較差的泛化能力。因此,可通用化的Re-ID最近引起了越來越多的關注。許多現有方法已采用實例規范化技術來減少樣式變化,但是無法避免判別性信息的丟失。在本文中,我們提出了一種新穎的可推廣Re-ID框架,稱為Meta Batch-Instance Normalization。我們的主要思想是通過在元學習管道中預先模擬不太成功的泛化方案來泛化歸一化層。為此,我們將可學習的批處理實例歸一化層與元學習結合在一起,并研究由批處理和實例歸一化層造成的挑戰性情況。此外,我們通過元訓練損失以及循環內更新的方式來使虛擬仿真多樣化,以提高泛化能力。畢竟,MetaBIN框架可防止我們的模型過度適合給定的源樣式,并提高了對看不見域的泛化能力,而無需額外的數據擴充或復雜的網絡設計。大量的實驗結果表明,我們的模型在大規模域泛化Re-ID基準測試和跨域Re-ID問題上的性能優于最新方法。
代碼:
網址:
【導讀】作為計算機視覺領域的三大國際頂會之一,IEEE國際計算機視覺與模式識別會議CVPR(IEEE Conference on Computer Vision and Pattern Recognition) 每年都會吸引全球領域眾多專業人士參與。CVPR 2021將在線舉行, 中國科學院院士、中科院自動化所智能感知與計算研究中心主任譚鐵牛將出任大會主席(General Chair,GC),上海科技大學的虞晶怡教授將任程序主席(Program Chair,PC)。今年的CVPR有效投稿多達7500篇,一共有1663篇論文被接收,接收率為27%。
為此,專知小編提前為大家整理了五篇CVPR 2021圖像分類(Image Classification)相關論文,圖像分類topic,大家都很熟悉,但是競爭也比較激烈,可以看看最新是如何創新如何開展的?大家先睹為快——半監督細粒度圖像分類、長尾圖像分類、新標簽少樣本學習、對比聯邦學習
CVPR2021OD、CVPR2021AR
1. A Realistic Evaluation of Semi-Supervised Learning for Fine-Grained Classification
作者:Jong-Chyi Su, Zezhou Cheng, Subhransu Maji
摘要:我們在一個現實的基準上評估半監督學習(SSL)的有效性,在該基準上,數據表現出明顯的類別失衡并包含來自新類別的圖像。我們的基準測試由兩個細粒度的分類數據集組成,這些數據集是通過從Aves和Fungi分類中對類進行抽樣而獲得的。我們發現,最近提出的SSL方法具有顯著的優勢,并且當從頭開始訓練深度網絡時,可以有效地使用類外(out-of-class)數據來提高性能。然而,與遷移學習基準相比,這部分表現卻差強人意。另外,盡管現有的SSL方法提供了一些改進,但是類外數據的存在通常對模型的性能反而有害。在這種情況下,微調后再進行基于蒸餾的自訓練反而是最可靠的。我們的實驗表明,在現實數據集上的基于專家的半監督學習可能需要一些不同的策略,這部分策略與現在流行的方法可能不同。
2. Contrastive Learning based Hybrid Networks for Long-Tailed Image Classification
作者:Peng Wang, Kai Han, Xiu-Shen Wei, Lei Zhang, Lei Wang
摘要:學習得到圖像的判別性表示在長尾(long-tailed)圖像分類中起著至關重要的作用,因為它可以緩解分類器在數據不平衡情況下的學習。鑒于最近對比學習的表現,在這項工作中,我們探討了有效的監督對比學習策略,并定制了他們從不平衡數據學習更好的圖像表示的方法,以提高其上的分類精度。具體來說,我們提出了一種新穎的混合網絡結構,該結構由監督的對比損失(用于學習圖像表示)和交叉熵損失(用于學習分類器)組成,其中學習逐漸從特征學習過渡到分類器學習,以體現更好的特征訓練更好的分類器。我們探索了用于特征學習的兩種對比損失形式,它們的形式各不相同,但有一個共同的想法,即在歸一化嵌入空間中將同一類別的樣本拉在一起,然后將不同類別的樣本推開。其中之一是最近提出的監督對比(SC)損失,它是通過合并來自同一類別的正樣本在最先進的無監督對比損失之上設計的。另一種是原型監督對比(PSC)學習策略,該策略解決了標準SC丟失中的大量內存消耗問題,因此在有限的內存預算下顯示出更多的希望。在三個長尾分類數據集上的廣泛實驗證明了在長尾分類中所提出的基于對比學習的混合網絡的優勢。
3. Fine-grained Angular Contrastive Learning with Coarse Labels
作者:Guy Bukchin, Eli Schwartz, Kate Saenko, Ori Shahar, Rogerio Feris, Raja Giryes, Leonid Karlinsky
摘要:少樣本學習方法會提供經過優化的預訓練技術,以便使用一個或幾個示例輕松地將模型適應新類別(在訓練過程中看不見)。這種對看不見類別的適應性對于許多實際應用尤為重要,在這些實際應用中,預訓練的標簽空間無法保持固定以有效使用,并且模型需要“專業化”以支持動態的新類別。Coarseto-Fine Few-Shot(C2FS)是一種特別有趣的場景,但被鮮為人知的文獻所忽略,其中訓練類(例如動物)比目標(測試)類(例如品種)具有“更粗糙的粒度”。C2FS的一個非常實際的示例是目標類是訓練類的子類。直觀地講,這是特別具有挑戰性的,因為(規律和少樣本)監督的預訓練往往會學會忽略類內變異性,這對于分離子類至關重要。在本文中,我們介紹了一個新穎的“角度歸一化”模塊,該模塊可以有效地結合監督和自監督的對比預訓練來解決提出的C2FS任務,從而在對多個基準和數據集的廣泛研究中顯示出顯著的收益。我們希望這項工作將有助于為有關C2FS分類這一新的,具有挑戰性且非常實用的主題的未來研究鋪平道路。
網址:
4. MetaSAug: Meta Semantic Augmentation for Long-Tailed Visual Recognition
作者:Shuang Li, Kaixiong Gong, Chi Harold Liu, Yulin Wang, Feng Qiao, Xinjing Cheng
摘要:現實世界中的訓練數據通常呈現長尾分布,其中幾個多數類的樣本數量明顯多于其余少數類。這種不平衡會降低被設計用于平衡訓練集的典型監督學習算法的性能。在本文中,我們通過使用最近提出的隱式語義數據增強(ISDA)算法來增強少數類,以解決該問題,該算法通過沿著語義有意義的方向平移深層特征來產生多樣化的增強樣本。重要的是,鑒于ISDA估計了分類條件統計信息以獲得語義指導,由于訓練數據不足,我們發現在少數群體分類中這樣做是無效的。為此,我們提出了一種新穎的方法,可通過元學習自動學習轉換后的語義方向。具體來說,訓練過程中的擴充策略是動態優化的,旨在最大程度地減少通過平衡更新步驟近似的小的平衡驗證集上的損失。在CIFAR-LT-10 / 100,ImageNet-LT和iNaturalist 2017/2018的廣泛經驗結果驗證了我們方法的有效性。
網址:
5. Model-Contrastive Federated Learning
作者:Qinbin Li, Bingsheng He, Dawn Song
摘要:聯邦學習使多方可以協作訓練機器學習模型,而無需傳達他們的本地數據。聯合學習中的一個關鍵挑戰是處理各方之間本地數據分布的異質性。盡管已經提出了許多研究來應對這一挑戰,但我們發現它們在具有深度學習模型的圖像數據集中無法實現高性能。在本文中,我們提出了MOON:模型對比聯合學習。MOON是一種簡單有效的聯合學習框架。MOON的關鍵思想是利用模型表示之間的相似性來校正單個方面的本地訓練,即在模型級別進行對比學習。我們廣泛的實驗表明,MOON在各種圖像分類任務上明顯優于其他最新的聯邦學習算法。
網址:
【導讀】作為計算機視覺領域的三大國際頂會之一,IEEE國際計算機視覺與模式識別會議CVPR(IEEE Conference on Computer Vision and Pattern Recognition) 每年都會吸引全球領域眾多專業人士參與。CVPR 2021將在線舉行, 中國科學院院士、中科院自動化所智能感知與計算研究中心主任譚鐵牛將出任大會主席(General Chair,GC),上海科技大學的虞晶怡教授將任程序主席(Program Chair,PC)。今年的CVPR有效投稿多達7500篇,一共有1663篇論文被接收,接收率為27%。
為此,專知小編提前為大家整理了五篇CVPR 2021視頻理解(Video Understanding)相關論文,讓大家先睹為快——長視頻學習、指稱表達、VideoMoCo、視頻預測、自監督視頻表示學習
CVPR2021OD、CVPR2021AR
1. PGT: A Progressive Method for Training Models on Long Videos
作者:Bo Pang, Gao Peng, Yizhuo Li, Cewu Lu
摘要:卷積視頻模型的計算復雜度比其對應的圖像級模型大一個數量級。受計算資源的約束,沒有模型或訓練方法可以端到端訓練長視頻序列。目前,主流方法是將原始視頻分割成片段,導致片段時間信息流不完整,受自然語言處理長句的啟發,我們建議將視頻視為滿足馬爾可夫性質的連續片段,并將其訓練為通過逐步擴展信息在時間維度上的整體傳播。這種漸進式訓練(PGT)方法能夠以有限的資源端對端地訓練長視頻,并確保信息的有效傳輸。作為一種通用且強大的訓練方法,我們通過經驗證明了該方法在不同模型和數據集上均具有顯著的性能改進。作為說明性示例,我們提出的方法將Chalow上的SlowOnly網絡提高了3.7 mAP,在Kinetics 方面提高了1.9 top-1的精度,而參數和計算開銷卻可以忽略不計。
代碼:
網址:
2. Co-Grounding Networks with Semantic Attention for Referring Expression Comprehension in Videos
作者:Sijie Song, Xudong Lin, Jiaying Liu, Zongming Guo, Shih-Fu Chang
摘要:在本文中,我們解決了在視頻中引用了指稱表達(Referring Expression)的問題,這個任務由于復雜的表達和場景動態而具有挑戰性。與以前的解決方案可以在多個階段(即跟蹤,基于proposal的匹配)解決問題的方法不同,我們從新穎的角度出發使用單階段框架—co-grounding。我們通過語義注意力學習來提高單幀 grounding 的準確性,并通過聯合co-grounding特征學習來提高跨幀 grounding的一致性。語義注意力學習顯式地解析具有不同屬性的線索,以減少復雜表達中的歧義。co-groundin特征學習通過集成時間相關性來減少由場景動態引起的模糊性,從而增強了視覺特征表示。實驗結果證明了我們的框架在video grounding數據集VID和LiOTB上的優越性,可以跨幀生成準確而穩定的結果。我們的模型還適用于引用圖像中的指稱表達(Referring Expression),這可以通過RefCOCO數據集上的改進性能來說明。
代碼:
網址:
3. VideoMoCo: Contrastive Video Representation Learning with Temporally Adversarial Examples
作者:Tian Pan, Yibing Song, Tianyu Yang, Wenhao Jiang, Wei Liu
摘要:MOCO對于無監督的圖像表示學習是有效的。在本文中,我們針對無監督視頻表示學習提出VideomoCo。給出視頻序列作為輸入樣本,我們從兩個視角改善MoCo的時間特征表示。首先,我們介紹一個生成器,以便在時間上刪除幾個幀。然后學習鑒別器以編碼類似的特征表示,無論幀移除如何。通過在訓練攻擊期間自適應地丟棄不同的幀,我們將該輸入樣本增強以訓練一個時間魯棒的編碼器。其次,在計算對比損耗時,我們使用時間衰減來模擬內存隊列中的鍵(key)衰減。動量編碼器在鍵進入后進行更新,當我們使用當前輸入樣本進行對比學習時,這些鍵的表示能力會下降。這種下降通過時間衰減反映出來,以使輸入樣本進入隊列中的最近鍵。結果,我們使MoCo能夠學習視頻表示,而無需憑經驗設計pretext任務。通過增強編碼器的時間魯棒性并為鍵的時間衰減建模,我們的VideoMoCo基于對比學習在時間上提高了MoCo。在包括UCF101和HMDB51在內的基準數據集上進行的實驗表明,VideoMoCo是最先進的視頻表示學習方法。
代碼:
網址:
4. Greedy Hierarchical Variational Autoencoders for Large-Scale Video Prediction
作者:Bohan Wu, Suraj Nair, Roberto Martin-Martin, Li Fei-Fei, Chelsea Finn
摘要:拓展到不同場景的視頻預測模型將使智能體(agent)能夠通過使用模型規劃來執行多種任務。然而,雖然現有的視頻預測模型在小型數據集上產生了有希望的結果,但在大型和多樣化的數據集上訓練時,它們會遭受嚴重的欠擬合(underfitting)。為了解決這種欠擬合挑戰,我們首先觀察到訓練更大的視頻預測模型的能力通常是通過GPU或TPU的內存限制的。同時,深層次的潛在變量模型可以通過捕獲未來觀測值的多級隨機性來產生更高質量的預測,但是這種模型的端到端優化特別困難。我們的主要想法在于,通過對分層自編碼器的貪婪和模塊化優化可以同時解決內存限制和大規模視頻預測的優化挑戰。我們介紹貪婪的分層變分自編碼器(GHVAES),這是一種通過貪婪訓練分層自編碼器的每個級別來學習Highfivelity視頻預測的方法。GHVAE在四個視頻數據集上的預測性能提高了17-55%,在實際機器人任務上的成功率提高了35-40%,并且可以通過簡單地添加更多內容來提高性能模塊。
代碼:
網址:
5. Removing the Background by Adding the Background: Towards Background Robust Self-supervised Video Representation Learning
作者:Jinpeng Wang, Yuting Gao, Ke Li, Yiqi Lin, Andy J. Ma, Hao Cheng, Pai Peng, Rongrong Ji, Xing Sun
摘要:通過從數據本身監督,自監督學習表現出了提高深神經網絡的視頻表示能力的巨大潛力。然而,一些當前的方法傾向于從背景中欺騙,即,預測高度依賴于視頻背景而不是運動,使得模型容易受到背景的變化。為了減輕模型依賴背景,我們建議通過添加背景來消除背景影響。也就是說,給定視頻,我們隨機選擇靜態幀并將其添加到每個其他幀以構建分散注意力的視頻樣本。然后我們強制模型拉動分散的視頻的特征和原始視頻的特征,以便明確地限制模型以抵抗背景影響,更多地關注運動變化。我們將我們的方法命名為Background Erasing (BE)。值得注意的是,我們的方法的實現非常簡單,可以很輕松地添加到大多數SOTA方法中。具體而言,在嚴重bias的數據集UCF101和HMDB51上具有16.4%和19.1%的改善,對較少bias的數據集Diving48改進了14.5%。
網址:
【導讀】作為計算機視覺領域的三大國際頂會之一,IEEE國際計算機視覺與模式識別會議CVPR(IEEE Conference on Computer Vision and Pattern Recognition) 每年都會吸引全球領域眾多專業人士參與。CVPR 2021將在線舉行, 中國科學院院士、中科院自動化所智能感知與計算研究中心主任譚鐵牛將出任大會主席(General Chair,GC),上海科技大學的虞晶怡教授將任程序主席(Program Chair,PC)。今年的CVPR有效投稿多達7500篇,一共有1663篇論文被接收,接收率為27%。
為此,專知小編提前為大家整理了五篇CVPR 2021視覺目標跟蹤(Object Tracking)相關論文,讓大家先睹為快——GCN多目標跟蹤、概率自回歸、旋轉孿生網絡、3D目標檢測和跟蹤、在線多目標跟蹤
CVPR2021OD、CVPR2021AR
1. Learning a Proposal Classifier for Multiple Object Tracking
作者:Peng Dai, Renliang Weng, Wongun Choi, Changshui Zhang, Zhangping He, Wei Ding
摘要:最近多目標跟蹤(MOT)的趨勢正在朝著利用深度學習來推動跟蹤性能的方面發展。但是,以端到端的方式解決數據關聯問題并非易事。在本文中,我們提出了一個新穎的基于proposal的可學習框架,該模型將MOT建模為proposal生成,proposal評分和affinity圖上的軌跡推斷范式。該框架類似于兩階段目標檢測器Faster RCNN,可以以數據驅動的方式解決MOT問題。對于proposa的生成,我們提出了一種迭代圖聚類方法,以降低計算成本,同時保持生成的proposa的質量。對于proposa評分,我們部署了可訓練的圖卷積網絡(GCN),以學習生成的proposa的結構模式,并根據估算的質量得分對它們進行排名。對于軌跡推斷,采用一種簡單的去重疊策略來生成跟蹤輸出,同時遵守不能將檢測分配給一個以上軌道的約束。我們通過實驗證明,相對于以前在兩個公共基準上的最新技術,該方法在MOTA和IDF1中均實現了明顯的性能改進。
代碼: //github.com/daip13/LPC_MOT.git
網址:
2. Probabilistic Tracklet Scoring and Inpainting for Multiple Object Tracking
作者:Fatemeh Saleh, Sadegh Aliakbarian, Hamid Rezatofighi, Mathieu Salzmann, Stephen Gould
摘要:盡管通過聯合檢測和跟蹤實現了多目標跟蹤(MOT)的最新進展,但是處理長距離遮擋仍然是一個挑戰。這是由于這些技術傾向于忽略長期運動信息。在本文中,我們引入了一種概率自回歸運動模型,通過直接測量它們的可能性來對tracklet proposals進行評分。這是我們的模型通過訓練來學習自然軌跡的基本分布來實現的。這樣,我們的模型不僅能夠為現有的軌跡分配新的檢測結果,而且還可以在目標長時間丟失時(例如:遮擋),通過采樣軌跡以填補錯誤檢測引起的差距。我們的實驗證明了我們的方法在具有挑戰性的序列中跟蹤物體的優越性。在多個MOT基準數據集(包括MOT16,MOT17和MOT20)上,它在大多數標準MOT指標上的表現均優于最新技術。
網址:
3. Rotation Equivariant Siamese Networks for Tracking
作者:Deepak K. Gupta, Devanshu Arya, Efstratios Gavves
摘要:旋轉是視覺目標跟蹤中長期存在但尚未解決的艱巨挑戰之一。現有的基于深度學習的跟蹤算法使用常規的CNN,這些CNN本質上是平移不變的,它們并沒有解決旋轉問題。在本文中,我們首先證明在視頻中存在旋轉實例時,現有跟蹤器的性能會受到嚴重影響。為了避免旋轉的不利影響,我們提出了等速旋轉孿生網絡(RE-SiamNets),該網絡是通過使用包含可控濾波器的等分組卷積層構建的。SiamNets允許以無監督的方式估計目標方向的變化,從而也方便了其在相對2D姿勢估計中的使用。我們進一步表明,通過對兩個連續幀之間的方向變化施加限制,這種方向變化可以用于在孿生(Siamese)跟蹤中施加附加的運動約束。為了進行基準測試,我們展示了旋轉跟蹤基準(RTB),它是一個包含一組帶有旋轉實例的視頻的數據集。通過對兩種流行的孿生體系結構進行的實驗,我們證明RE-SiamNets很好地解決了旋轉問題,并且性能優于常規同類產品。此外,RE-SiamNets可以以無監督的方式準確估算目標姿勢的相對變化,即目標相對于參考框架的平面內旋轉。
網址:
4. Center-based 3D Object Detection and Tracking
作者:Tianwei Yin, Xingyi Zhou, Philipp Kr?henbühl
摘要:三維目標通常表示為點云中的3D框。這種表示方法借鑒了基于圖像的2D邊界框檢測,但同時其也帶來了其他挑戰。3D世界中的目標不遵循任何特定的方向,基于box的檢測器很難枚舉所有方向或將軸對齊的邊界框擬合到旋轉的目標。在本文中,我們提出將3D目標表示為點,并進行檢測和跟蹤。我們的框架CenterPoint首先使用關鍵點檢測器檢測目標的中心,然后回歸到其他屬性,包括3D大小,3D方向和速度。在第二階段,它使用目標上的其他點特征來完善這些估計。在CenterPoint中,3D目標跟蹤可簡化為貪婪的最近點匹配。這樣得到的檢測和跟蹤算法簡單,高效且有效。CenterPoint在nuScenes基準上實現了3D檢測和跟蹤的最先進性能,單個模型具有65.5 NDS和63.8 AMOTA。在Waymo開放數據集上,CenterPoint大大優于所有以前的單一模型方法,并且在所有僅Lidar提交中排名第一。
代碼:
網址:
5. Track to Detect and Segment: An Online Multi-Object Tracker
作者:Jialian Wu, Jiale Cao, Liangchen Song, Yu Wang, Ming Yang, Junsong Yuan
摘要:大多數在線多目標跟蹤器在神經網絡中獨立執行目標檢測,而無需跟蹤任何輸入。在本文中,我們介紹了一個新的在線聯合檢測和跟蹤模型TraDeS(用于檢測和分段的TRack),它利用跟蹤線索來輔助端到端檢測。TraDeS推斷目標跟蹤偏移量為成本,用于傳播先前的目標特征以改善當前目標的檢測和分割。TraDeS的有效性和優越性顯示在4個數據集上,包括MOT(2D跟蹤),nuScenes(3D跟蹤),MOTS和Youtube-VIS(實例分割跟蹤)。
代碼:
網址:
【導讀】作為計算機視覺領域的三大國際頂會之一,IEEE國際計算機視覺與模式識別會議CVPR(IEEE Conference on Computer Vision and Pattern Recognition) 每年都會吸引全球領域眾多專業人士參與。CVPR 2021將在線舉行, 中國科學院院士、中科院自動化所智能感知與計算研究中心主任譚鐵牛將出任大會主席(General Chair,GC),上海科技大學的虞晶怡教授將任程序主席(Program Chair,PC)。今年的CVPR有效投稿多達7500篇,一共有1663篇論文被接收,接收率為27%。
為此,專知小編提前為大家整理了五篇CVPR 2021行為識別(Action Recognition)相關論文,讓大家先睹為快——Action-Net、黑盒對抗攻擊、Coarse-Fine 網絡、時序差分網絡、對抗攻擊
CVPR2021OD
1. ACTION-Net: Multipath Excitation for Action Recognition
作者:Zhengwei Wang, Qi She, Aljosa Smolic
摘要:時空,channel-wise和運動模式是視頻動作識別的三種互補且至關重要的信息類型。傳統的2D CNN在計算上簡單,但無法捕捉時間關系。3D CNN可以實現良好的性能,但計算量很大。在這項工作中,我們通過設計可以嵌入到2D CNN中的通用有效模塊來解決這一難題。為此,我們提出了一個時空,通道和運動激發(ACTION)模塊,該模塊由三個路徑組成:時空激發(STE)路徑,通道激發(CE)路徑和運動激發(ME)路徑。STE路徑采用一個通道3D卷積來表征時空表示。CE路徑通過在時間方面明確地建模通道之間的相互依賴性,來自適應地重新校準通道方式的特征響應。ME路徑計算特征級別的時間差異,然后將其用于激發運動敏感通道。我們為2D CNN集成了ACTION模塊,以形成一個簡單而有效的ACTION-Net,這樣可以減少額外的計算成本。通過使用三個數據集(即Something-Something V2,Jester和EgoGesture)在三個主干網(即ResNet-50,MobileNet V2和BNInception)上始終優于2D CNN,證明了ACTION-Net的有效性。
代碼:
//github.com/V-Sense/ACTION-Net
網址:
2. BASAR:Black-box Attack on Skeletal Action Recognition
作者:Yunfeng Diao, Tianjia Shao, Yong-Liang Yang, Kun Zhou, He Wang
摘要:骨骼運動作為獨立的數據源或補充,在人類動作識別中起著至關重要的作用。最近,基于骨骼的動作識別器的魯棒性受到了質疑,當攻擊者可以全面了解識別器時,它們很容易受到對抗性攻擊。但是,在大多數情況下,此白盒要求過于嚴格,并且攻擊并未真正造成威脅。在本文中,我們證明了這種威脅在黑盒設置下也確實存在。為此,我們提出了第一種黑盒對抗攻擊方法BASAR。通過BASAR,我們證明對抗攻擊不僅是真正的威脅,而且可能是極具欺騙性的,因為流形上的對抗性樣本在骨骼運動中相當普遍,這與通常認為對抗性樣本僅在流形之外存在形成了鮮明的對比。通過詳盡的評估和比較,表明BASAR可以成功跨越模型,數據和攻擊模式進行攻擊。通過嚴格的感知研究,我們表明它可以實現有效而又不易察覺的攻擊。通過分析對不同動作識別器的攻擊,BASAR可以幫助確定其脆弱性的潛在原因,并提供有關哪些分類器可能更強大地抵抗攻擊的見解。
網址:
3. Coarse-Fine Networks for Temporal Activity Detection in Videos
作者:Kumara Kahatapitiya, Michael S. Ryoo
摘要:在本文中,我們介紹了Coarse-Fine網絡,這是一種雙流架構,該架構利用不同時間分辨率,來學習更好的長期運動視頻表示。傳統的視頻模型以一種(或幾種)固定的時間分辨率處理輸入,而沒有考慮任何動態幀選擇。但是,我們認為,處理輸入的多個時間分辨率并通過學習估計每個幀的重要性來動態地執行此操作可以極大地改善視頻表示,特別是在時序動作定位領域。為此,我們提出(1)“Grid Pool”,一個時間下采樣層,用于提取粗略特征;以及,(2)“多階段融合”,一種時空注意力機制,用于融合細粒度的上下文與粗略的特征。我們證明了本文的方法可以在包括Charades在內的公共數據集中勝過最新的動作檢測,并且顯著減少了計算和內存占用。
網址:
4. TDN: Temporal Difference Networks for Efficient Action Recognition
作者:Limin Wang, Zhan Tong, Bin Ji, Gangshan Wu
摘要:對于視頻中的行動識別仍然具有挑戰性。為緩解此問題,本文提出了一種新的視頻架構,稱為時間差分網絡(Temporal Difference Network, TDN),重點是捕獲多尺度時間信息以進行高效動作識別。我們TDN的核心是通過明確地利用時間差分操作設計有效的時間模塊(TDM),并系統地評估其對短期和長期運動建模的影響。為了在整個視頻中完全捕獲時間信息,我們的TDN是采用兩級差分建模范例建立的。具體而言,對于局部運動建模,連續幀上的時間差異用于為2D CNN提供更精細的運動模式,而對于全局運動建模,跨段的時間差異被并入以捕獲用于運動特征激勵的遠程結構。TDN提供了簡單而有原則的時間建模框架,可以用現有的CNN實例化,而所需的額外計算成本很小。我們的TDN在Something-Something V1和V2數據集上展示了最新的技術水平,可以與Kinetics-400數據集上的最佳性能相提并論。此外,我們進行了深入的消融研究并繪制了TDN的可視化結果,希望能對時差操作提供深入的分析。
代碼:
網址:
5. Understanding the Robustness of Skeleton-based Action Recognition under Adversarial Attack
作者:He Wang, Feixiang He, Zhexi Peng, Yong-Liang Yang, Tianjia Shao, Kun Zhou, David Hogg
摘要:動作識別已在許多應用中被大量采用,例如自動駕駛,監控等,其中,魯棒性是首要考慮的問題。在本文中,我們研究了最前沿的動作識別器對付對抗攻擊的魯棒性,到目前為止,這種魯棒性很少被研究。為此,我們提出了一種新的攻擊依賴3D骨骼運動的動作識別器的方法。我們的方法涉及創新的感知損失,可確保攻擊的感知力。實證研究表明,我們的方法在白盒和黑盒方案中均有效。在各種動作識別器和數據集上都證明了其通用性。它的多功能性在不同的攻擊策略中得到了體現。其欺騙性在廣泛的感知研究中得到了證明。我們的方法表明,對3D骨骼運動(一種時間序列數據)的對抗攻擊與傳統的對抗攻擊問題顯著不同。它的成功引起了對動作識別器魯棒性的嚴重關注,并為潛在的改進提供了見解。
網址:
【導讀】人工智能頂級會議AAAI2021接收結果已經公布,本次AAAI 2021一共收到9034篇論文提交,其中有效審稿的只有7911篇,最終錄取的數量為1692篇,接收率為21.4%,相比去年的20.6%高0.8%,競爭越來越激烈。近期,所有paper list 放出,小編發現基于視頻理解(Video Understanding)相關的接受paper很多,視頻理解,比如視頻分割、視頻分類以及視頻描述生成等等一些列前沿的方法和應用受到了很多人的關注。
為此,這期小編為大家奉上AAAI 2021必讀的六篇視頻理解相關論文——視頻實例分割、無監督視頻目標分割、粗到細視頻描述生成、時空圖神經網絡視頻目標分割、視頻情感分析
AAAI 2021 Accepted Papers : //aaai.org/Conferences/AAAI-21/wp-content/uploads/2020/12/AAAI-21_Accepted-Paper-List.Main_.Technical.Track_.pdf
AAAI2021CI、AAAI2021CL、ICLR2020CI、ICML2020CI
1. CompFeat: Comprehensive Feature Aggregation for Video Instance Segmentatio
作者:Yang Fu, Linjie Yang, Ding Liu, Thomas S. Huang, Humphrey Shi
摘要:視頻實例分割是一項復雜的任務,我們需要針對任何給定視頻對每個目標進行檢測,分割和跟蹤。先前的方法僅將單幀特征用于目標的檢測,分割和跟蹤,并且當遇到諸如運動模糊和劇烈的外觀變化之類情形,它們在視頻場景中會遭受損失。為了消除僅通過使用單幀特征引入的歧義,我們提出了一種新穎的綜合特征聚合方法(comprehensive feature aggregation, CompFeat),以利用時間和空間上下文信息在幀級和目標級完善特征。我們使用新的注意力機制精心設計了聚合過程,該機制會顯著提高學習特征的判別力。通過合并特征相似性和空間相似性,我們通過siamese設計進一步提高了模型的跟蹤能力。在YouTubeVIS數據集上進行的實驗驗證了我們提出的CompFeat的有效性。
圖片 代碼:
.
網址:
2. F2Net: Learning to Focus on the Foreground for Unsupervised Video Object Segmentation
作者:Daizong Liu, Dongdong Yu, Changhu Wang, Pan Zhou
摘要:盡管基于深度學習的方法在無監督的視頻目標分割中取得了很大的進步,但是仍然不能很好地處理困難的場景(例如,視覺相似性,遮擋和外觀變化)。為了緩解這些問題,我們提出了一種新穎的Focus on Foreground Network(F2Net),該框架深入研究了前景目標的幀間細節,從而有效地提高了分割性能。具體來說,我們提出的網絡由三個主要部分組成:siamese編碼器模塊,中心指導外觀擴散( Center Guiding Appearance Diffusion)模塊和動態信息融合模塊。首先,我們使用siamese編碼器提取成對幀(參考幀和當前幀)的特征表示。然后,設計了中心指導外觀擴散方式,以捕獲幀間特征(參考幀與當前幀之間的密集對應關系),幀內特征(當前幀中的密集對應關系)以及當前幀的原始語義特征。具體來說,我們建立了一個中心預測分支來預測當前目標在當前幀中的中心位置,并在增強幀間和幀內特征提取之前利用中心點信息作為空間指導,因此特征表示相當集中在前景目標上。最后,我們提出了一種動態信息融合模塊,可以通過上述三個不同級別的特征自動選擇相對重要的特征。在DAVIS2016,Youtube-object和FBMS數據集上進行的大量實驗表明,我們提出的F2Net可以實現最先進的性能,并且具有顯著的改進。
圖片 網址:
3. Non-Autoregressive Coarse-to-Fine Video Captioning
作者:Bang Yang, Yuexian Zou, Fenglin Liu, Can Zhang
摘要:目前在橋接視頻(bridge videos)和自然語言方面取得了很不錯的進展。然而,由于自動回歸解碼的順序方式,主流視頻字幕生成方法的推理速度較慢,并且由于對視覺單詞(例如,名詞和動詞)的訓練不足和解碼范式不足,更傾向于生成一般描述。在本文中,我們提出了一種基于非自回歸解碼的模型,該模型具有從粗到精的字幕處理程序,可以緩解這些缺陷。在實現中,我們采用基于雙向自注意力的網絡作為我們的語言模型,以實現推理速度的提高,在此基礎上,我們將視頻描述生成過程分解為兩個階段,其中模型具有不同的聚焦點。具體而言,鑒于視覺單詞決定字幕的語義正確性,我們設計了一種生成視覺單詞的機制,不僅可以促進與場景相關的單詞的訓練,而且可以從視頻中捕獲相關細節以構建粗粒度的句子“模板”。此后,我們設計了專用的解碼算法,該算法用合適的詞填充“模板”,并通過迭代細化修改不適當的措詞以獲得細粒度的描述。在兩個主流視頻字幕基準(即MSVD和MSR-VTT)上進行的大量實驗表明,我們的方法可實現最先進的性能,生成多種描述并獲得較高的推理效率。
圖片 網址:
4. Spatiotemporal Graph Neural Network based Mask Reconstruction for Video Object Segmentation
作者:Daizong Liu, Shuangjie Xu, Xiao-Yang Liu, Zichuan Xu, Wei Wei, Pan Zhou
摘要:本文解決了在半監督環境中分割與類無關的目標的任務。盡管以前的基于檢測的方法實現了相對較好的性能,但是這些方法通過貪婪策略提取了最佳proposal,這可能會丟失所選候選目標之外的局部patch的詳細信息。在本文中,我們提出了一種新穎的時空圖神經網絡(STG-Net),以重建用于視頻目標分割的更準確的掩碼(masks),該掩碼通過利用所有proposal來捕獲局部上下文。在空間圖中,我們將一幀的目標proposal作為節點對待,并使用用于掩碼上下文聚合的邊緣權重策略表示它們的相關性。為了從先前的幀中捕獲時間信息,我們使用記憶網絡通過檢索時間圖中的歷史掩碼來細化當前幀的掩碼。局部補丁細節和時間關系的共同使用使我們能夠更好地解決諸如目標遮擋和丟失之類的挑戰。在沒有在線學習和微調的情況下,我們的STG網絡在四個大型基準(DAVIS,YouTube-VOS,SegTrackv2和YouTube-Objects)上實現了最先進的性能,證明了該方法的有效性。
網址:
5. Quantum Cognitively Motivated Decision Fusion for Video Sentiment Analysis
作者:Dimitris Gkoumas, Qiuchi Li, Shahram Dehdashti, Massimo Melucci, Yijun Yu, Dawei Song
摘要:視頻情感分析作為一個決策過程,其本質是復雜的,涉及多種模態的決策和由此引起的認知偏差的融合。受量子認知(quantum cognition)最新進展的啟發,我們表明一種模態的情感判斷可能與另一種模態的判斷不兼容,即順序很重要,無法共同衡量它們以做出最終決定。因此,認知過程表現出經典概率理論無法捕捉到的“量子式”偏見。因此,我們提出了一種根本上新穎的,量子認知動機的融合策略,用于預測情感判斷。特別地,我們在具有正算子值測度的復值希爾伯特空間上,將話語表述為正負情緒判斷的量子疊加狀態,將單模態分類器表述為互不相容的可觀測量。在兩個基準數據集上進行的實驗表明,我們的模型明顯優于各種現有決策級別和一系列最新的內容級別融合方法。結果還表明,不兼容的概念允許有效處理所有組合模態,包括所有單峰分類器錯誤預測的極端情況。
圖片 網址:
【導讀】機器學習頂會 NeurIPS 2020, 是人工智能領域全球最具影響力的學術會議之一,因此在該會議上發表論文的研究者也會備受關注。據官方統計,今年NeurIPS 2020 共收到論文投稿 9454 篇,接收 1900 篇(其中 oral 論文 105 篇、spotlight 論文 280 篇),論文接收率為 20.1%。NeurIPS 2020已經開完了,小編發現目標檢測(Object Detection)相關的接受paper不少,目標檢測在NeurIPS上越來越多,也顯示出目標檢測這個傳統任務在當前還具有比較鮮活的生命力。
為此,這期小編為大家奉上NeurIPS 2020必讀的七篇目標檢測(Object Detection)相關論文——平均定位和分類Loss、對抗自步學習、細粒度動態、泛化Focal Loss、RelationNet++、少樣本目標檢測、弱監督目標檢測
NeurIPS 2020 Accepted Papers : //proceedings.neurips.cc/paper/2020
NIPS2020VRL、NIPS2020DA、NIPS2020CI、ICLR2020CI、ICML2020CI
1. A Ranking-based, Balanced Loss Function Unifying Classification and Localisation in Object Detection
作者:Kemal Oksuz, Baris Can Cam, Emre Akbas, Sinan Kalkan
摘要:我們提出了一個平均定位召回精度(average Localisation-Recall-Precision, aLRP),這是一種統一,有界,平衡和基于排名的損失函數,用于目標檢測中的分類和定位任務。aLRP擴展了平均召回率(LRP)性能指標,其idea來自于平均精確度(AP)損失如何將精確度擴展到基于排名的損失函數進行分類。aLRP具有以下明顯的優勢:(i)aLRP是分類和定位任務中第一個基于排名的損失函數。(ii)由于對兩個任務都使用了排名,因此aLRP自然可以對高精度分類實施高質量的定位。(iii)aLRP在正負樣本之間提供了可證明的平衡性。(iv)與最先進的檢測器的損失函數中平均具有6個超參數相比,aLRP損失只有一個超參數,我們在實驗中并未對其進行調整。在COCO數據集上,aLRP 損失改進了其基于排名的AP 損失,最多可增加5個AP點,在不增加測試時間的情況下AP可達到48.9,并且優于所有的先進的檢測器。
代碼:
網址:
2. Few-Cost Salient Object Detection with Adversarial-Paced Learning
作者:Dingwen Zhang, HaiBin Tian, Jungong Han
摘要:近年來,從給定圖像場景中檢測和分割顯著目標(salient objects)已引起了極大的關注。訓練現有深度顯著性檢測模型的根本挑戰是需要大量帶標注的數據。盡管收集大量的訓練數據變得既便宜又容易,但是從時間,勞動力和人的專業知識方面來說,對數據進行標注是一個昂貴的過程。為了解決這個問題,本文提出僅在少數訓練圖像上基于人工標注學習有效的顯著性目標檢測模型,從而大大減輕訓練模型中的人工勞動。為此,我們將該任務命名為“成本最低的顯著性目標檢測”,并提出了一種基于對抗性學習(APL)的框架,以加強其學習場景。本質上,APL源自自主學習(self-paced learning, SPL)機制,與學習正則化的啟發式設計不同,它通過數據驅動的對抗性學習機制來推斷強大的學習速度。對四個廣泛使用的基準數據集進行的綜合實驗表明,該方法可以僅用1k人工注釋訓練圖像有效地處理了現有的有監督的深度顯著性目標檢測模型。
代碼:
網址:
3. Fine-Grained Dynamic Head for Object Detection
作者:Lin Song, Yanwei Li, Zhengkai Jiang, Zeming Li, Hongbin Sun, Jian Sun, Nanning Zheng
摘要:特征金字塔網絡(FPN)提出了一種優異的方法,可以通過執行實例級分配來減輕目標表觀中的比例差異。然而,這種策略忽略了實例中不同子區域的獨特特征。為此,我們提出了一種細粒度的動態頭(dynamic head),可以針對每種情況從不同的比例有條件地選擇FPN特征的像素級組合,從而進一步釋放了多比例特征表示的能力。此外,我們設計了具有新激活函數的空間門,以通過空間稀疏卷積顯著降低計算復雜性。大量實驗證明了該方法在幾種最新檢測基準上的有效性和效率。
代碼:
網址:
4. Generalized Focal Loss: Learning Qualified and Distributed Bounding Boxes for Dense Object Detection
作者:Xiang Li, Wenhai Wang, Lijun Wu, Shuo Chen, Xiaolin Hu, Jun Li, Jinhui Tang, Jian Yang
摘要:一步法(One-stage)檢測器基本上將目標檢測公式化為密集的分類和定位(即邊界框回歸)。通常通過Focal Loss 來優化分類,并且通常在狄拉克(Dirac delta)分布下了解其位置。一步法檢測器的最新趨勢是引入單個預測分支來估計定位質量,其中預測質量有助于分類以提高檢測性能。本文研究了以上三個基本元素的表示形式:質量估計,分類和定位。在現有實踐中發現了兩個問題,包括(1)訓練和推理之間質量估計和分類的用法不一致,以及(2)用于定位的不靈活的狄拉克分布。為了解決這些問題,我們為這些元素設計了新的表示形式。具體來說,我們將質量估計合并到類預測向量中以形成聯合表示,并使用向量表示框位置的任意分布。改進的表示法消除了不一致的風險,并準確地描述了實際數據中的靈活分布,但這些表示中包含連續標簽,這超出了Focal Loss的范圍。然后,我們提出 Generalized Focal Loss(GFL),將Focal Loss從離散形式推廣到連續版本,以實現成功的優化。在COCO測試開發中,GFL使用ResNet-101主干網絡在AP上達到了45.0%,以更高或相當的推理速度超過了最先進的SAPD(43.5%)和A TSS(43.6%)。
網址:
5. RelationNet++: Bridging Visual Representations for Object Detection via Transformer Decoder
作者:Cheng Chi, Fangyun Wei, Han Hu
摘要:現有的目標檢測框架通常建立在目標表示的單一格式上,即RetinaNet和Faster R-CNN中的錨點/建議矩形框,FCOS和RepPoints中的中心點以及CornerNet中的角點。盡管這些不同的表示形式通常會驅動框架在不同方面表現良好,例如更好的分類或更好的定位,但是由于異構或非均一性,通常很難將這些表示形式組合到單個框架中以充分利用每種優勢。本文提出了一種基于注意力的解碼器模塊,與Transformer中的模塊類似,以端到端的方式將其他表示形式橋接到基于單個表示形式格式的典型目標檢測器中。其他表示充當一組key實例,以增強vanilla檢測器中的主要query表示特征。提出了用于有效計算解碼器模塊的新技術,包括key采樣方法和共享位置嵌入方法。我們將提出的模塊稱為橋接視覺表示(bridging visual representations, BVR)。并且我們證明了其在將其他表示形式橋接到流行的目標檢測框架(包括RetinaNet,Faster R-CNN,FCOS和A TSS)中的廣泛有效性,在這些方面在 AP實現了約1.5到3.0 的改進。特別是,我們將具有強大主干的最新框架在AP上改進了約2.0 ,在COCO測試開發中AP達到了52.7 A。我們將生成的網絡名為RelationNet ++。
代碼:
網址:
6. Restoring Negative Information in Few-Shot Object Detection
作者:Yukuan Yang, Fangyun Wei, Miaojing Shi, Guoqi Li
摘要:少樣本學習成為深度學習領域的新挑戰:與訓練帶有大量標記數據的深度神經網絡(DNN)的常規方法不同,它要求在帶有少量標注的新類別上推廣DNN。少樣本學習的最新進展主要集中在圖像分類上,而在本文中,我們著重于目標檢測。少樣本目標檢測的最初探索趨向于通過使用圖像中相對于某些物體類別的正proposals而拋棄該類別的負 proposals來模擬分類場景。負樣本,尤其是難樣本,對于少樣本目標檢測中的嵌入空間學習至關重要。在本文中,我們通過引入一個新的基于負和正表觀的度量學習框架以及具有負和正表觀的新推理方案,來恢復少樣本目標檢測中的負信息。我們基于最近很少使用的pipeline RepMet構建我們的工作,該模型帶有幾個新模塊,可以對負面信息進行編碼,以進行訓練和測試。在ImageNet-LOC和PASCAL VOC上進行的大量實驗表明,我們的方法極大地改進了最新的少樣本目標檢測解決方案。
代碼:
網址:
7. UWSOD: Toward Fully-Supervised-Level Capacity Weakly Supervised Object Detection
作者:Yunhang Shen, Rongrong Ji, Zhiwei Chen, Yongjian Wu, Feiyue Huang
摘要:弱監督目標檢測(WSOD)由于具有極大的靈活性,可以利用僅具有圖像級標注的大規模數據集來進行檢測器訓練,因此受到了廣泛的研究關注。盡管近年來有了很大的進步,但是WSOD的性能仍然受到限制,遠遠低于有監督的目標檢測(FSOD)。由于大多數WSOD方法依賴于object proposal算法來生成候選區域,并且還面臨著諸如質量低下的預測邊界框和大規模變化之類的挑戰。在本文中,我們提出了一個統一的WSOD框架(稱為UWSOD),以構建僅包含圖像級標簽的大容量通用檢測模型,該模型是獨立的,不需要外部模塊或其他監督。為此,我們利用了三個重要的組件,即object proposal生成,邊界框微調和尺度不變特征。首先,我們提出一個基于錨點的自監督的proposa生成器來假設目標位置,該生成器由UWSOD創建的監督進行端到端的訓練,以進行目標分類和回歸。其次,我們通過逐步選擇高可信度object proposal作為正樣本,開發了逐步的邊界框微調,以精煉檢測分數和坐標,從而引導了預測邊界框的質量。第三,我們構造了一個多速率重采樣金字塔以聚合多尺度上下文信息,這是處理WSOD中尺度變化的第一個網絡內特征層次結構。在PASCAL VOC和MS COCO上進行的大量實驗表明,所提出的UWSOD使用最新的WSOD方法可獲得競爭性結果,而無需外部模塊或額外的監督。此外,具有類不可知的ground-truth邊界框的UWSOD的上限性能接近Faster R-CNN,這表明UWSOD具有完全受監督級別的能力。
代碼:
網址: