【導讀】作為計算機視覺領域的三大國際頂會之一,IEEE國際計算機視覺與模式識別會議CVPR(IEEE Conference on Computer Vision and Pattern Recognition) 每年都會吸引全球領域眾多專業人士參與。CVPR 2021已經在線舉行, 今年的CVPR有效投稿多達7500篇,一共有1663篇論文被接收,接收率為27%。
CVPR2021 Paper List: //openaccess.thecvf.com/CVPR2021?day=all
為此,專知小編為大家整理了五篇CVPR 2021零樣本(Zero-Shot Learning)相關研究和應用,這塊這幾年一直比較受關注——零樣本實例分割、開放域組合零樣本學習、零樣本對抗量化、廣義零樣本學習
CVPR2021CL、CVPR2021DA、CVPR2021IVC、CVPR2021PID、CVPR2021IC、CVPR2021VU、CVPR2021OD、CVPR2021OT、CVPR2021AR
1. Zero-Shot Instance Segmentation
作者:Ye Zheng, Jiahong Wu, Yongqiang Qin, Faen Zhang, Li Cui
摘要:通過利用豐富的標記數據,深度學習顯著提高了實例分割的精度。但是,在醫療、制造業等很多領域,收集足夠的數據是非常困難的,標記這些數據需要很高的專業技能。本文遵循這一動機并提出了一個名為零樣本實例分割(ZSI)的新任務集。在 ZSI 的訓練階段,模型使用可見數據進行訓練,而在測試階段,它用于分割所有可見和不可見的實例。本文首先制定了 ZSI 任務并提出了一種應對挑戰的方法,它由零樣本檢測器、語義掩碼、背景感知 RPN 和同步背景策略組成。本文提出了一個基于 MS-COCO 數據集的零樣本實例分割的新基準。該基準測試中大量的實驗結果表明,本文的方法不僅在零樣本目標檢測任務中超越了最先進的結果,而且在 ZSI 上也取得了良好的性能。本文的方法將作為一個可靠的基線,并促進零樣本實例分割的未來研究。
論文:
代碼:
2. Open World Compositional Zero-Shot Learning
作者:Massimiliano Mancini, Muhammad Ferjad Naeem, Yongqin Xian, Zeynep Akata
摘要:組合零樣本學習 (CZSL) 需要識別訓練期間看不見的狀態對象組合。在這項工作中,本文不是假設關于看不見的組合的先驗知識,而是在開放世界環境中操作,其中搜索空間包括大量未見過的組合,其中一些可能是不可行的。在這種情況下,本文從視覺特征和組合嵌入之間的余弦相似度開始。在估計每個組合的可行性分數后,本文使用這些分數直接屏蔽輸出空間,或作為訓練期間視覺特征和組合嵌入之間余弦相似度的邊界。本文在兩個標準 CZSL 基準上的實驗表明,當應用于開放世界設置時,所有方法都會遭受嚴重的性能下降。雖然本文的簡單 CZSL 模型在封閉世界場景中實現了最先進的性能,但本文估計的可行性分數提高了本文方法在開放世界環境中的性能,明顯優于之前的最先進的方法。
論文:
代碼:
3. Learning Graph Embeddings for Compositional Zero-shot Learning
作者:Muhammad Ferjad Naeem, Yongqin Xian, Federico Tombari, Zeynep Akata
摘要: 在組合零樣本學習中,目標是識別訓練集中觀察到的視覺原始狀態(例如老、可愛)和對象(例如汽車、狗)的看不見的組合(例如老狗)。因為相同的狀態可以改變狗的視覺外觀與汽車的就截然不同。本文提出了一種稱為組合圖嵌入 (CGE) 的新型圖公式,它以端到端的方式學習圖像特征、組合分類器和視覺基元的潛在表示,來試著解決這一問題。本文方法的關鍵是利用圖結構中狀態、對象及其組合之間的依賴關系,以強制相關知識從可見組合轉移到不可見組合。通過學習對概念之間的語義進行編碼的聯合兼容性,本文的模型允許在不依賴 WordNet 等外部知識庫的情況下,將看不見的組合泛化。本文表明,在具有挑戰性的廣義組合零樣本設置中,本文的 CGE 顯著優于 MIT-States 和 UT-Zappos 的最新技術。本文還基于最近的 GQA 數據集為此任務提出了一個新的基準。
論文:
代碼:
4. Zero-shot Adversarial Quantization
作者:Yuang Liu, Wei Zhang, Jun Wang
摘要:模型量化是壓縮深度神經網絡和加速推理的一種很有效的方法,使其可以部署在移動和邊緣設備上。為了保持全精度模型的高性能,大多數現有的量化方法都通過假設訓練數據集是可訪問的,來微調量化模型。然而,由于數據隱私和安全問題,這種假設在實際情況中有時并不滿足,從而使這些量化方法不適用。為了在不訪問訓練數據的情況下實現零短模型量化,少數量化方法采用訓練后量化,要么批量歸一化統計引導數據生成進行微調。然而,兩者都不可避免地存在性能低下的問題,因為前者過于經驗化,缺乏對超低精度量化的訓練支持,而后者不能完全還原原始數據的特性,對于多樣化的數據往往效率低下一代。為了解決上述問題,本文提出了一個零樣本對抗量化(ZAQ)框架,促進了有效的差異估計和從全精度模型到量化模型的知識轉移。這是通過一種新穎的兩級差異建模來實現的,以驅動生成器合成信息豐富且多樣化的數據示例,從而以對抗性學習方式優化量化模型。本文對三個基本視覺任務進行了廣泛的實驗,證明了 ZAQ 在強零樣本基線上的優越性,并驗證了其主要組件的有效性。
論文:
代碼:
5. Light Field Super-Resolution with Zero-Shot Learning
作者:Zhen Cheng, Zhiwei Xiong, Chang Chen, Dong Liu, Zheng-Jun Zha
摘要:深度學習為光場超分辨率 (SR) 研究提供了一條新途徑。然而,由不同的光場采集條件所引起的域間隙是其在實際應用中亟需解決的問題。為了有效緩解這個問題,本文提出了一個用于光場SR的零樣本學習框架,該框架學習了一種映射,以使用僅從輸入低分辨率光場本身中提取的示例,來超分辨率參考視圖。然而,鑒于零樣本設置下的訓練數據非常有限,本文觀察到很難成功訓練端到端網絡。相反,本文將這個具有挑戰性的任務分為三個子任務,即預上采樣、視圖對齊和多視圖聚合,然后用簡單而高效的CNN分別克服它們。此外,所提出的框架可以很容易地擴展到微調源數據集上的預訓練模型,以更好地適應目標輸入,這進一步提高了野外光場SR的性能。實驗結果驗證,本文的方法不僅優于經典的非基于學習的方法,而且當域差距很大時,與最先進的基于深度學習的方法相比,對看不見的光場的泛化能力也更好。
論文:
6. Contrastive Embedding for Generalized Zero-Shot Learning
作者:Zongyan Han, Zhenyong Fu, Shuo Chen, Jian Yang
摘要:廣義零樣本學習(GZSL)旨在從可見類和不可見類中識別對象,當僅提供來自可見類的標記示例時。最近的特征生成方法學習了一個生成模型,該模型可以合成看不見的類的缺失視覺特征,以緩解 GZSL 中的數據不平衡問題。然而,原始的視覺特征空間對于 GZSL 分類來說是次優的,因為它缺乏判別信息。為了解決這個問題,本文建議將生成模型與嵌入模型相結合,產生一個混合 GZSL 框架。混合 GZSL 方法將生成模型生成的真實樣本和合成樣本都映射到嵌入空間中,在其中執行最終的 GZSL 分類。具體來說,本文為混合 GZSL 框架提出了對比嵌入 (CE)。所提出的對比嵌入不僅可以利用類監督,還可以利用實例監督,后者通常被現有的 GZSL 研究忽略。本文在五個基準數據集上評估了本文提出的具有對比嵌入的混合 GZSL 框架,名為 CE-GZSL。結果表明,本文的 CEGZSL 方法可以在三個數據集上顯著優于最先進的方法。
論文:
代碼:
【導讀】作為計算機視覺領域的三大國際頂會之一,ICCV 每年都會吸引全球領域眾多專業人士參與。不久前,ICCV2021接收結果已經公布,本次ICCV共計 6236 篇有效提交論文,其中有 1617 篇論文被接收,接收率為25.9%。
為此,專知小編為大家整理了五篇 ICCV 2021 語義分割(Semantic Segmentation)相關研究和應用,這塊這幾年一直比較受關注——弱監督語義分割、半監督語義分割、無監督語義分割、少樣本語義分割、實例分割
CVPR2021CL、CVPR2021DA、CVPR2021IVC、CVPR2021PID、CVPR2021IC、CVPR2021VU、CVPR2021OD、CVPR2021OT、CVPR2021AR
1. Leveraging Auxiliary Tasks with Affinity Learning for Weakly Supervised Semantic Segmentation
作者:Lian Xu, Wanli Ouyang, Mohammed Bennamoun, Farid Boussaid, Ferdous Sohel, Dan Xu
摘要:在缺乏大量標記數據的情況下,語義分割是一項具有挑戰性的任務。僅依靠具有圖像級標簽的類激活圖 (CAM) 作為語義分割的監督信息是遠遠不夠的。因此,先前的工作用預訓練的模型來生成粗粒度的顯著圖(Saliency Map),以指導偽分割標簽的生成。然而,常用的離線啟發式生成過程不能充分利用這些粗顯著圖的優點。受顯著的任務間相關性的啟發,本文提出了一種新的弱監督多任務框架,稱為AuxSegNet,利用顯著性檢測和多標簽圖像分類作為輔助任務,僅使用圖像級真實標簽來改進語義分割的主要任務。受它們相似的結構化語義的啟發,本文還提出從顯著性和分割表示中學習跨任務全局像素級親和圖。學習到的跨任務親和性可用于改進顯著性預測,并傳播 CAM 映射,從而為這兩個任務提供改進的偽標簽。偽標簽更新和跨任務親和學習之間的相互促進,使得分割性能得到迭代改進。大量實驗證明了本文所提出的輔助學習網絡結構和跨任務親和學習方法的有效性。該方法在具有挑戰性的PASCAL VOC 2012和MS COCO基準測試中達到了最先進的弱監督分割性能。
論文: //arxiv.org/abs/2107.11787
代碼:
2. Re-distributing Biased Pseudo Labels for Semi-supervised Semantic Segmentation: A Baseline Investigation
作者:Ruifei He, Jihan Yang, Xiaojuan Qi
摘要:雖然自訓練具有先進的半監督語義分割,但它嚴重受到現實世界語義分割數據集上的長尾類分布的影響,導致偽標記數據偏向于多數類。本文提出了一種簡單而有效的分布對齊和隨機采樣 (DARS) 方法,來生成無偏偽標簽,來與標記數據中估計的真實類別分布匹配。此外,本文還提供了漸進式數據增強和標記策略,以促進使用偽標記數據進行模型訓練。Cityscapes 和 PASCAL VOC 2012 數據集的實驗證明了本文方法的有效性。盡管很簡單,但與最先進的方法相比,本文的方法表現不錯。
論文:
代碼:
3. Labels4Free: Unsupervised Segmentation using StyleGAN
作者:Rameen Abdal, Peihao Zhu, Niloy Mitra, Peter Wonka
摘要:
本文為StyleGAN生成的目標對象提出了一個無監督的分割框架。本文基于兩個主要觀察結果。首先,StyleGAN生成的特征包含有價值的信息,可用于訓練分割網絡。其次,前景和背景通常可以被視為在很大程度上是獨立的,并以不同的方式合成。對于本文的解決方案,本文提出使用分割分支來增強StyleGAN2生成器架構,并將生成器拆分為前景和背景網絡。這使本文能夠以無監督的方式為前景對象生成軟分割掩碼。在多個對象類別上,本文報告了與最先進的監督分割網絡的可比結果,而與最佳的無監督分割方法相比,本文在定性和定量指標上都表現出了明顯的改進。
論文:
4. Mining Latent Classes for Few-shot Segmentation
作者:Lihe Yang, Wei Zhuo, Lei Qi, Yinghuan Shi, Yang Gao
摘要:少樣本分割(FSS)旨在僅在給定幾個帶注釋的樣本的情況下分割不可見的類。現有方法存在特征破壞的問題,即在訓練階段將潛在的新類作為背景。本文的方法旨在緩解這個問題并增強潛在新類的特征嵌入。在本文的工作中,本文提出了一種新穎的聯合訓練框架。基于對支持-查詢對的常規情景訓練,本文添加了一個額外的挖掘分支,該分支通過可轉移的子集群利用潛在的新類,并在背景和前景類別上采用新校正技術,以得到更穩定的原型。除此之外,本文的可轉移子集群能夠利用額外的未標記數據來進一步增強特征。在兩個 FSS 基準測試中的大量實驗表明,本文的方法在PASCAL-5i上mIOU提升3.7%,在COCO-20i上的mIOU提升7.0%,大幅優于以前的最先進技術,參數減少了74%,推理速度提升2.5 倍。
論文:
5. Rank & Sort Loss for Object Detection and Instance Segmentation
作者:Kemal Oksuz, Baris Can Cam, Emre Akbas, Sinan Kalkan
摘要:本文提出Rank & Sort (RS) Loss,作為基于排序的損失函數來訓練深度目標檢測和實例分割方法(即視覺檢測器)。RS Loss監督分類器,分類器是這些方法的一個子網絡,來將每個正例排在所有負例之上,并根據(wrt.)它們的連續定位質量(例如 Intersection-over-Union - IoU)在它們之間對正例進行排序。為了解決排序和排序的不可區分性,本文將錯誤驅動更新與反向傳播的結合重新制定為Identity Update,這使本文能夠對正樣本中的新排序錯誤進行建模。使用 RS Loss,本文顯著地簡化了訓練:(i)由于本文的排序目標,分類器優先考慮正例,而無需額外的輔助頭(例如,centerness、IoU、mask-IoU),(ii)由于基于排序的性質,RS Loss對類不平衡具有魯棒性,因此,不需要采樣啟發式(iii)本文使用無微調任務平衡系數來解決視覺檢測器的多任務性質。使用 RS Loss,本文僅通過調整學習率來訓練七個不同的視覺檢測器,并表明它始終優于基線:例如本文的 RS Loss將 (i) 在 COCO 數據集上,Faster R-CNN 上box AP提高了3,而 aLRP Loss(基于排名的基線)提高了2,(ii)LVIS 數據集上,具有重復因子采樣(RFS)的 Mask R-CNN 上mask AP提高了 3.5(稀有類約為 7);并且也優于所有同行。
論文:
代碼:
【導讀】作為計算機視覺領域的三大國際頂會之一,IEEE國際計算機視覺與模式識別會議CVPR(IEEE Conference on Computer Vision and Pattern Recognition) 每年都會吸引全球領域眾多專業人士參與。CVPR 2021已經在線舉行, 今年的CVPR有效投稿多達7500篇,一共有1663篇論文被接收,接收率為27%。
CVPR2021 Paper List: //openaccess.thecvf.com/CVPR2021?day=all
為此,專知小編為大家整理了六篇CVPR 2021 對抗攻擊(Adversarial Attacks)相關研究和應用,這塊這幾年一直比較受關注——對抗樣本、對抗樣本數據集、VideoMoCo、對抗黑盒測試、深度哈希對抗攻擊、幾何數據對抗攻擊
CVPR2021CL、CVPR2021DA、CVPR2021IVC、CVPR2021PID、CVPR2021IC、CVPR2021VU、CVPR2021OD、CVPR2021OT、CVPR2021AR
1. Invisible Perturbations: Physical Adversarial Examples Exploiting the Rolling Shutter Effect
作者:Athena Sayles, Ashish Hooda, Mohit Gupta, Rahul Chatterjee, Earlence Fernandes
摘要:迄今為止,基于相機的計算機視覺的物理對抗樣本已經通過可見的人工方式實現——停車標志上的貼紙、眼鏡周圍的彩色邊框或具有彩色紋理的3D打印物體。這里隱含的假設是,這種擾動必須是可見的,這樣相機才能感知到它們。相比之下,本文提供了一個程序,首次來生成人眼不可見的物理對抗樣本。本文不是用可見的偽影像修改目標對象,而是修改照亮對象的光線。本文演示了攻擊者如何在最先進的 ImageNet 深度學習模型上制作調制光信號,使其反向照亮場景,并導致有針對性的錯誤分類。具體來說,本文利用商品相機中的輻射卷簾效應來創建出現在圖像上的精確條紋圖案。在人眼看來,物體似乎是被照亮的,但相機創建的帶有條紋的圖像將導致 ML 模型輸出攻擊者所需的分類。本文使用 LED 進行了一系列模擬和物理實驗,證明目標攻擊率高達84%。
論文:
2. Natural Adversarial Examples
作者:Dan Hendrycks, Kevin Zhao, Steven Basart, Jacob Steinhardt, Dawn Song
摘要:本文引入了兩個具有挑戰性的數據集,它們能夠導致機器學習模型性能大幅下降。通過使用簡單的對抗性過濾技術收集數據集,來創建具有有限虛假線索的數據集。本文數據集中未修改的樣本可靠地轉移到各種未知的模型,證明計算機視覺模型具有共同的弱點。第一個數據集稱為ImageNet-A,類似于ImageNet測試集,但對于現有模型而言更具挑戰性。本文還策劃了一個名為ImageNet-O的對抗性分布外檢測數據集,這是第一個為 ImageNet 模型創建的分布外檢測數據集。在ImageNet-A上,DenseNet-121 獲得了大約 2% 的準確度,準確度下降了大約 90%,并且它在ImageNet-O上的分布外檢測性能接近隨機機會水平。本文發現現有的數據增強技術幾乎無法提高性能,并且使用其他公共訓練數據集提供的改進有限。然而,本文發現對計算機視覺架構的改進為實現穩健模型提供了一條有效的途徑。
論文:
3. VideoMoCo: Contrastive Video Representation Learning with Temporally Adversarial Examples
作者:Tian Pan, Yibing Song, Tianyu Yang, Wenhao Jiang, Wei Liu
摘要:
MoCo是一種有效的無監督的圖像表示學習方法。本文提出 VideoMoCo 用于無監督視頻表示學習。給定一個視頻序列作為輸入樣本,本文從兩個角度改進了MoCo的時間特征表示。首先,本文引入了一個生成器來暫時從這個樣本中刪除幾個幀。然后,無論幀刪除如何,鑒別器都會學習對相似的特征表示進行編碼。通過在對抗性學習的訓練迭代期間自適應地丟棄不同的幀,本文增加了這個輸入樣本來訓練一個時間魯棒的編碼器。其次,在計算對比損失時,本文使用時間衰減來模擬內存隊列中的key衰減。當本文使用當前輸入樣本進行對比學習時,隨著key入隊后動量編碼器更新,這些key的表示能力會下降。這種退化通過時間衰減反映出來,以將輸入樣本與隊列中最近的key聯系起來。因此,本文采用MoCo來學習視頻表示,而無需憑經驗設計pretext任務。通過增強編碼器的時間魯棒性并對key的時間衰減進行建模,本文的 VideoMoCo 基于對比學習在時間上改進了 MoCo。在包括UCF101和HMDB51在內的基準數據集上的實驗表明,VideoMoCo是最先進的視頻表示學習方法。
論文:
4. Enhancing the Transferability of Adversarial Attacks through Variance Tuning
作者:Xiaosen Wang, Kun He
摘要:深度神經網絡容易受到對抗性樣本的影響,這些樣本會以難以察覺的擾動誤導模型。盡管對抗性攻擊在白盒設置中取得了令人難以置信的成功率,但大多數現有方法在黑盒設置中往往表現出弱的可轉移性,尤其是在攻擊具有防御機制的模型的情況下。在這項工作中,本文提出了一種稱為方差調整的新方法,以增強基于迭代梯度的攻擊方法的類別并提高其攻擊可轉移性。具體來說,在每次迭代計算梯度時,本文不是直接使用當前梯度進行動量累積,而是進一步考慮前一次迭代的梯度方差來調整當前梯度,以穩定更新方向并擺脫局部最優。在標準 ImageNet 數據集上的實證結果表明,本文的方法可以顯著提高基于梯度的對抗性攻擊的可轉移性。此外,本文的方法可用于攻擊集成模型或與各種輸入轉換集成。在多模型設置中將方差調整與基于迭代梯度攻擊的輸入變換相結合,該集成方法可以實現對 9 種先進防御方法的平均成功率 90.1%,將當前最佳攻擊性能顯著提高 85.1%。
論文:
代碼:
5. Prototype-supervised Adversarial Network for Targeted Attack of Deep Hashing
作者:Xunguang Wang, Zheng Zhang, Baoyuan Wu, Fumin Shen, Guangming Lu
摘要:由于其強大的表示學習能力和高效計算能力,深度哈希在大規模圖像檢索中取得了重大進展。然而,深度哈希網絡容易受到對抗樣本的影響,這是一個實際的安全問題,但在基于哈希的檢索領域很少研究。本文提出了一種新穎的原型監督對抗網絡(ProS-GAN),它制定了一種靈活的生成架構,用于高效和有效的目標哈希攻擊。據本文所知,這是第一代攻擊深度哈希網絡的方法。本文提出的框架由三部分組成,即原型網絡(PrototypeNet)、生成器和鑒別器。具體來說,設計的 PrototypeNet 將目標標簽嵌入到語義表示中,并學習原型代碼作為目標標簽的類別級代表。此外,語義表示和原始圖像聯合輸入生成器,以進行靈活的針對性攻擊。特別是利用原型代碼,通過最小化對抗樣本的哈希碼和原型代碼之間的漢明距離,來監督生成器構造目標對抗樣本。此外,生成器對抗鑒別器,同時鼓勵對抗性示例視覺逼真和語義表示信息豐富。大量實驗證明,本文所提出的框架可以有效地生成對抗性示例,該示例具有比最先進的深度哈希攻擊方法更好的針對性攻擊性能和可轉移性。
圖片 論文:
代碼:
6. Universal Spectral Adversarial Attacks for Deformable Shapes
作者:Arianna Rampini, Franco Pestarini, Luca Cosmo, Simone Melzi, Emanuele Rodolà
摘要:眾所周知,機器學習模型容易受到對抗性攻擊,即數據的擾動導致錯誤預測,盡管難以察覺。然而,迄今為止,只有圖像證明了“普遍”攻擊(即跨不同數據點傳輸的獨特擾動)的存在。對于幾何數據,例如圖形、網格和點云,部分原因在于缺乏通用域來定義普遍擾動。本文提供了一個視角的變化,并證明了對幾何數據(形狀)的普遍攻擊的存在。本文引入了一個完全在譜域中運行的計算過程,其中攻擊采取對短特征值序列的小擾動的形式;然后通過從頻譜中恢復形狀來合成得到的幾何形狀。本文的攻擊是通用的,因為它們可以跨越不同的形狀、不同的表示(網格和點云)來傳遞,并泛化到以前未知的數據。
論文:
【導讀】作為計算機視覺領域的三大國際頂會之一,IEEE國際計算機視覺與模式識別會議CVPR(IEEE Conference on Computer Vision and Pattern Recognition) 每年都會吸引全球領域眾多專業人士參與。CVPR 2021將在線舉行, 中國科學院院士、中科院自動化所智能感知與計算研究中心主任譚鐵牛將出任大會主席(General Chair,GC),上海科技大學的虞晶怡教授將任程序主席(Program Chair,PC)。今年的CVPR有效投稿多達7500篇,一共有1663篇論文被接收,接收率為27%。
為此,專知小編提前為大家整理了五篇CVPR 2021領域自適應(Domain Adaptation)相關論文,這塊這幾年一直比較受關注,特別是未知域、通用域學習等等?大家先睹為快——真實域泛化、多目標域自適應、通用領域自適應、頻域空間域方法、未知域泛化
CVPR2021IVC、CVPR2021PID、CVPR2021IC、CVPR2021VU、CVPR2021OD、CVPR2021OT、CVPR2021AR
1. Adaptive Methods for Real-World Domain Generalization
作者:Abhimanyu Dubey, Vignesh Ramanathan, Alex Pentland, Dhruv Mahajan
摘要:不變性(Invariant)方法在解決域泛化問題方面非常成功,其目的是對在訓練中使用的數據分布不同的數據分布進行推斷。在我們的工作中,我們調研了是否有可能利用來自不可見的測試樣本本身的域信息。我們提出了一種包含兩個步驟的領域自適應方法:a)我們首先從無監督的訓練示例中學習判別性領域嵌入,以及b)使用該領域嵌入作為補充信息來構建領域自適應模型,該模型同時采用了以下兩種方法:進行預測時要考慮輸入及其域。對于不可見的域,我們的方法僅使用一些未標記的測試示例來構建域嵌入。這可以在任何不可見的域上進行自適應分類。我們的方法可在各種領域通用基準上實現最先進的性能。此外,我們推出了第一個真實的,大規模的領域通用基準測試Geo-YFCC,其中包含110萬個樣本,經過40個訓練,7個驗證和15個測試域,比以前的工作大了幾個數量級。我們顯示,與在所有訓練域的數據聯合上訓練模型的簡單基準相比,現有方法無法擴展到該數據集或表現不佳。相比之下,我們的方法實現了1%的顯著改進。
網址: //arxiv.org/abs/2103.15796
2. Curriculum Graph Co-Teaching for Multi-Target Domain Adaptation
作者:Subhankar Roy, Evgeny Krivosheev, Zhun Zhong, Nicu Sebe, Elisa Ricci
摘要:在本文中,我們討論了多目標域適應(MTDA),其中給定一個標記的源域數據集和多個數據分布不同的未標記的目標域數據集,任務是為所有目標域學習可靠的預測模型。我們確定了兩個關鍵方面,可以幫助減輕MTDA中的多領域轉移:特征聚合和課程學習(curriculum learning)。為此,我們提出了使用雙重分類器的課程圖協同教學模型 Curriculum Graph Co-Teaching(CGCT),其中之一是圖卷積網絡(GCN),該圖卷積網絡匯總了跨域相似樣本的特征。為了防止分類器過分適合自己的嘈雜偽標簽,我們與雙分類器一起使用了一種共同教學策略,并借助課程學習來獲得更可靠的偽標簽。此外,當域標簽可用時,我們提出了Domain-aware Curriculum Learning(DCL),這是一種順序適應策略,首先適應較容易的目標域,然后適應較難的目標域。我們在幾個基準上實驗性地證明了我們提出的框架的有效性,并大幅提高了MTDA中的最新水平(例如,在DomainNet上為+ 5.6%)。
代碼:
網址:
3. Domain Consensus Clustering for Universal Domain Adaptation
作者:Guangrui Li, Guoliang Kang, Yi Zhu, Yunchao Wei, Yi Yang
摘要:在本文中,我們研究了通用域自適應(UniDA)問題,該問題旨在在不對齊的標簽空間下將知識從源域轉移到目標域。UniDA的主要挑戰在于如何將公共類(即跨域共享的類)與私有類(即僅在一個域中存在的類)分開。先前的工作將目標域中的私有樣本視為一個通用類,但忽略了它們的固有結構。因此,所得到的表示在潛在空間中不夠緊湊,并且很容易與普通樣本混淆。為了更好地利用目標域的內在結構,我們提出了Domain Consensus Clustering(DCC),它利用域共識知識來發現普通樣本和私有樣本上的區分性聚類。具體來說,我們從兩個方面汲取領域共識知識,以促進聚類和私有類發現,即語義級別的共識(將周期一致的簇標識為通用類)和樣本級別的共識,利用交叉域分類協議以確定集群的數量并發現私有類。基于DCC,我們能夠將私有類與公共類分開,并區分私有類本身。最后,我們在識別出的常見樣本上應用了分類感知比對技術,以最大程度地減少分布偏移,并應用原型正則化方法來激發可辨別的目標集群。在四個基準上進行的實驗表明,DCC明顯優于以前的最新技術。
網址:
4. FSDR: Frequency Space Domain Randomization for Domain Generalization
作者:Jiaxing Huang, Dayan Guan, Aoran Xiao, Shijian Lu
摘要:域泛化旨在從“已知”源域中為各種“未知”目標域學習可泛化的模型。已經通過域隨機化對它進行了廣泛的研究,該方法將源圖像轉移到空間中的不同樣式以學習域不可知的特征。然而,大多數現有的隨機化方法使用的GAN常常缺乏控制力,甚至改變了圖像的語義結構。受到將空間圖像轉換成多個頻率分量(FC)的JPEG理念的啟發,我們提出了頻空域隨機化(FSDR),該方法通過僅保留域不變FC(DIF)和隨機化域變FC(DVF)來隨機化頻率空間中的圖像。FSDR具有兩個獨特的功能:1)將圖像分解為DIF和DVF,從而允許對其進行顯式訪問和操縱以及更可控的隨機化;2)它對圖像的語義結構和領域不變特征的影響最小。我們統計地檢查了FC的域方差和不變性,并設計了一個網絡,該網絡可以通過迭代學習動態地識別和融合DIF和DVF。對多個領域可概括的分割任務的廣泛實驗表明,FSDR實現了出色的分割,其性能甚至與在訓練中訪問目標數據的領域自適應方法相當。
網址:
5. RobustNet: Improving Domain Generalization in Urban-Scene Segmentation via Instance Selective Whitening
作者:Sungha Choi, Sanghun Jung, Huiwon Yun, Joanne Kim, Seungryong Kim, Jaegul Choo
摘要:將深度神經網絡的泛化能力提高到不可見域對于現實世界中與安全相關的應用(如自動駕駛)至關重要。為了解決這個問題,本文提出了一種新的實例選擇性白化損失(instance selective whitening loss),以提高針對未知域的分割網絡的魯棒性。我們的方法解開了特征表示的高階統計量(即特征協方差)中編碼的特定于域的樣式和域不變內容,并有選擇地僅刪除導致域移位的樣式信息。如圖1所示,我們的方法為(a)低照度,(b)多雨和(c)不可見的結構提供了合理的預測。這些類型的圖像未包含在訓練數據集中,其中基線顯示出明顯的性能下降,這與我們的方法相反。我們的方法提高了各種骨干網絡的魯棒性,而沒有額外的計算成本。我們在城市場景分割中進行了廣泛的實驗,顯示了我們的方法在現有工作中的優越性。
代碼:
網址:
【導讀】作為計算機視覺領域的三大國際頂會之一,IEEE國際計算機視覺與模式識別會議CVPR(IEEE Conference on Computer Vision and Pattern Recognition) 每年都會吸引全球領域眾多專業人士參與。CVPR 2021將在線舉行, 中國科學院院士、中科院自動化所智能感知與計算研究中心主任譚鐵牛將出任大會主席(General Chair,GC),上海科技大學的虞晶怡教授將任程序主席(Program Chair,PC)。今年的CVPR有效投稿多達7500篇,一共有1663篇論文被接收,接收率為27%。
為此,專知小編提前為大家整理了五篇CVPR 2021圖像分類(Image Classification)相關論文,圖像分類topic,大家都很熟悉,但是競爭也比較激烈,可以看看最新是如何創新如何開展的?大家先睹為快——半監督細粒度圖像分類、長尾圖像分類、新標簽少樣本學習、對比聯邦學習
CVPR2021OD、CVPR2021AR
1. A Realistic Evaluation of Semi-Supervised Learning for Fine-Grained Classification
作者:Jong-Chyi Su, Zezhou Cheng, Subhransu Maji
摘要:我們在一個現實的基準上評估半監督學習(SSL)的有效性,在該基準上,數據表現出明顯的類別失衡并包含來自新類別的圖像。我們的基準測試由兩個細粒度的分類數據集組成,這些數據集是通過從Aves和Fungi分類中對類進行抽樣而獲得的。我們發現,最近提出的SSL方法具有顯著的優勢,并且當從頭開始訓練深度網絡時,可以有效地使用類外(out-of-class)數據來提高性能。然而,與遷移學習基準相比,這部分表現卻差強人意。另外,盡管現有的SSL方法提供了一些改進,但是類外數據的存在通常對模型的性能反而有害。在這種情況下,微調后再進行基于蒸餾的自訓練反而是最可靠的。我們的實驗表明,在現實數據集上的基于專家的半監督學習可能需要一些不同的策略,這部分策略與現在流行的方法可能不同。
2. Contrastive Learning based Hybrid Networks for Long-Tailed Image Classification
作者:Peng Wang, Kai Han, Xiu-Shen Wei, Lei Zhang, Lei Wang
摘要:學習得到圖像的判別性表示在長尾(long-tailed)圖像分類中起著至關重要的作用,因為它可以緩解分類器在數據不平衡情況下的學習。鑒于最近對比學習的表現,在這項工作中,我們探討了有效的監督對比學習策略,并定制了他們從不平衡數據學習更好的圖像表示的方法,以提高其上的分類精度。具體來說,我們提出了一種新穎的混合網絡結構,該結構由監督的對比損失(用于學習圖像表示)和交叉熵損失(用于學習分類器)組成,其中學習逐漸從特征學習過渡到分類器學習,以體現更好的特征訓練更好的分類器。我們探索了用于特征學習的兩種對比損失形式,它們的形式各不相同,但有一個共同的想法,即在歸一化嵌入空間中將同一類別的樣本拉在一起,然后將不同類別的樣本推開。其中之一是最近提出的監督對比(SC)損失,它是通過合并來自同一類別的正樣本在最先進的無監督對比損失之上設計的。另一種是原型監督對比(PSC)學習策略,該策略解決了標準SC丟失中的大量內存消耗問題,因此在有限的內存預算下顯示出更多的希望。在三個長尾分類數據集上的廣泛實驗證明了在長尾分類中所提出的基于對比學習的混合網絡的優勢。
3. Fine-grained Angular Contrastive Learning with Coarse Labels
作者:Guy Bukchin, Eli Schwartz, Kate Saenko, Ori Shahar, Rogerio Feris, Raja Giryes, Leonid Karlinsky
摘要:少樣本學習方法會提供經過優化的預訓練技術,以便使用一個或幾個示例輕松地將模型適應新類別(在訓練過程中看不見)。這種對看不見類別的適應性對于許多實際應用尤為重要,在這些實際應用中,預訓練的標簽空間無法保持固定以有效使用,并且模型需要“專業化”以支持動態的新類別。Coarseto-Fine Few-Shot(C2FS)是一種特別有趣的場景,但被鮮為人知的文獻所忽略,其中訓練類(例如動物)比目標(測試)類(例如品種)具有“更粗糙的粒度”。C2FS的一個非常實際的示例是目標類是訓練類的子類。直觀地講,這是特別具有挑戰性的,因為(規律和少樣本)監督的預訓練往往會學會忽略類內變異性,這對于分離子類至關重要。在本文中,我們介紹了一個新穎的“角度歸一化”模塊,該模塊可以有效地結合監督和自監督的對比預訓練來解決提出的C2FS任務,從而在對多個基準和數據集的廣泛研究中顯示出顯著的收益。我們希望這項工作將有助于為有關C2FS分類這一新的,具有挑戰性且非常實用的主題的未來研究鋪平道路。
網址:
4. MetaSAug: Meta Semantic Augmentation for Long-Tailed Visual Recognition
作者:Shuang Li, Kaixiong Gong, Chi Harold Liu, Yulin Wang, Feng Qiao, Xinjing Cheng
摘要:現實世界中的訓練數據通常呈現長尾分布,其中幾個多數類的樣本數量明顯多于其余少數類。這種不平衡會降低被設計用于平衡訓練集的典型監督學習算法的性能。在本文中,我們通過使用最近提出的隱式語義數據增強(ISDA)算法來增強少數類,以解決該問題,該算法通過沿著語義有意義的方向平移深層特征來產生多樣化的增強樣本。重要的是,鑒于ISDA估計了分類條件統計信息以獲得語義指導,由于訓練數據不足,我們發現在少數群體分類中這樣做是無效的。為此,我們提出了一種新穎的方法,可通過元學習自動學習轉換后的語義方向。具體來說,訓練過程中的擴充策略是動態優化的,旨在最大程度地減少通過平衡更新步驟近似的小的平衡驗證集上的損失。在CIFAR-LT-10 / 100,ImageNet-LT和iNaturalist 2017/2018的廣泛經驗結果驗證了我們方法的有效性。
網址:
5. Model-Contrastive Federated Learning
作者:Qinbin Li, Bingsheng He, Dawn Song
摘要:聯邦學習使多方可以協作訓練機器學習模型,而無需傳達他們的本地數據。聯合學習中的一個關鍵挑戰是處理各方之間本地數據分布的異質性。盡管已經提出了許多研究來應對這一挑戰,但我們發現它們在具有深度學習模型的圖像數據集中無法實現高性能。在本文中,我們提出了MOON:模型對比聯合學習。MOON是一種簡單有效的聯合學習框架。MOON的關鍵思想是利用模型表示之間的相似性來校正單個方面的本地訓練,即在模型級別進行對比學習。我們廣泛的實驗表明,MOON在各種圖像分類任務上明顯優于其他最新的聯邦學習算法。
網址:
【導讀】作為計算機視覺領域的三大國際頂會之一,IEEE國際計算機視覺與模式識別會議CVPR(IEEE Conference on Computer Vision and Pattern Recognition) 每年都會吸引全球領域眾多專業人士參與。CVPR 2021將在線舉行, 中國科學院院士、中科院自動化所智能感知與計算研究中心主任譚鐵牛將出任大會主席(General Chair,GC),上海科技大學的虞晶怡教授將任程序主席(Program Chair,PC)。今年的CVPR有效投稿多達7500篇,一共有1663篇論文被接收,接收率為27%。
為此,專知小編提前為大家整理了五篇CVPR 2021視覺目標跟蹤(Object Tracking)相關論文,讓大家先睹為快——GCN多目標跟蹤、概率自回歸、旋轉孿生網絡、3D目標檢測和跟蹤、在線多目標跟蹤
CVPR2021OD、CVPR2021AR
1. Learning a Proposal Classifier for Multiple Object Tracking
作者:Peng Dai, Renliang Weng, Wongun Choi, Changshui Zhang, Zhangping He, Wei Ding
摘要:最近多目標跟蹤(MOT)的趨勢正在朝著利用深度學習來推動跟蹤性能的方面發展。但是,以端到端的方式解決數據關聯問題并非易事。在本文中,我們提出了一個新穎的基于proposal的可學習框架,該模型將MOT建模為proposal生成,proposal評分和affinity圖上的軌跡推斷范式。該框架類似于兩階段目標檢測器Faster RCNN,可以以數據驅動的方式解決MOT問題。對于proposa的生成,我們提出了一種迭代圖聚類方法,以降低計算成本,同時保持生成的proposa的質量。對于proposa評分,我們部署了可訓練的圖卷積網絡(GCN),以學習生成的proposa的結構模式,并根據估算的質量得分對它們進行排名。對于軌跡推斷,采用一種簡單的去重疊策略來生成跟蹤輸出,同時遵守不能將檢測分配給一個以上軌道的約束。我們通過實驗證明,相對于以前在兩個公共基準上的最新技術,該方法在MOTA和IDF1中均實現了明顯的性能改進。
代碼: //github.com/daip13/LPC_MOT.git
網址:
2. Probabilistic Tracklet Scoring and Inpainting for Multiple Object Tracking
作者:Fatemeh Saleh, Sadegh Aliakbarian, Hamid Rezatofighi, Mathieu Salzmann, Stephen Gould
摘要:盡管通過聯合檢測和跟蹤實現了多目標跟蹤(MOT)的最新進展,但是處理長距離遮擋仍然是一個挑戰。這是由于這些技術傾向于忽略長期運動信息。在本文中,我們引入了一種概率自回歸運動模型,通過直接測量它們的可能性來對tracklet proposals進行評分。這是我們的模型通過訓練來學習自然軌跡的基本分布來實現的。這樣,我們的模型不僅能夠為現有的軌跡分配新的檢測結果,而且還可以在目標長時間丟失時(例如:遮擋),通過采樣軌跡以填補錯誤檢測引起的差距。我們的實驗證明了我們的方法在具有挑戰性的序列中跟蹤物體的優越性。在多個MOT基準數據集(包括MOT16,MOT17和MOT20)上,它在大多數標準MOT指標上的表現均優于最新技術。
網址:
3. Rotation Equivariant Siamese Networks for Tracking
作者:Deepak K. Gupta, Devanshu Arya, Efstratios Gavves
摘要:旋轉是視覺目標跟蹤中長期存在但尚未解決的艱巨挑戰之一。現有的基于深度學習的跟蹤算法使用常規的CNN,這些CNN本質上是平移不變的,它們并沒有解決旋轉問題。在本文中,我們首先證明在視頻中存在旋轉實例時,現有跟蹤器的性能會受到嚴重影響。為了避免旋轉的不利影響,我們提出了等速旋轉孿生網絡(RE-SiamNets),該網絡是通過使用包含可控濾波器的等分組卷積層構建的。SiamNets允許以無監督的方式估計目標方向的變化,從而也方便了其在相對2D姿勢估計中的使用。我們進一步表明,通過對兩個連續幀之間的方向變化施加限制,這種方向變化可以用于在孿生(Siamese)跟蹤中施加附加的運動約束。為了進行基準測試,我們展示了旋轉跟蹤基準(RTB),它是一個包含一組帶有旋轉實例的視頻的數據集。通過對兩種流行的孿生體系結構進行的實驗,我們證明RE-SiamNets很好地解決了旋轉問題,并且性能優于常規同類產品。此外,RE-SiamNets可以以無監督的方式準確估算目標姿勢的相對變化,即目標相對于參考框架的平面內旋轉。
網址:
4. Center-based 3D Object Detection and Tracking
作者:Tianwei Yin, Xingyi Zhou, Philipp Kr?henbühl
摘要:三維目標通常表示為點云中的3D框。這種表示方法借鑒了基于圖像的2D邊界框檢測,但同時其也帶來了其他挑戰。3D世界中的目標不遵循任何特定的方向,基于box的檢測器很難枚舉所有方向或將軸對齊的邊界框擬合到旋轉的目標。在本文中,我們提出將3D目標表示為點,并進行檢測和跟蹤。我們的框架CenterPoint首先使用關鍵點檢測器檢測目標的中心,然后回歸到其他屬性,包括3D大小,3D方向和速度。在第二階段,它使用目標上的其他點特征來完善這些估計。在CenterPoint中,3D目標跟蹤可簡化為貪婪的最近點匹配。這樣得到的檢測和跟蹤算法簡單,高效且有效。CenterPoint在nuScenes基準上實現了3D檢測和跟蹤的最先進性能,單個模型具有65.5 NDS和63.8 AMOTA。在Waymo開放數據集上,CenterPoint大大優于所有以前的單一模型方法,并且在所有僅Lidar提交中排名第一。
代碼:
網址:
5. Track to Detect and Segment: An Online Multi-Object Tracker
作者:Jialian Wu, Jiale Cao, Liangchen Song, Yu Wang, Ming Yang, Junsong Yuan
摘要:大多數在線多目標跟蹤器在神經網絡中獨立執行目標檢測,而無需跟蹤任何輸入。在本文中,我們介紹了一個新的在線聯合檢測和跟蹤模型TraDeS(用于檢測和分段的TRack),它利用跟蹤線索來輔助端到端檢測。TraDeS推斷目標跟蹤偏移量為成本,用于傳播先前的目標特征以改善當前目標的檢測和分割。TraDeS的有效性和優越性顯示在4個數據集上,包括MOT(2D跟蹤),nuScenes(3D跟蹤),MOTS和Youtube-VIS(實例分割跟蹤)。
代碼:
網址:
【導讀】作為計算機視覺領域的三大國際頂會之一,IEEE國際計算機視覺與模式識別會議CVPR(IEEE Conference on Computer Vision and Pattern Recognition) 每年都會吸引全球領域眾多專業人士參與。CVPR 2021將在線舉行, 中國科學院院士、中科院自動化所智能感知與計算研究中心主任譚鐵牛將出任大會主席(General Chair,GC),上海科技大學的虞晶怡教授將任程序主席(Program Chair,PC)。今年的CVPR有效投稿多達7500篇,一共有1663篇論文被接收,接收率為27%。
為此,專知小編提前為大家整理了五篇CVPR 2021行為識別(Action Recognition)相關論文,讓大家先睹為快——Action-Net、黑盒對抗攻擊、Coarse-Fine 網絡、時序差分網絡、對抗攻擊
CVPR2021OD
1. ACTION-Net: Multipath Excitation for Action Recognition
作者:Zhengwei Wang, Qi She, Aljosa Smolic
摘要:時空,channel-wise和運動模式是視頻動作識別的三種互補且至關重要的信息類型。傳統的2D CNN在計算上簡單,但無法捕捉時間關系。3D CNN可以實現良好的性能,但計算量很大。在這項工作中,我們通過設計可以嵌入到2D CNN中的通用有效模塊來解決這一難題。為此,我們提出了一個時空,通道和運動激發(ACTION)模塊,該模塊由三個路徑組成:時空激發(STE)路徑,通道激發(CE)路徑和運動激發(ME)路徑。STE路徑采用一個通道3D卷積來表征時空表示。CE路徑通過在時間方面明確地建模通道之間的相互依賴性,來自適應地重新校準通道方式的特征響應。ME路徑計算特征級別的時間差異,然后將其用于激發運動敏感通道。我們為2D CNN集成了ACTION模塊,以形成一個簡單而有效的ACTION-Net,這樣可以減少額外的計算成本。通過使用三個數據集(即Something-Something V2,Jester和EgoGesture)在三個主干網(即ResNet-50,MobileNet V2和BNInception)上始終優于2D CNN,證明了ACTION-Net的有效性。
代碼:
//github.com/V-Sense/ACTION-Net
網址:
2. BASAR:Black-box Attack on Skeletal Action Recognition
作者:Yunfeng Diao, Tianjia Shao, Yong-Liang Yang, Kun Zhou, He Wang
摘要:骨骼運動作為獨立的數據源或補充,在人類動作識別中起著至關重要的作用。最近,基于骨骼的動作識別器的魯棒性受到了質疑,當攻擊者可以全面了解識別器時,它們很容易受到對抗性攻擊。但是,在大多數情況下,此白盒要求過于嚴格,并且攻擊并未真正造成威脅。在本文中,我們證明了這種威脅在黑盒設置下也確實存在。為此,我們提出了第一種黑盒對抗攻擊方法BASAR。通過BASAR,我們證明對抗攻擊不僅是真正的威脅,而且可能是極具欺騙性的,因為流形上的對抗性樣本在骨骼運動中相當普遍,這與通常認為對抗性樣本僅在流形之外存在形成了鮮明的對比。通過詳盡的評估和比較,表明BASAR可以成功跨越模型,數據和攻擊模式進行攻擊。通過嚴格的感知研究,我們表明它可以實現有效而又不易察覺的攻擊。通過分析對不同動作識別器的攻擊,BASAR可以幫助確定其脆弱性的潛在原因,并提供有關哪些分類器可能更強大地抵抗攻擊的見解。
網址:
3. Coarse-Fine Networks for Temporal Activity Detection in Videos
作者:Kumara Kahatapitiya, Michael S. Ryoo
摘要:在本文中,我們介紹了Coarse-Fine網絡,這是一種雙流架構,該架構利用不同時間分辨率,來學習更好的長期運動視頻表示。傳統的視頻模型以一種(或幾種)固定的時間分辨率處理輸入,而沒有考慮任何動態幀選擇。但是,我們認為,處理輸入的多個時間分辨率并通過學習估計每個幀的重要性來動態地執行此操作可以極大地改善視頻表示,特別是在時序動作定位領域。為此,我們提出(1)“Grid Pool”,一個時間下采樣層,用于提取粗略特征;以及,(2)“多階段融合”,一種時空注意力機制,用于融合細粒度的上下文與粗略的特征。我們證明了本文的方法可以在包括Charades在內的公共數據集中勝過最新的動作檢測,并且顯著減少了計算和內存占用。
網址:
4. TDN: Temporal Difference Networks for Efficient Action Recognition
作者:Limin Wang, Zhan Tong, Bin Ji, Gangshan Wu
摘要:對于視頻中的行動識別仍然具有挑戰性。為緩解此問題,本文提出了一種新的視頻架構,稱為時間差分網絡(Temporal Difference Network, TDN),重點是捕獲多尺度時間信息以進行高效動作識別。我們TDN的核心是通過明確地利用時間差分操作設計有效的時間模塊(TDM),并系統地評估其對短期和長期運動建模的影響。為了在整個視頻中完全捕獲時間信息,我們的TDN是采用兩級差分建模范例建立的。具體而言,對于局部運動建模,連續幀上的時間差異用于為2D CNN提供更精細的運動模式,而對于全局運動建模,跨段的時間差異被并入以捕獲用于運動特征激勵的遠程結構。TDN提供了簡單而有原則的時間建模框架,可以用現有的CNN實例化,而所需的額外計算成本很小。我們的TDN在Something-Something V1和V2數據集上展示了最新的技術水平,可以與Kinetics-400數據集上的最佳性能相提并論。此外,我們進行了深入的消融研究并繪制了TDN的可視化結果,希望能對時差操作提供深入的分析。
代碼:
網址:
5. Understanding the Robustness of Skeleton-based Action Recognition under Adversarial Attack
作者:He Wang, Feixiang He, Zhexi Peng, Yong-Liang Yang, Tianjia Shao, Kun Zhou, David Hogg
摘要:動作識別已在許多應用中被大量采用,例如自動駕駛,監控等,其中,魯棒性是首要考慮的問題。在本文中,我們研究了最前沿的動作識別器對付對抗攻擊的魯棒性,到目前為止,這種魯棒性很少被研究。為此,我們提出了一種新的攻擊依賴3D骨骼運動的動作識別器的方法。我們的方法涉及創新的感知損失,可確保攻擊的感知力。實證研究表明,我們的方法在白盒和黑盒方案中均有效。在各種動作識別器和數據集上都證明了其通用性。它的多功能性在不同的攻擊策略中得到了體現。其欺騙性在廣泛的感知研究中得到了證明。我們的方法表明,對3D骨骼運動(一種時間序列數據)的對抗攻擊與傳統的對抗攻擊問題顯著不同。它的成功引起了對動作識別器魯棒性的嚴重關注,并為潛在的改進提供了見解。
網址:
【導讀】作為計算機視覺領域的三大國際頂會之一,IEEE國際計算機視覺與模式識別會議CVPR(IEEE Conference on Computer Vision and Pattern Recognition) 每年都會吸引全球領域眾多專業人士參與。CVPR 2021將在線舉行, 中國科學院院士、中科院自動化所智能感知與計算研究中心主任譚鐵牛將出任大會主席(General Chair,GC),上海科技大學的虞晶怡教授將任程序主席(Program Chair,PC)。今年的CVPR有效投稿多達7500篇,一共有1663篇論文被接收,接收率為27%。
為此,專知小編提前為大家整理了五篇CVPR 2021視覺目標檢測(Object Detection)相關論文,讓大家先睹為快——開放域目標檢測、實例蒸餾、多實例主動學習、自監督多目標檢測、少樣本目標檢測
1. Towards Open World Object Detection
作者:K J Joseph, Salman Khan, Fahad Shahbaz Khan, Vineeth N Balasubramanian
摘要:人類具有識別其環境中未知目標實例的本能。當相應的知識最終可用時,對這些未知實例的內在好奇心有助于學習它們。這促使我們提出了一個新穎的計算機視覺問題:“開放世界目標檢測”,該模型的任務是:1)在沒有明確監督的情況下將尚未引入該目標的目標識別為“未知”,以及2)當逐漸接收到相應的標簽時,逐步學習這些已識別的未知類別,而不會忘記先前學習的類別。我們提出了問題,引入了強大的評價準則并提供了一種新穎的解決方案,我們稱之為ORE:基于對比聚類和基于能量的未知標識的開放世界目標檢測器。我們的實驗評估和消去實驗研究分析了ORE在實現開放世界目標方面的功效。作為一個有趣的副產品,我們發現識別和表征未知實例有助于減少增量目標檢測設置中的混亂,在此方法中,我們無需任何方法上的努力即可獲得最先進的性能。我們希望我們的工作將吸引對這個新發現的但至關重要的研究方向的進一步研究。
圖片 代碼:
網址:
2. General Instance Distillation for Object Detection
作者:Xing Dai, Zeren Jiang, Zhao Wu, Yiping Bao, Zhicheng Wang, Si Liu, Erjin Zhou
摘要:近年來,知識蒸餾已被證明是模型壓縮的有效解決方案。這種方法可以使輕量級的學生模型獲得從繁瑣的教師模型中提取的知識。但是,先前的蒸餾檢測方法對于不同的檢測框架具有較弱的概括性,并且嚴重依賴ground truth (GT),而忽略了實例之間有價值的關系信息。因此,我們提出了一種新的基于區分性實例檢測任務的蒸餾方法,該方法不考慮GT區分出的正例或負例,這稱為一般實例蒸餾(GID)。我們的方法包含一個通用實例選擇模塊(GISM),以充分利用基于特征的,基于關系的和基于響應的知識進行蒸餾。廣泛的結果表明,在各種檢測框架下,學生模型可顯著提高AP的表現,甚至優于教師模型。具體來說,在Reconet上使用ResNet-50的RetinaNet在COCO數據集上具有GID的mAP達到了39.1%,比基線的36.2%超出了2.9%,甚至比具有38.1%的AP的基于ResNet-101的教師模型更好。
圖片 網址:
3. Multiple Instance Active Learning for Object Detection
作者:Tianning Yuan, Fang Wan, Mengying Fu, Jianzhuang Liu, Songcen Xu, Xiangyang Ji, Qixiang Ye
摘要:盡管主動學習(active learning)在圖像識別方面取得了長足的進步,但仍然缺乏為目標檢測任務設置的實例級主動學習方法。在本文中,我們提出了多實例主動學習(MIAL),通過觀察實例級別的不確定性來選擇信息量最大的圖像進行檢測器訓練。MIAL定義了實例不確定性學習模塊,該模塊利用在標記集上訓練的兩個對抗性實例分類器的差異來預測未標記集的實例不確定性。MIAL將未標記的圖像視為實例包,并將圖像中的特征錨視為實例,并通過以多實例學習(MIL)方式對實例重新加權來估計圖像不確定性。迭代實例不確定性學習和重新加權有助于抑制嘈雜的實例,以彌合實例不確定性和圖像級不確定性之間的差距。實驗證明,MIAL為實例級的主動學習設置了堅實的基準。在常用的目標檢測數據集上,MIAL具有明顯的優勢,優于最新方法,尤其是在標記集很小的情況下。
圖片 代碼:
4. There is More than Meets the Eye: Self-Supervised Multi-Object Detection and Tracking with Sound by Distilling Multimodal Knowledge
作者:Francisco Rivera Valverde, Juana Valeria Hurtado, Abhinav Valada
摘要:目標固有的聲音屬性可以提供有價值的線索,以學習豐富的表示形式來進行目標檢測和跟蹤。此外,可以通過僅監視環境中的聲音來利用視頻中視聽事件的共現來在圖像上定位目標。到目前為止,這僅在攝像機靜止且用于單個目標檢測的情況下才可行。此外,這些方法的魯棒性受到限制,因為它們主要依賴于高度易受光照和天氣變化影響的RGB圖像。在這項工作中,我們提出了一種新穎的自監督的MM-DistillNet框架,該框架由多名教師組成,這些教師利用RGB,深度和熱圖像等多種模式,同時利用互補線索和提煉知識到單個音頻學生網絡中。我們提出了新的MTA損失函數,該函數有助于以自監督的方式從多模態教師中提取信息。此外,我們為有聲讀物的學生提出了一種新穎的自監督的前置任務,使我們不必依賴勞動強度大的人工注釋。我們引入了一個大型多模態數據集,其中包含113,000多個時間同步的RGB,深度,熱和音頻模態幀。大量實驗表明,我們的方法優于最新方法,同時能夠在推理甚至移動過程中僅使用聲音來檢測多個目標。
圖片 網址:
5. Semantic Relation Reasoning for Shot-Stable Few-Shot Object Detection
作者:Chenchen Zhu, Fangyi Chen, Uzair Ahmed, Marios Savvides
摘要:由于真實世界數據固有的長尾分布,少樣本目標檢測是當前非常需要研究的問題。它的性能在很大程度上受到新的類別數據匱乏的影響。但是,無論數據可用性如何,新穎類和基類之間的語義關系都是恒定的。在這項工作中,我們研究將這種語義關系與視覺信息一起使用,并將顯式關系推理引入新穎目標檢測的學習中。具體來說,我們通過從大型語料庫中學到的語義嵌入來表示每個類的概念。檢測要求將目標的圖像表示投影到此嵌入空間中。我們發現如果僅僅使用啟發式知識圖譜作為原始嵌入是遠遠不夠的,提出使用一種動態關系圖來擴展原始嵌入向量。因此,我們提出的SRR-FSD的少樣本檢測器對于新目標的變化能夠保持穩定的性能。實驗表明,SRR-FSD可以在higher shots下獲得還不錯的結果,更重要地是,在較低的explicit shots和implicit shots的情況下,SRR-FSD的性能也要好得多。
圖片 網址:
【導讀】人工智能頂級會議AAAI2021接收結果已經公布,本次AAAI 2021一共收到9034篇論文提交,其中有效審稿的只有7911篇,最終錄取的數量為1692篇,接收率為21.4%,相比去年的20.6%高0.8%,競爭越來越激烈。近期,所有paper list 放出,小編發現基于3D視覺目標學習(3D Object Learning)相關的接受paper很多,3D視覺,比如點云分析、3D目標檢測和分類等等一些列前沿的方法和應用受到了很多人的關注,也是當前比較火的topic。
為此,這期小編為大家奉上AAAI 2021必讀的五篇3D視覺目標學習相關論文——增量式3D目標學習、幾何解糾纏表示、魯棒3D形狀表示、3D點云檢測、高性能基于Voxel 3D目標檢測
AAAI 2021 Accepted Papers : //aaai.org/Conferences/AAAI-21/wp-content/uploads/2020/12/AAAI-21_Accepted-Paper-List.Main_.Technical.Track_.pdf
AAAI2021CI、AAAI2021CL、ICLR2020CI、ICML2020CI
1. I3DOL: Incremental 3D Object Learning without Catastrophic Forgetting
作者:Jiahua Dong, Yang Cong, Gan Sun, Bingtao Ma, Lichen Wang
摘要:3D目標分類在學術研究和工業應用中引起了人們的關注。但是,當面對常見的現實場景時,大多數現有方法都需要訪問過去3D目標類的訓練數據:新的3D目標類按順序到達。此外,由于3D點云數據的不規則和冗余幾何結構,對于過去學習的已知類(即災難性遺忘),先進方法的性能會大大降低。為了解決這些挑戰,我們提出了一種新的增量式3D目標學習(即I3DOL)模型,這是不斷學習新類別的3D目標的首次探索。具體來說,自適應幾何質心模塊被設計用來構造可區分的局部幾何結構,從而可以更好地表征3D目標的不規則點云表示。然后,為防止冗余幾何信息帶來的災難性遺忘,我們開發了一種幾何感知注意力機制來量化局部幾何結構的貢獻,并探索對類別增量學習具有高貢獻的獨特3D幾何特征。同時,提出了一種分數公平性補償策略,通過在驗證階段補償新類的偏向預測,進一步減輕了過去和新類3D目標之間數據不平衡所導致的災難性遺忘。在3D代表性數據集上進行的實驗驗證了I3DOL框架的優越性。
圖片 網址:
2. Learning Geometry-Disentangled Representation for Complementary Understanding of 3D Object Point Cloud
作者:Mutian Xu, Junhao Zhang, Zhipeng Zhou, Mingye Xu, Xiaojuan Qi, Yu Qiao
網址:在2D圖像處理中,一些嘗試將圖像分解為高頻和低頻分量,分別描述邊緣和平滑部分。類似地,3D目標的輪廓和平坦區域(例如椅子的邊界和座椅區域)描述了不同但互補的幾何形狀。但是,這樣的研究在以前的深層網絡中丟失了,這些深層網絡通過直接平等地對待所有點或局部面來理解點云。為了解決這個問題,我們提出了幾何分離注意力網絡(GDANet)。GDANet引入了Geometry-Disentangle模塊,可將點云動態分解為3D目標的輪廓和平坦部分,分別由清晰而柔和的變化分量表示。然后,GDANet利用Sharp-Gentle Complementary Attention模塊,該模塊將銳利和柔和變化成分的特征視為兩個整體表示,并在將它們分別與原始點云特征融合時給予了不同的關注。通過這種方式,我們的方法從兩個不同的解纏組件中捕獲并完善了整體和互補的3D幾何語義,以補充局部信息。關于3D目標分類和細分基準的大量實驗表明,GDANet使用更少的參數即可實現最新技術。
圖片 網址:
3. Learning Local Neighboring Structure for Robust 3D Shape Representation
作者:Zhongpai Gao, Junchi Yan, Guangtao Zhai, Juyong Zhang, Yiyan Yang, Xiaokang Yang
摘要:網格(Mesh)是用于3D形狀的強大數據結構。3D網格的表示學習在許多計算機視覺和圖形應用中很重要。卷積神經網絡(CNN)在結構化數據(例如圖像)方面的最新成功表明,將CNN的洞察力應用于3D形狀具有重要意義。但是,由于每個節點的鄰居都是無序的,因此3D形狀數據是不規則的。已經開發出了用于3D形狀的各種圖神經網絡以克服圖中的節點不一致問題,例如:具有各向同性過濾器或預定義局部坐標系。但是,各向同性過濾器或預定義的局部坐標系會限制表示能力。在本文中,我們提出了一種局部結構感知anisotropic卷積運算(LSA-Conv),該算法根據局部鄰近結構為每個節點學習自適應加權矩陣,并執行共享anisotropic濾波器。實際上,可學習的加權矩陣類似于隨機合成器中的注意力矩陣-一種用于自然語言處理(NLP)的新型Transformer模型。全面的實驗表明,與最新方法相比,我們的模型在3D形狀重建中產生了顯著改善。
圖片 網址:
4. PC-RGNN: Point Cloud Completion and Graph Neural Network for 3D Object Detection
作者:Yanan Zhang, Di Huang, Yunhong Wang
摘要:基于LiDAR的3D目標檢測是自動駕駛的一項重要任務,當前的方法遭受著遙遠和被遮擋目標的稀疏和部分點云的困擾。在本文中,我們提出了一種新穎的兩階段方法,即PC-RGNN,它通過兩個特定的解決方案來應對此類挑戰。一方面,我們引入了點云完成模塊,以恢復密集點和保留原始結構的整個視圖的高質量建議。另一方面,設計了一個神經網絡模塊,該模塊通過局部全局注意力機制以及基于多尺度圖的上下文聚合來全面捕獲點之間的關系,從而大大增強了編碼特征。在KITTI基準上進行的大量實驗表明,所提出的方法以顯著優勢超越了之前的最新基準。
圖片 網址:
5. Voxel R-CNN: Towards High Performance Voxel-based 3D Object Detection
作者:Jiajun Deng, Shaoshuai Shi, Peiwei Li, Wengang Zhou, Yanyong Zhang, Houqiang Li
摘要:3D目標檢測的最新進展在很大程度上取決于如何表示3D數據,即,基于體素(voxel-based)或基于點的表示。許多現有的高性能3D檢測器都是基于點的,因為這種結構可以更好地保留精確的點位置。但是,由于無序存儲,點級特征能會導致較高的計算開銷。相反,基于voxel的結構更適合特征提取,但由于輸入數據被劃分為網格,因此通常產生較低的精度。在本文中,我們采取了略有不同的觀點-我們發現原始點的精確定位對于高性能3D目標檢測不是必需的,并且粗體素粒度還可以提供足夠的檢測精度。牢記這一觀點,我們設計了一個簡單但有效的基于voxel的框架,名為Voxel R-CNN。通過在兩階段方法中充分利用體素特征,我們的方法可與基于點的最新模型實現可比的檢測精度,但計算成本卻很小。Voxel R-CNN由3D骨干網絡,2D鳥瞰(bird-eye-view, BEV)候選區域網絡和檢測頭組成。設計了體素RoI池以直接從體素特征中提取RoI特征,以進行進一步優化。在廣泛使用的KITTI數據集和最新的Waymo Open數據集上進行了廣泛的實驗。我們的結果表明,與現有的基于體素的方法相比,Voxel R-CNN在保持實時幀處理速率的同時,在NVIDIA RTX 2080 Ti GPU上以25 FPS的速度提供了更高的檢測精度。該代碼將很快發布。
網址: