【導讀】作為計算機視覺領域的三大國際頂會之一,IEEE國際計算機視覺與模式識別會議CVPR(IEEE Conference on Computer Vision and Pattern Recognition) 每年都會吸引全球領域眾多專業人士參與。CVPR 2021已經在線舉行, 今年的CVPR有效投稿多達7500篇,一共有1663篇論文被接收,接收率為27%。
CVPR2021 Paper List: //openaccess.thecvf.com/CVPR2021?day=all
為此,專知小編為大家整理了六篇CVPR 2021 對抗攻擊(Adversarial Attacks)相關研究和應用,這塊這幾年一直比較受關注——對抗樣本、對抗樣本數據集、VideoMoCo、對抗黑盒測試、深度哈希對抗攻擊、幾何數據對抗攻擊
CVPR2021CL、CVPR2021DA、CVPR2021IVC、CVPR2021PID、CVPR2021IC、CVPR2021VU、CVPR2021OD、CVPR2021OT、CVPR2021AR
1. Invisible Perturbations: Physical Adversarial Examples Exploiting the Rolling Shutter Effect
作者:Athena Sayles, Ashish Hooda, Mohit Gupta, Rahul Chatterjee, Earlence Fernandes
摘要:迄今為止,基于相機的計算機視覺的物理對抗樣本已經通過可見的人工方式實現——停車標志上的貼紙、眼鏡周圍的彩色邊框或具有彩色紋理的3D打印物體。這里隱含的假設是,這種擾動必須是可見的,這樣相機才能感知到它們。相比之下,本文提供了一個程序,首次來生成人眼不可見的物理對抗樣本。本文不是用可見的偽影像修改目標對象,而是修改照亮對象的光線。本文演示了攻擊者如何在最先進的 ImageNet 深度學習模型上制作調制光信號,使其反向照亮場景,并導致有針對性的錯誤分類。具體來說,本文利用商品相機中的輻射卷簾效應來創建出現在圖像上的精確條紋圖案。在人眼看來,物體似乎是被照亮的,但相機創建的帶有條紋的圖像將導致 ML 模型輸出攻擊者所需的分類。本文使用 LED 進行了一系列模擬和物理實驗,證明目標攻擊率高達84%。
論文:
2. Natural Adversarial Examples
作者:Dan Hendrycks, Kevin Zhao, Steven Basart, Jacob Steinhardt, Dawn Song
摘要:本文引入了兩個具有挑戰性的數據集,它們能夠導致機器學習模型性能大幅下降。通過使用簡單的對抗性過濾技術收集數據集,來創建具有有限虛假線索的數據集。本文數據集中未修改的樣本可靠地轉移到各種未知的模型,證明計算機視覺模型具有共同的弱點。第一個數據集稱為ImageNet-A,類似于ImageNet測試集,但對于現有模型而言更具挑戰性。本文還策劃了一個名為ImageNet-O的對抗性分布外檢測數據集,這是第一個為 ImageNet 模型創建的分布外檢測數據集。在ImageNet-A上,DenseNet-121 獲得了大約 2% 的準確度,準確度下降了大約 90%,并且它在ImageNet-O上的分布外檢測性能接近隨機機會水平。本文發現現有的數據增強技術幾乎無法提高性能,并且使用其他公共訓練數據集提供的改進有限。然而,本文發現對計算機視覺架構的改進為實現穩健模型提供了一條有效的途徑。
論文:
3. VideoMoCo: Contrastive Video Representation Learning with Temporally Adversarial Examples
作者:Tian Pan, Yibing Song, Tianyu Yang, Wenhao Jiang, Wei Liu
摘要:
MoCo是一種有效的無監督的圖像表示學習方法。本文提出 VideoMoCo 用于無監督視頻表示學習。給定一個視頻序列作為輸入樣本,本文從兩個角度改進了MoCo的時間特征表示。首先,本文引入了一個生成器來暫時從這個樣本中刪除幾個幀。然后,無論幀刪除如何,鑒別器都會學習對相似的特征表示進行編碼。通過在對抗性學習的訓練迭代期間自適應地丟棄不同的幀,本文增加了這個輸入樣本來訓練一個時間魯棒的編碼器。其次,在計算對比損失時,本文使用時間衰減來模擬內存隊列中的key衰減。當本文使用當前輸入樣本進行對比學習時,隨著key入隊后動量編碼器更新,這些key的表示能力會下降。這種退化通過時間衰減反映出來,以將輸入樣本與隊列中最近的key聯系起來。因此,本文采用MoCo來學習視頻表示,而無需憑經驗設計pretext任務。通過增強編碼器的時間魯棒性并對key的時間衰減進行建模,本文的 VideoMoCo 基于對比學習在時間上改進了 MoCo。在包括UCF101和HMDB51在內的基準數據集上的實驗表明,VideoMoCo是最先進的視頻表示學習方法。
論文:
4. Enhancing the Transferability of Adversarial Attacks through Variance Tuning
作者:Xiaosen Wang, Kun He
摘要:深度神經網絡容易受到對抗性樣本的影響,這些樣本會以難以察覺的擾動誤導模型。盡管對抗性攻擊在白盒設置中取得了令人難以置信的成功率,但大多數現有方法在黑盒設置中往往表現出弱的可轉移性,尤其是在攻擊具有防御機制的模型的情況下。在這項工作中,本文提出了一種稱為方差調整的新方法,以增強基于迭代梯度的攻擊方法的類別并提高其攻擊可轉移性。具體來說,在每次迭代計算梯度時,本文不是直接使用當前梯度進行動量累積,而是進一步考慮前一次迭代的梯度方差來調整當前梯度,以穩定更新方向并擺脫局部最優。在標準 ImageNet 數據集上的實證結果表明,本文的方法可以顯著提高基于梯度的對抗性攻擊的可轉移性。此外,本文的方法可用于攻擊集成模型或與各種輸入轉換集成。在多模型設置中將方差調整與基于迭代梯度攻擊的輸入變換相結合,該集成方法可以實現對 9 種先進防御方法的平均成功率 90.1%,將當前最佳攻擊性能顯著提高 85.1%。
論文:
代碼:
5. Prototype-supervised Adversarial Network for Targeted Attack of Deep Hashing
作者:Xunguang Wang, Zheng Zhang, Baoyuan Wu, Fumin Shen, Guangming Lu
摘要:由于其強大的表示學習能力和高效計算能力,深度哈希在大規模圖像檢索中取得了重大進展。然而,深度哈希網絡容易受到對抗樣本的影響,這是一個實際的安全問題,但在基于哈希的檢索領域很少研究。本文提出了一種新穎的原型監督對抗網絡(ProS-GAN),它制定了一種靈活的生成架構,用于高效和有效的目標哈希攻擊。據本文所知,這是第一代攻擊深度哈希網絡的方法。本文提出的框架由三部分組成,即原型網絡(PrototypeNet)、生成器和鑒別器。具體來說,設計的 PrototypeNet 將目標標簽嵌入到語義表示中,并學習原型代碼作為目標標簽的類別級代表。此外,語義表示和原始圖像聯合輸入生成器,以進行靈活的針對性攻擊。特別是利用原型代碼,通過最小化對抗樣本的哈希碼和原型代碼之間的漢明距離,來監督生成器構造目標對抗樣本。此外,生成器對抗鑒別器,同時鼓勵對抗性示例視覺逼真和語義表示信息豐富。大量實驗證明,本文所提出的框架可以有效地生成對抗性示例,該示例具有比最先進的深度哈希攻擊方法更好的針對性攻擊性能和可轉移性。
圖片 論文:
代碼:
6. Universal Spectral Adversarial Attacks for Deformable Shapes
作者:Arianna Rampini, Franco Pestarini, Luca Cosmo, Simone Melzi, Emanuele Rodolà
摘要:眾所周知,機器學習模型容易受到對抗性攻擊,即數據的擾動導致錯誤預測,盡管難以察覺。然而,迄今為止,只有圖像證明了“普遍”攻擊(即跨不同數據點傳輸的獨特擾動)的存在。對于幾何數據,例如圖形、網格和點云,部分原因在于缺乏通用域來定義普遍擾動。本文提供了一個視角的變化,并證明了對幾何數據(形狀)的普遍攻擊的存在。本文引入了一個完全在譜域中運行的計算過程,其中攻擊采取對短特征值序列的小擾動的形式;然后通過從頻譜中恢復形狀來合成得到的幾何形狀。本文的攻擊是通用的,因為它們可以跨越不同的形狀、不同的表示(網格和點云)來傳遞,并泛化到以前未知的數據。
論文:
【導讀】作為計算機視覺領域的三大國際頂會之一,IEEE國際計算機視覺與模式識別會議CVPR(IEEE Conference on Computer Vision and Pattern Recognition) 每年都會吸引全球領域眾多專業人士參與。CVPR 2021已經在線舉行, 今年的CVPR有效投稿多達7500篇,一共有1663篇論文被接收,接收率為27%。
CVPR2021 Paper List: //openaccess.thecvf.com/CVPR2021?day=all
為此,專知小編為大家整理了五篇CVPR 2021零樣本(Zero-Shot Learning)相關研究和應用,這塊這幾年一直比較受關注——零樣本實例分割、開放域組合零樣本學習、零樣本對抗量化、廣義零樣本學習
CVPR2021CL、CVPR2021DA、CVPR2021IVC、CVPR2021PID、CVPR2021IC、CVPR2021VU、CVPR2021OD、CVPR2021OT、CVPR2021AR
1. Zero-Shot Instance Segmentation
作者:Ye Zheng, Jiahong Wu, Yongqiang Qin, Faen Zhang, Li Cui
摘要:通過利用豐富的標記數據,深度學習顯著提高了實例分割的精度。但是,在醫療、制造業等很多領域,收集足夠的數據是非常困難的,標記這些數據需要很高的專業技能。本文遵循這一動機并提出了一個名為零樣本實例分割(ZSI)的新任務集。在 ZSI 的訓練階段,模型使用可見數據進行訓練,而在測試階段,它用于分割所有可見和不可見的實例。本文首先制定了 ZSI 任務并提出了一種應對挑戰的方法,它由零樣本檢測器、語義掩碼、背景感知 RPN 和同步背景策略組成。本文提出了一個基于 MS-COCO 數據集的零樣本實例分割的新基準。該基準測試中大量的實驗結果表明,本文的方法不僅在零樣本目標檢測任務中超越了最先進的結果,而且在 ZSI 上也取得了良好的性能。本文的方法將作為一個可靠的基線,并促進零樣本實例分割的未來研究。
論文:
代碼:
2. Open World Compositional Zero-Shot Learning
作者:Massimiliano Mancini, Muhammad Ferjad Naeem, Yongqin Xian, Zeynep Akata
摘要:組合零樣本學習 (CZSL) 需要識別訓練期間看不見的狀態對象組合。在這項工作中,本文不是假設關于看不見的組合的先驗知識,而是在開放世界環境中操作,其中搜索空間包括大量未見過的組合,其中一些可能是不可行的。在這種情況下,本文從視覺特征和組合嵌入之間的余弦相似度開始。在估計每個組合的可行性分數后,本文使用這些分數直接屏蔽輸出空間,或作為訓練期間視覺特征和組合嵌入之間余弦相似度的邊界。本文在兩個標準 CZSL 基準上的實驗表明,當應用于開放世界設置時,所有方法都會遭受嚴重的性能下降。雖然本文的簡單 CZSL 模型在封閉世界場景中實現了最先進的性能,但本文估計的可行性分數提高了本文方法在開放世界環境中的性能,明顯優于之前的最先進的方法。
論文:
代碼:
3. Learning Graph Embeddings for Compositional Zero-shot Learning
作者:Muhammad Ferjad Naeem, Yongqin Xian, Federico Tombari, Zeynep Akata
摘要: 在組合零樣本學習中,目標是識別訓練集中觀察到的視覺原始狀態(例如老、可愛)和對象(例如汽車、狗)的看不見的組合(例如老狗)。因為相同的狀態可以改變狗的視覺外觀與汽車的就截然不同。本文提出了一種稱為組合圖嵌入 (CGE) 的新型圖公式,它以端到端的方式學習圖像特征、組合分類器和視覺基元的潛在表示,來試著解決這一問題。本文方法的關鍵是利用圖結構中狀態、對象及其組合之間的依賴關系,以強制相關知識從可見組合轉移到不可見組合。通過學習對概念之間的語義進行編碼的聯合兼容性,本文的模型允許在不依賴 WordNet 等外部知識庫的情況下,將看不見的組合泛化。本文表明,在具有挑戰性的廣義組合零樣本設置中,本文的 CGE 顯著優于 MIT-States 和 UT-Zappos 的最新技術。本文還基于最近的 GQA 數據集為此任務提出了一個新的基準。
論文:
代碼:
4. Zero-shot Adversarial Quantization
作者:Yuang Liu, Wei Zhang, Jun Wang
摘要:模型量化是壓縮深度神經網絡和加速推理的一種很有效的方法,使其可以部署在移動和邊緣設備上。為了保持全精度模型的高性能,大多數現有的量化方法都通過假設訓練數據集是可訪問的,來微調量化模型。然而,由于數據隱私和安全問題,這種假設在實際情況中有時并不滿足,從而使這些量化方法不適用。為了在不訪問訓練數據的情況下實現零短模型量化,少數量化方法采用訓練后量化,要么批量歸一化統計引導數據生成進行微調。然而,兩者都不可避免地存在性能低下的問題,因為前者過于經驗化,缺乏對超低精度量化的訓練支持,而后者不能完全還原原始數據的特性,對于多樣化的數據往往效率低下一代。為了解決上述問題,本文提出了一個零樣本對抗量化(ZAQ)框架,促進了有效的差異估計和從全精度模型到量化模型的知識轉移。這是通過一種新穎的兩級差異建模來實現的,以驅動生成器合成信息豐富且多樣化的數據示例,從而以對抗性學習方式優化量化模型。本文對三個基本視覺任務進行了廣泛的實驗,證明了 ZAQ 在強零樣本基線上的優越性,并驗證了其主要組件的有效性。
論文:
代碼:
5. Light Field Super-Resolution with Zero-Shot Learning
作者:Zhen Cheng, Zhiwei Xiong, Chang Chen, Dong Liu, Zheng-Jun Zha
摘要:深度學習為光場超分辨率 (SR) 研究提供了一條新途徑。然而,由不同的光場采集條件所引起的域間隙是其在實際應用中亟需解決的問題。為了有效緩解這個問題,本文提出了一個用于光場SR的零樣本學習框架,該框架學習了一種映射,以使用僅從輸入低分辨率光場本身中提取的示例,來超分辨率參考視圖。然而,鑒于零樣本設置下的訓練數據非常有限,本文觀察到很難成功訓練端到端網絡。相反,本文將這個具有挑戰性的任務分為三個子任務,即預上采樣、視圖對齊和多視圖聚合,然后用簡單而高效的CNN分別克服它們。此外,所提出的框架可以很容易地擴展到微調源數據集上的預訓練模型,以更好地適應目標輸入,這進一步提高了野外光場SR的性能。實驗結果驗證,本文的方法不僅優于經典的非基于學習的方法,而且當域差距很大時,與最先進的基于深度學習的方法相比,對看不見的光場的泛化能力也更好。
論文:
6. Contrastive Embedding for Generalized Zero-Shot Learning
作者:Zongyan Han, Zhenyong Fu, Shuo Chen, Jian Yang
摘要:廣義零樣本學習(GZSL)旨在從可見類和不可見類中識別對象,當僅提供來自可見類的標記示例時。最近的特征生成方法學習了一個生成模型,該模型可以合成看不見的類的缺失視覺特征,以緩解 GZSL 中的數據不平衡問題。然而,原始的視覺特征空間對于 GZSL 分類來說是次優的,因為它缺乏判別信息。為了解決這個問題,本文建議將生成模型與嵌入模型相結合,產生一個混合 GZSL 框架。混合 GZSL 方法將生成模型生成的真實樣本和合成樣本都映射到嵌入空間中,在其中執行最終的 GZSL 分類。具體來說,本文為混合 GZSL 框架提出了對比嵌入 (CE)。所提出的對比嵌入不僅可以利用類監督,還可以利用實例監督,后者通常被現有的 GZSL 研究忽略。本文在五個基準數據集上評估了本文提出的具有對比嵌入的混合 GZSL 框架,名為 CE-GZSL。結果表明,本文的 CEGZSL 方法可以在三個數據集上顯著優于最先進的方法。
論文:
代碼:
【導讀】作為計算機視覺領域的三大國際頂會之一,IEEE國際計算機視覺與模式識別會議CVPR(IEEE Conference on Computer Vision and Pattern Recognition) 每年都會吸引全球領域眾多專業人士參與。CVPR 2021將在線舉行, 中國科學院院士、中科院自動化所智能感知與計算研究中心主任譚鐵牛將出任大會主席(General Chair,GC),上海科技大學的虞晶怡教授將任程序主席(Program Chair,PC)。今年的CVPR有效投稿多達7500篇,一共有1663篇論文被接收,接收率為27%。
為此,專知小編提前為大家整理了五篇CVPR 2021對比學習(Contrastive Learning)在計算機視覺上的應用,這塊這幾年一直比較受關注,特別是具體領域應用等等?大家先睹為快——圖像去霧、少樣本學習、多模態視頻學習、密集CL、對抗CL
CVPR2021DA、CVPR2021IVC、CVPR2021PID、CVPR2021IC、CVPR2021VU、CVPR2021OD、CVPR2021OT、CVPR2021AR
1. Contrastive Learning for Compact Single Image Dehazing
作者:Haiyan Wu, Yanyun Qu, Shaohui Lin, Jian Zhou, Ruizhi Qiao, Zhizhong Zhang, Yuan Xie , Lizhuang Ma
摘要:由于嚴重的信息退化,單圖像去霧是一個具有挑戰性的問題。然而,現有的基于深度學習的除霧方法僅采用清晰的圖像作為正樣本來指導除霧網絡的訓練,而未利用負樣本信息。而且,它們中的大多數集中在通過增加深度和寬度來增強除霧網絡,從而導致大量的計算和內存需求。在本文中,我們提出了一種基于對比學習的新穎對比正則化(CR)技術,以利用模糊圖像和清晰圖像的信息分別作為負樣本和正樣本。CR確保在表示空間中將還原后的圖像拉到更接近清晰圖像,并推到遠離朦朧圖像的位置。此外,考慮到性能和內存存儲之間的權衡,我們基于類自動編碼器(AE)框架開發了一個緊湊的除霧網絡。它涉及自適應混合操作和動態特征增強模塊,分別受益于自適應地保存信息流和擴展接收域以提高網絡的轉換能力。我們將具有自動編碼器和對比正則化功能的除霧網絡稱為AECR-Net。在合成和真實數據集上進行的廣泛實驗表明,我們的AECR-Net超越了最新技術。
論文: //arxiv.org/abs/2104.09367
代碼:
2. Fine-grained Angular Contrastive Learning with Coarse Labels
作者:Guy Bukchin, Eli Schwartz, Kate Saenko, Ori Shahar, Rogerio Feris, Raja Giryes, Leonid Karlinsky
摘要:Few-shot學習方法會提供經過優化的預訓練技術,以便使用一個或幾個示例輕松地將模型適應新類(在訓練過程中看不見)。這種對不可見類別的適應性對于許多實際應用尤為重要,在這些實際應用中,預先訓練的標簽空間無法保持固定以有效使用,并且模型需要“特殊化”以支持動態的新類別。粗粒度到細粒度(Coarse-to-Fine)Few-Shot(C2FS)是一種特別有趣的場景,基本上被Few-Shot文獻所忽略,其中訓練(train)類(例如,動物)的粒度比目標(test)類的“粒度”粗得多(例如品種)。C2FS的一個非常實際的示例是目標類是訓練類的子類。直觀地講,這是特別具有挑戰性的,因為包括regular and few-shot的有監督的預訓練往往會學會忽略類內差異性,這對于分離子類至關重要。在本文中,我們介紹了一種新穎的“角度歸一化(Angular normalization)”模塊,該模塊可以有效地結合監督和自監督的對比預訓練來解決C2FS任務,從而證明了在多個基準和數據集的廣泛研究中所取得的顯著成果。我們希望這項工作將有助于為有關C2FS分類這一新的,具有挑戰性且非常實用的主題的未來研究鋪平道路。
論文:
3. Distilling Audio-Visual Knowledge by Compositional Contrastive Learning
作者:Yanbei Chen, Yongqin Xian, A.Sophia Koepke, Ying Shan, Zeynep Akata
摘要:與從單模態學習相比,獲得多模態線索,(例如,視覺和音頻)可以更快地完成某些認知任務。在這項工作中,我們建議在跨模態中傳輸知識,即使這些數據模態在語義上可能不相關。與直接對齊不同模態的表示不同,我們組合音頻,圖像和視頻的跨模態表示,以發現更豐富的多模態知識。我們的主要思想是學習一種組合嵌入表示,這種嵌入可以縮小跨模態語義鴻溝并捕獲與任務相關的語義,這有助于通過組合對比學習將跨模態的表示整合在一起。我們在三個視頻數據集(UCF101,ActivityNet和VG-GSound)上建立了一個新的,全面的多模態蒸餾基準。此外,我們證明了我們的模型在傳輸視聽知識以改善視頻表示學習方面,明顯優于各種現有的知識蒸餾方法。
論文:
代碼:
4. Dense Contrastive Learning for Self-Supervised Visual Pre-Training
作者:Xinlong Wang, Rufeng Zhang, Chunhua Shen, Tao Kong, Lei Li
摘要:迄今為止,大多數現有的自監督學習方法都是針對圖像分類進行設計和優化的。由于圖像級預測和像素級預測之間的差異,這些預訓練的模型對于密集的預測任務可能不是最佳的。為了解決這個問題,我們旨在設計一種有效,密集的自監督學習方法,通過考慮局部特征之間的對應關系,直接在像素(或局部特征)級別上起作用。我們提出了密集的對比學習(DenseCL),該算法通過在輸入圖像的兩個視圖之間的像素級別上優化成對的對比(不相似)損失來實現自監督學習。
與基準方法MoCo-v2相比,我們的方法引入的計算開銷(僅慢了1%)可忽略不計,但是在轉移到下游密集的預測任務(包括目標檢測,語義分割和實例分割)時,始終表現出優異的性能;并大大領先于最新技術。具體而言,在強大的MoCo-v2基線上,我們的方法在PASCAL VOC數據集對象檢測任務上的AP顯著提升2.0%,COCO數據集對象檢測任務上的AP顯著提升1.1%,COCO數據集實例分割任務上的AP提升0.9%,PASCAL VOC數據集語義分割任務上的AP提升3.0% Cityscapes數據集語義分割任務上mIoU顯著提升1.8%。
論文:
代碼:
5. AdCo: Adversarial Contrast for Efficient Learning of Unsupervised Representations from Self-Trained Negative Adversaries
作者:Qianjiang Hu, Xiao Wang, Wei Hu, Guo-Jun Qi
摘要:對比學習依賴于構建一個負樣本集合,當負樣本的表示是經過自訓練時,負樣本很難與正樣本的查詢(query)區分開來。現有的對比學習方法要么在小批量樣本中含有負樣本隊列,而只有一小部分在迭代中被更新,要么只使用當前小批量樣本中的其他樣本作為負樣本。他們無法通過更新整個隊列來密切跟蹤迭代過程中學習到的表示的變化,也無法從使用過的小批量樣本中剔除有用信息。或者,我們提出直接學習一組負樣本來對抗自我訓練的表示。兩個角色,表示網絡和負樣本對抗,交替更新來獲取最具挑戰性的負樣本,以區分正樣本查詢的表示。我們進一步表明,通過最大化對抗性對比損失,負樣本被更新為正樣本查詢的加權組合,從而他們能夠隨著時間密切跟蹤表示的變化。實驗結果表明,本文所提出的對抗對比模型(AdCo)不僅具有出色的性能(在ImageNet上進行線性評估,200個epoch時 top-1準確度為73.2%,800個epoch時為75.7%),而且可以在更短的GPU時間和更少的epoch條件下進行更有效的預訓練。
論文:
代碼:
【導讀】作為計算機視覺領域的三大國際頂會之一,IEEE國際計算機視覺與模式識別會議CVPR(IEEE Conference on Computer Vision and Pattern Recognition) 每年都會吸引全球領域眾多專業人士參與。CVPR 2021將在線舉行, 中國科學院院士、中科院自動化所智能感知與計算研究中心主任譚鐵牛將出任大會主席(General Chair,GC),上海科技大學的虞晶怡教授將任程序主席(Program Chair,PC)。今年的CVPR有效投稿多達7500篇,一共有1663篇論文被接收,接收率為27%。
為此,專知小編提前為大家整理了五篇CVPR 2021領域自適應(Domain Adaptation)相關論文,這塊這幾年一直比較受關注,特別是未知域、通用域學習等等?大家先睹為快——真實域泛化、多目標域自適應、通用領域自適應、頻域空間域方法、未知域泛化
CVPR2021IVC、CVPR2021PID、CVPR2021IC、CVPR2021VU、CVPR2021OD、CVPR2021OT、CVPR2021AR
1. Adaptive Methods for Real-World Domain Generalization
作者:Abhimanyu Dubey, Vignesh Ramanathan, Alex Pentland, Dhruv Mahajan
摘要:不變性(Invariant)方法在解決域泛化問題方面非常成功,其目的是對在訓練中使用的數據分布不同的數據分布進行推斷。在我們的工作中,我們調研了是否有可能利用來自不可見的測試樣本本身的域信息。我們提出了一種包含兩個步驟的領域自適應方法:a)我們首先從無監督的訓練示例中學習判別性領域嵌入,以及b)使用該領域嵌入作為補充信息來構建領域自適應模型,該模型同時采用了以下兩種方法:進行預測時要考慮輸入及其域。對于不可見的域,我們的方法僅使用一些未標記的測試示例來構建域嵌入。這可以在任何不可見的域上進行自適應分類。我們的方法可在各種領域通用基準上實現最先進的性能。此外,我們推出了第一個真實的,大規模的領域通用基準測試Geo-YFCC,其中包含110萬個樣本,經過40個訓練,7個驗證和15個測試域,比以前的工作大了幾個數量級。我們顯示,與在所有訓練域的數據聯合上訓練模型的簡單基準相比,現有方法無法擴展到該數據集或表現不佳。相比之下,我們的方法實現了1%的顯著改進。
網址: //arxiv.org/abs/2103.15796
2. Curriculum Graph Co-Teaching for Multi-Target Domain Adaptation
作者:Subhankar Roy, Evgeny Krivosheev, Zhun Zhong, Nicu Sebe, Elisa Ricci
摘要:在本文中,我們討論了多目標域適應(MTDA),其中給定一個標記的源域數據集和多個數據分布不同的未標記的目標域數據集,任務是為所有目標域學習可靠的預測模型。我們確定了兩個關鍵方面,可以幫助減輕MTDA中的多領域轉移:特征聚合和課程學習(curriculum learning)。為此,我們提出了使用雙重分類器的課程圖協同教學模型 Curriculum Graph Co-Teaching(CGCT),其中之一是圖卷積網絡(GCN),該圖卷積網絡匯總了跨域相似樣本的特征。為了防止分類器過分適合自己的嘈雜偽標簽,我們與雙分類器一起使用了一種共同教學策略,并借助課程學習來獲得更可靠的偽標簽。此外,當域標簽可用時,我們提出了Domain-aware Curriculum Learning(DCL),這是一種順序適應策略,首先適應較容易的目標域,然后適應較難的目標域。我們在幾個基準上實驗性地證明了我們提出的框架的有效性,并大幅提高了MTDA中的最新水平(例如,在DomainNet上為+ 5.6%)。
代碼:
網址:
3. Domain Consensus Clustering for Universal Domain Adaptation
作者:Guangrui Li, Guoliang Kang, Yi Zhu, Yunchao Wei, Yi Yang
摘要:在本文中,我們研究了通用域自適應(UniDA)問題,該問題旨在在不對齊的標簽空間下將知識從源域轉移到目標域。UniDA的主要挑戰在于如何將公共類(即跨域共享的類)與私有類(即僅在一個域中存在的類)分開。先前的工作將目標域中的私有樣本視為一個通用類,但忽略了它們的固有結構。因此,所得到的表示在潛在空間中不夠緊湊,并且很容易與普通樣本混淆。為了更好地利用目標域的內在結構,我們提出了Domain Consensus Clustering(DCC),它利用域共識知識來發現普通樣本和私有樣本上的區分性聚類。具體來說,我們從兩個方面汲取領域共識知識,以促進聚類和私有類發現,即語義級別的共識(將周期一致的簇標識為通用類)和樣本級別的共識,利用交叉域分類協議以確定集群的數量并發現私有類。基于DCC,我們能夠將私有類與公共類分開,并區分私有類本身。最后,我們在識別出的常見樣本上應用了分類感知比對技術,以最大程度地減少分布偏移,并應用原型正則化方法來激發可辨別的目標集群。在四個基準上進行的實驗表明,DCC明顯優于以前的最新技術。
網址:
4. FSDR: Frequency Space Domain Randomization for Domain Generalization
作者:Jiaxing Huang, Dayan Guan, Aoran Xiao, Shijian Lu
摘要:域泛化旨在從“已知”源域中為各種“未知”目標域學習可泛化的模型。已經通過域隨機化對它進行了廣泛的研究,該方法將源圖像轉移到空間中的不同樣式以學習域不可知的特征。然而,大多數現有的隨機化方法使用的GAN常常缺乏控制力,甚至改變了圖像的語義結構。受到將空間圖像轉換成多個頻率分量(FC)的JPEG理念的啟發,我們提出了頻空域隨機化(FSDR),該方法通過僅保留域不變FC(DIF)和隨機化域變FC(DVF)來隨機化頻率空間中的圖像。FSDR具有兩個獨特的功能:1)將圖像分解為DIF和DVF,從而允許對其進行顯式訪問和操縱以及更可控的隨機化;2)它對圖像的語義結構和領域不變特征的影響最小。我們統計地檢查了FC的域方差和不變性,并設計了一個網絡,該網絡可以通過迭代學習動態地識別和融合DIF和DVF。對多個領域可概括的分割任務的廣泛實驗表明,FSDR實現了出色的分割,其性能甚至與在訓練中訪問目標數據的領域自適應方法相當。
網址:
5. RobustNet: Improving Domain Generalization in Urban-Scene Segmentation via Instance Selective Whitening
作者:Sungha Choi, Sanghun Jung, Huiwon Yun, Joanne Kim, Seungryong Kim, Jaegul Choo
摘要:將深度神經網絡的泛化能力提高到不可見域對于現實世界中與安全相關的應用(如自動駕駛)至關重要。為了解決這個問題,本文提出了一種新的實例選擇性白化損失(instance selective whitening loss),以提高針對未知域的分割網絡的魯棒性。我們的方法解開了特征表示的高階統計量(即特征協方差)中編碼的特定于域的樣式和域不變內容,并有選擇地僅刪除導致域移位的樣式信息。如圖1所示,我們的方法為(a)低照度,(b)多雨和(c)不可見的結構提供了合理的預測。這些類型的圖像未包含在訓練數據集中,其中基線顯示出明顯的性能下降,這與我們的方法相反。我們的方法提高了各種骨干網絡的魯棒性,而沒有額外的計算成本。我們在城市場景分割中進行了廣泛的實驗,顯示了我們的方法在現有工作中的優越性。
代碼:
網址:
【導讀】作為計算機視覺領域的三大國際頂會之一,IEEE國際計算機視覺與模式識別會議CVPR(IEEE Conference on Computer Vision and Pattern Recognition) 每年都會吸引全球領域眾多專業人士參與。CVPR 2021將在線舉行, 中國科學院院士、中科院自動化所智能感知與計算研究中心主任譚鐵牛將出任大會主席(General Chair,GC),上海科技大學的虞晶怡教授將任程序主席(Program Chair,PC)。今年的CVPR有效投稿多達7500篇,一共有1663篇論文被接收,接收率為27%。
為此,專知小編提前為大家整理了五篇CVPR 2021圖像/視頻描述生成(Image/Video Captioning)相關論文,這塊這幾年一直比較受關注,但是競爭也比較激烈,可以看看最新是如何創新,如何開展的?大家先睹為快——RGB-D描述生成、視頻的文本生成、可控圖像描述生成、圖像描述預訓練模型、開放域視頻描述生成
CVPR2021PID、CVPR2021IC、CVPR2021VU、CVPR2021OD、CVPR2021OT、CVPR2021AR
1. Scan2Cap: Context-aware Dense Captioning in RGB-D Scans
作者:Dave Zhenyu Chen, Ali Gholami, Matthias Nie?ner, Angel X. Chang
摘要:在commodity RGB-D 傳感器的3D掃描中,我們介紹了密集描述生成(dense captioning)的任務。作為輸入,我們假設3D場景的點云;預期的輸出是邊界框以及基礎目標的描述。為了解決3D目標檢測和描述生成問題,我們提出了一種Scan2Cap(一種端到端訓練有素的方法),以檢測輸入場景中的目標并以自然語言描述它們。在引用局部上下文的相關組件時,我們使用一種注意力生成機制來生成描述性標記。為了在生成的標題中反映目標關系(即相對空間關系),我們使用信息傳遞圖模塊來促進學習目標關系特征。我們的方法可以有效地定位和描述來自ScanReferdataset的場景中的3D目標,其性能大大優于2D基線方法(27.61%[email protected]改進)。
圖片 網址:
2. VX2TEXT: End-to-End Learning of Video-Based Text Generation From Multimodal Inputs
作者:Xudong Lin, Gedas Bertasius, Jue Wang, Shih-Fu Chang, Devi Parikh, Lorenzo Torresani
摘要:我們介紹了VX2TEXT,這是一個用于從多模態輸入生成文本的框架,該輸入由視頻加上文本,語音或音頻組成。為了利用已被證明在建模語言方面有效的transformer網絡,本文首先將每個模態由可學習的tokenizer生成器轉換為一組語言嵌入。這使我們的方法可以在語言空間中執行多模態融合,從而消除了對臨時跨模態融合模塊的需求。為了解決連續輸入(例如:視頻或音頻)上tokenization的不可區分性,我們使用了一種relaxation 方案(relaxation scheme),該方案可進行端到端訓練。此外,與以前的僅編碼器模型不同,我們的網絡包括自回歸解碼器,可從語言編碼器融合的多模態嵌入中生成開放式文本。這使我們的方法完全具有生成性,并使其可直接應用于不同的“視頻+ x到文本”問題,而無需為每個任務設計專門的網絡負責人。本文所提出的框架不僅在概念上簡單,而且非常有效:實驗表明,我們基于單一體系結構的方法在字幕,問答和視聽這三個基于視頻的文本生成任務上均優于最新技術場景感知對話框架。
網址:
3. Human-like Controllable Image Captioning with Verb-specific Semantic Roles
作者:Long Chen, Zhihong Jiang, Jun Xiao, Wei Liu
摘要:過去幾年來,可控圖像字幕(CIC)(根據指定的控制信號生成圖像描述)受到了前所未有的關注。為了模仿人類控制字幕生成的能力,當前的CIC研究僅關注與客觀屬性(例如:感興趣的內容或描述性模式)有關的控制信號。但是,我們認為幾乎所有現有的目標控制信號都忽略了理想控制信號的兩個必不可少的特征:1)事件兼容:在單個句子中提及的所有視覺內容應與所描述的活動兼容。2)適合樣本:控制信號應適合于特定的圖像樣本。為此,我們為CIC提出了一個新的控制信號:動詞特定的語義角色(VSR)。VSR由一個動詞和一些語義角色組成,它們表示目標活動以及此活動中涉及的實體的角色。給定指定的VSR,我們首先訓練一個語義角色標記(GSRL)模型,以識別每個角色的所有實體。然后,我們提出了一個語義結構計劃器(SSP)來學習類似人的描述性語義結構。最后,我們使用角色轉換描述模型來生成描述。大量的實驗和消融表明,在兩個具有挑戰性的CIC基準測試中,我們的框架比幾個強大的基準可以實現更好的可控性。此外,我們可以輕松生成多層次的不同描述。
代碼:
網址:
4. VirTex: Learning Visual Representations from Textual Annotations
作者:Karan Desai, Justin Johnson
摘要:實際上,許多解決視覺任務的方法是從預訓練的視覺表示開始,通常是通過ImageNet的監督訓練來學習的。最近的方法已經探索了無監督的預訓練,以擴展到大量未標記的圖像。相反,我們旨在從更少的圖像中學習高質量的視覺表示。為此,我們重新審視了有監督的預訓練,并尋求基于數據的有效方法來替代基于分類的預訓練。我們提出了VirTex——這是一種使用語義密集描述來學習視覺表示的預訓練方法。我們從頭開始在COCO Captions上訓練卷積網絡,并將其轉移到下游識別任務,包括圖像分類,目標檢測和實例分割。在所有任務上,VirTex所產生的特征都可以與ImageNet上達到或超過的特征(在監督或無監督的情況下)相提并論,并且其所使用的圖像最多減少十倍。
網址:
5. Open-book Video Captioning with Retrieve-Copy-Generate Network
作者:Ziqi Zhang, Zhongang Qi, Chunfeng Yuan, Ying Shan, Bing Li, Ying Deng, Weiming Hu
摘要:在本文中,我們將傳統的視頻描述任務轉換為一種新的范例,即``Open-book視頻描述'',它可以在與視頻內容相關的句子的提示下生成自然語言,而不僅限于視頻本身。為了解決Open-book的視頻描述問題,我們提出了一種新穎的“檢索-復制-生成”網絡,該網絡中構建了可插入的視頻到文本檢索器,以有效地從訓練語料庫檢索句子作為提示,而復制機制生成器則是引入動態提取多檢索語句中的表達式。這兩個模塊可以端到端或分別進行訓練,這是靈活且可擴展的。我們的框架將傳統的基于檢索的方法與正統的編碼器/解碼器方法進行了協調,它們不僅可以利用檢索到的句子中的各種表達方式,還可以生成自然而準確的視頻內容。在幾個基準數據集上進行的大量實驗表明,我們提出的方法超越了最新技術的性能,表明了在視頻描述任務中提出的范例的有效性和前景。
網址:
【導讀】作為計算機視覺領域的三大國際頂會之一,IEEE國際計算機視覺與模式識別會議CVPR(IEEE Conference on Computer Vision and Pattern Recognition) 每年都會吸引全球領域眾多專業人士參與。CVPR 2021將在線舉行, 中國科學院院士、中科院自動化所智能感知與計算研究中心主任譚鐵牛將出任大會主席(General Chair,GC),上海科技大學的虞晶怡教授將任程序主席(Program Chair,PC)。今年的CVPR有效投稿多達7500篇,一共有1663篇論文被接收,接收率為27%。
為此,專知小編提前為大家整理了五篇CVPR 2021圖像分類(Image Classification)相關論文,圖像分類topic,大家都很熟悉,但是競爭也比較激烈,可以看看最新是如何創新如何開展的?大家先睹為快——半監督細粒度圖像分類、長尾圖像分類、新標簽少樣本學習、對比聯邦學習
CVPR2021OD、CVPR2021AR
1. A Realistic Evaluation of Semi-Supervised Learning for Fine-Grained Classification
作者:Jong-Chyi Su, Zezhou Cheng, Subhransu Maji
摘要:我們在一個現實的基準上評估半監督學習(SSL)的有效性,在該基準上,數據表現出明顯的類別失衡并包含來自新類別的圖像。我們的基準測試由兩個細粒度的分類數據集組成,這些數據集是通過從Aves和Fungi分類中對類進行抽樣而獲得的。我們發現,最近提出的SSL方法具有顯著的優勢,并且當從頭開始訓練深度網絡時,可以有效地使用類外(out-of-class)數據來提高性能。然而,與遷移學習基準相比,這部分表現卻差強人意。另外,盡管現有的SSL方法提供了一些改進,但是類外數據的存在通常對模型的性能反而有害。在這種情況下,微調后再進行基于蒸餾的自訓練反而是最可靠的。我們的實驗表明,在現實數據集上的基于專家的半監督學習可能需要一些不同的策略,這部分策略與現在流行的方法可能不同。
2. Contrastive Learning based Hybrid Networks for Long-Tailed Image Classification
作者:Peng Wang, Kai Han, Xiu-Shen Wei, Lei Zhang, Lei Wang
摘要:學習得到圖像的判別性表示在長尾(long-tailed)圖像分類中起著至關重要的作用,因為它可以緩解分類器在數據不平衡情況下的學習。鑒于最近對比學習的表現,在這項工作中,我們探討了有效的監督對比學習策略,并定制了他們從不平衡數據學習更好的圖像表示的方法,以提高其上的分類精度。具體來說,我們提出了一種新穎的混合網絡結構,該結構由監督的對比損失(用于學習圖像表示)和交叉熵損失(用于學習分類器)組成,其中學習逐漸從特征學習過渡到分類器學習,以體現更好的特征訓練更好的分類器。我們探索了用于特征學習的兩種對比損失形式,它們的形式各不相同,但有一個共同的想法,即在歸一化嵌入空間中將同一類別的樣本拉在一起,然后將不同類別的樣本推開。其中之一是最近提出的監督對比(SC)損失,它是通過合并來自同一類別的正樣本在最先進的無監督對比損失之上設計的。另一種是原型監督對比(PSC)學習策略,該策略解決了標準SC丟失中的大量內存消耗問題,因此在有限的內存預算下顯示出更多的希望。在三個長尾分類數據集上的廣泛實驗證明了在長尾分類中所提出的基于對比學習的混合網絡的優勢。
3. Fine-grained Angular Contrastive Learning with Coarse Labels
作者:Guy Bukchin, Eli Schwartz, Kate Saenko, Ori Shahar, Rogerio Feris, Raja Giryes, Leonid Karlinsky
摘要:少樣本學習方法會提供經過優化的預訓練技術,以便使用一個或幾個示例輕松地將模型適應新類別(在訓練過程中看不見)。這種對看不見類別的適應性對于許多實際應用尤為重要,在這些實際應用中,預訓練的標簽空間無法保持固定以有效使用,并且模型需要“專業化”以支持動態的新類別。Coarseto-Fine Few-Shot(C2FS)是一種特別有趣的場景,但被鮮為人知的文獻所忽略,其中訓練類(例如動物)比目標(測試)類(例如品種)具有“更粗糙的粒度”。C2FS的一個非常實際的示例是目標類是訓練類的子類。直觀地講,這是特別具有挑戰性的,因為(規律和少樣本)監督的預訓練往往會學會忽略類內變異性,這對于分離子類至關重要。在本文中,我們介紹了一個新穎的“角度歸一化”模塊,該模塊可以有效地結合監督和自監督的對比預訓練來解決提出的C2FS任務,從而在對多個基準和數據集的廣泛研究中顯示出顯著的收益。我們希望這項工作將有助于為有關C2FS分類這一新的,具有挑戰性且非常實用的主題的未來研究鋪平道路。
網址:
4. MetaSAug: Meta Semantic Augmentation for Long-Tailed Visual Recognition
作者:Shuang Li, Kaixiong Gong, Chi Harold Liu, Yulin Wang, Feng Qiao, Xinjing Cheng
摘要:現實世界中的訓練數據通常呈現長尾分布,其中幾個多數類的樣本數量明顯多于其余少數類。這種不平衡會降低被設計用于平衡訓練集的典型監督學習算法的性能。在本文中,我們通過使用最近提出的隱式語義數據增強(ISDA)算法來增強少數類,以解決該問題,該算法通過沿著語義有意義的方向平移深層特征來產生多樣化的增強樣本。重要的是,鑒于ISDA估計了分類條件統計信息以獲得語義指導,由于訓練數據不足,我們發現在少數群體分類中這樣做是無效的。為此,我們提出了一種新穎的方法,可通過元學習自動學習轉換后的語義方向。具體來說,訓練過程中的擴充策略是動態優化的,旨在最大程度地減少通過平衡更新步驟近似的小的平衡驗證集上的損失。在CIFAR-LT-10 / 100,ImageNet-LT和iNaturalist 2017/2018的廣泛經驗結果驗證了我們方法的有效性。
網址:
5. Model-Contrastive Federated Learning
作者:Qinbin Li, Bingsheng He, Dawn Song
摘要:聯邦學習使多方可以協作訓練機器學習模型,而無需傳達他們的本地數據。聯合學習中的一個關鍵挑戰是處理各方之間本地數據分布的異質性。盡管已經提出了許多研究來應對這一挑戰,但我們發現它們在具有深度學習模型的圖像數據集中無法實現高性能。在本文中,我們提出了MOON:模型對比聯合學習。MOON是一種簡單有效的聯合學習框架。MOON的關鍵思想是利用模型表示之間的相似性來校正單個方面的本地訓練,即在模型級別進行對比學習。我們廣泛的實驗表明,MOON在各種圖像分類任務上明顯優于其他最新的聯邦學習算法。
網址:
【導讀】作為計算機視覺領域的三大國際頂會之一,IEEE國際計算機視覺與模式識別會議CVPR(IEEE Conference on Computer Vision and Pattern Recognition) 每年都會吸引全球領域眾多專業人士參與。CVPR 2021將在線舉行, 中國科學院院士、中科院自動化所智能感知與計算研究中心主任譚鐵牛將出任大會主席(General Chair,GC),上海科技大學的虞晶怡教授將任程序主席(Program Chair,PC)。今年的CVPR有效投稿多達7500篇,一共有1663篇論文被接收,接收率為27%。
為此,專知小編提前為大家整理了五篇CVPR 2021視覺目標跟蹤(Object Tracking)相關論文,讓大家先睹為快——GCN多目標跟蹤、概率自回歸、旋轉孿生網絡、3D目標檢測和跟蹤、在線多目標跟蹤
CVPR2021OD、CVPR2021AR
1. Learning a Proposal Classifier for Multiple Object Tracking
作者:Peng Dai, Renliang Weng, Wongun Choi, Changshui Zhang, Zhangping He, Wei Ding
摘要:最近多目標跟蹤(MOT)的趨勢正在朝著利用深度學習來推動跟蹤性能的方面發展。但是,以端到端的方式解決數據關聯問題并非易事。在本文中,我們提出了一個新穎的基于proposal的可學習框架,該模型將MOT建模為proposal生成,proposal評分和affinity圖上的軌跡推斷范式。該框架類似于兩階段目標檢測器Faster RCNN,可以以數據驅動的方式解決MOT問題。對于proposa的生成,我們提出了一種迭代圖聚類方法,以降低計算成本,同時保持生成的proposa的質量。對于proposa評分,我們部署了可訓練的圖卷積網絡(GCN),以學習生成的proposa的結構模式,并根據估算的質量得分對它們進行排名。對于軌跡推斷,采用一種簡單的去重疊策略來生成跟蹤輸出,同時遵守不能將檢測分配給一個以上軌道的約束。我們通過實驗證明,相對于以前在兩個公共基準上的最新技術,該方法在MOTA和IDF1中均實現了明顯的性能改進。
代碼: //github.com/daip13/LPC_MOT.git
網址:
2. Probabilistic Tracklet Scoring and Inpainting for Multiple Object Tracking
作者:Fatemeh Saleh, Sadegh Aliakbarian, Hamid Rezatofighi, Mathieu Salzmann, Stephen Gould
摘要:盡管通過聯合檢測和跟蹤實現了多目標跟蹤(MOT)的最新進展,但是處理長距離遮擋仍然是一個挑戰。這是由于這些技術傾向于忽略長期運動信息。在本文中,我們引入了一種概率自回歸運動模型,通過直接測量它們的可能性來對tracklet proposals進行評分。這是我們的模型通過訓練來學習自然軌跡的基本分布來實現的。這樣,我們的模型不僅能夠為現有的軌跡分配新的檢測結果,而且還可以在目標長時間丟失時(例如:遮擋),通過采樣軌跡以填補錯誤檢測引起的差距。我們的實驗證明了我們的方法在具有挑戰性的序列中跟蹤物體的優越性。在多個MOT基準數據集(包括MOT16,MOT17和MOT20)上,它在大多數標準MOT指標上的表現均優于最新技術。
網址:
3. Rotation Equivariant Siamese Networks for Tracking
作者:Deepak K. Gupta, Devanshu Arya, Efstratios Gavves
摘要:旋轉是視覺目標跟蹤中長期存在但尚未解決的艱巨挑戰之一。現有的基于深度學習的跟蹤算法使用常規的CNN,這些CNN本質上是平移不變的,它們并沒有解決旋轉問題。在本文中,我們首先證明在視頻中存在旋轉實例時,現有跟蹤器的性能會受到嚴重影響。為了避免旋轉的不利影響,我們提出了等速旋轉孿生網絡(RE-SiamNets),該網絡是通過使用包含可控濾波器的等分組卷積層構建的。SiamNets允許以無監督的方式估計目標方向的變化,從而也方便了其在相對2D姿勢估計中的使用。我們進一步表明,通過對兩個連續幀之間的方向變化施加限制,這種方向變化可以用于在孿生(Siamese)跟蹤中施加附加的運動約束。為了進行基準測試,我們展示了旋轉跟蹤基準(RTB),它是一個包含一組帶有旋轉實例的視頻的數據集。通過對兩種流行的孿生體系結構進行的實驗,我們證明RE-SiamNets很好地解決了旋轉問題,并且性能優于常規同類產品。此外,RE-SiamNets可以以無監督的方式準確估算目標姿勢的相對變化,即目標相對于參考框架的平面內旋轉。
網址:
4. Center-based 3D Object Detection and Tracking
作者:Tianwei Yin, Xingyi Zhou, Philipp Kr?henbühl
摘要:三維目標通常表示為點云中的3D框。這種表示方法借鑒了基于圖像的2D邊界框檢測,但同時其也帶來了其他挑戰。3D世界中的目標不遵循任何特定的方向,基于box的檢測器很難枚舉所有方向或將軸對齊的邊界框擬合到旋轉的目標。在本文中,我們提出將3D目標表示為點,并進行檢測和跟蹤。我們的框架CenterPoint首先使用關鍵點檢測器檢測目標的中心,然后回歸到其他屬性,包括3D大小,3D方向和速度。在第二階段,它使用目標上的其他點特征來完善這些估計。在CenterPoint中,3D目標跟蹤可簡化為貪婪的最近點匹配。這樣得到的檢測和跟蹤算法簡單,高效且有效。CenterPoint在nuScenes基準上實現了3D檢測和跟蹤的最先進性能,單個模型具有65.5 NDS和63.8 AMOTA。在Waymo開放數據集上,CenterPoint大大優于所有以前的單一模型方法,并且在所有僅Lidar提交中排名第一。
代碼:
網址:
5. Track to Detect and Segment: An Online Multi-Object Tracker
作者:Jialian Wu, Jiale Cao, Liangchen Song, Yu Wang, Ming Yang, Junsong Yuan
摘要:大多數在線多目標跟蹤器在神經網絡中獨立執行目標檢測,而無需跟蹤任何輸入。在本文中,我們介紹了一個新的在線聯合檢測和跟蹤模型TraDeS(用于檢測和分段的TRack),它利用跟蹤線索來輔助端到端檢測。TraDeS推斷目標跟蹤偏移量為成本,用于傳播先前的目標特征以改善當前目標的檢測和分割。TraDeS的有效性和優越性顯示在4個數據集上,包括MOT(2D跟蹤),nuScenes(3D跟蹤),MOTS和Youtube-VIS(實例分割跟蹤)。
代碼:
網址:
【導讀】作為計算機視覺領域的三大國際頂會之一,IEEE國際計算機視覺與模式識別會議CVPR(IEEE Conference on Computer Vision and Pattern Recognition) 每年都會吸引全球領域眾多專業人士參與。CVPR 2021將在線舉行, 中國科學院院士、中科院自動化所智能感知與計算研究中心主任譚鐵牛將出任大會主席(General Chair,GC),上海科技大學的虞晶怡教授將任程序主席(Program Chair,PC)。今年的CVPR有效投稿多達7500篇,一共有1663篇論文被接收,接收率為27%。
為此,專知小編提前為大家整理了五篇CVPR 2021行為識別(Action Recognition)相關論文,讓大家先睹為快——Action-Net、黑盒對抗攻擊、Coarse-Fine 網絡、時序差分網絡、對抗攻擊
CVPR2021OD
1. ACTION-Net: Multipath Excitation for Action Recognition
作者:Zhengwei Wang, Qi She, Aljosa Smolic
摘要:時空,channel-wise和運動模式是視頻動作識別的三種互補且至關重要的信息類型。傳統的2D CNN在計算上簡單,但無法捕捉時間關系。3D CNN可以實現良好的性能,但計算量很大。在這項工作中,我們通過設計可以嵌入到2D CNN中的通用有效模塊來解決這一難題。為此,我們提出了一個時空,通道和運動激發(ACTION)模塊,該模塊由三個路徑組成:時空激發(STE)路徑,通道激發(CE)路徑和運動激發(ME)路徑。STE路徑采用一個通道3D卷積來表征時空表示。CE路徑通過在時間方面明確地建模通道之間的相互依賴性,來自適應地重新校準通道方式的特征響應。ME路徑計算特征級別的時間差異,然后將其用于激發運動敏感通道。我們為2D CNN集成了ACTION模塊,以形成一個簡單而有效的ACTION-Net,這樣可以減少額外的計算成本。通過使用三個數據集(即Something-Something V2,Jester和EgoGesture)在三個主干網(即ResNet-50,MobileNet V2和BNInception)上始終優于2D CNN,證明了ACTION-Net的有效性。
代碼:
//github.com/V-Sense/ACTION-Net
網址:
2. BASAR:Black-box Attack on Skeletal Action Recognition
作者:Yunfeng Diao, Tianjia Shao, Yong-Liang Yang, Kun Zhou, He Wang
摘要:骨骼運動作為獨立的數據源或補充,在人類動作識別中起著至關重要的作用。最近,基于骨骼的動作識別器的魯棒性受到了質疑,當攻擊者可以全面了解識別器時,它們很容易受到對抗性攻擊。但是,在大多數情況下,此白盒要求過于嚴格,并且攻擊并未真正造成威脅。在本文中,我們證明了這種威脅在黑盒設置下也確實存在。為此,我們提出了第一種黑盒對抗攻擊方法BASAR。通過BASAR,我們證明對抗攻擊不僅是真正的威脅,而且可能是極具欺騙性的,因為流形上的對抗性樣本在骨骼運動中相當普遍,這與通常認為對抗性樣本僅在流形之外存在形成了鮮明的對比。通過詳盡的評估和比較,表明BASAR可以成功跨越模型,數據和攻擊模式進行攻擊。通過嚴格的感知研究,我們表明它可以實現有效而又不易察覺的攻擊。通過分析對不同動作識別器的攻擊,BASAR可以幫助確定其脆弱性的潛在原因,并提供有關哪些分類器可能更強大地抵抗攻擊的見解。
網址:
3. Coarse-Fine Networks for Temporal Activity Detection in Videos
作者:Kumara Kahatapitiya, Michael S. Ryoo
摘要:在本文中,我們介紹了Coarse-Fine網絡,這是一種雙流架構,該架構利用不同時間分辨率,來學習更好的長期運動視頻表示。傳統的視頻模型以一種(或幾種)固定的時間分辨率處理輸入,而沒有考慮任何動態幀選擇。但是,我們認為,處理輸入的多個時間分辨率并通過學習估計每個幀的重要性來動態地執行此操作可以極大地改善視頻表示,特別是在時序動作定位領域。為此,我們提出(1)“Grid Pool”,一個時間下采樣層,用于提取粗略特征;以及,(2)“多階段融合”,一種時空注意力機制,用于融合細粒度的上下文與粗略的特征。我們證明了本文的方法可以在包括Charades在內的公共數據集中勝過最新的動作檢測,并且顯著減少了計算和內存占用。
網址:
4. TDN: Temporal Difference Networks for Efficient Action Recognition
作者:Limin Wang, Zhan Tong, Bin Ji, Gangshan Wu
摘要:對于視頻中的行動識別仍然具有挑戰性。為緩解此問題,本文提出了一種新的視頻架構,稱為時間差分網絡(Temporal Difference Network, TDN),重點是捕獲多尺度時間信息以進行高效動作識別。我們TDN的核心是通過明確地利用時間差分操作設計有效的時間模塊(TDM),并系統地評估其對短期和長期運動建模的影響。為了在整個視頻中完全捕獲時間信息,我們的TDN是采用兩級差分建模范例建立的。具體而言,對于局部運動建模,連續幀上的時間差異用于為2D CNN提供更精細的運動模式,而對于全局運動建模,跨段的時間差異被并入以捕獲用于運動特征激勵的遠程結構。TDN提供了簡單而有原則的時間建模框架,可以用現有的CNN實例化,而所需的額外計算成本很小。我們的TDN在Something-Something V1和V2數據集上展示了最新的技術水平,可以與Kinetics-400數據集上的最佳性能相提并論。此外,我們進行了深入的消融研究并繪制了TDN的可視化結果,希望能對時差操作提供深入的分析。
代碼:
網址:
5. Understanding the Robustness of Skeleton-based Action Recognition under Adversarial Attack
作者:He Wang, Feixiang He, Zhexi Peng, Yong-Liang Yang, Tianjia Shao, Kun Zhou, David Hogg
摘要:動作識別已在許多應用中被大量采用,例如自動駕駛,監控等,其中,魯棒性是首要考慮的問題。在本文中,我們研究了最前沿的動作識別器對付對抗攻擊的魯棒性,到目前為止,這種魯棒性很少被研究。為此,我們提出了一種新的攻擊依賴3D骨骼運動的動作識別器的方法。我們的方法涉及創新的感知損失,可確保攻擊的感知力。實證研究表明,我們的方法在白盒和黑盒方案中均有效。在各種動作識別器和數據集上都證明了其通用性。它的多功能性在不同的攻擊策略中得到了體現。其欺騙性在廣泛的感知研究中得到了證明。我們的方法表明,對3D骨骼運動(一種時間序列數據)的對抗攻擊與傳統的對抗攻擊問題顯著不同。它的成功引起了對動作識別器魯棒性的嚴重關注,并為潛在的改進提供了見解。
網址:
【導讀】作為計算機視覺領域的三大國際頂會之一,IEEE國際計算機視覺與模式識別會議CVPR(IEEE Conference on Computer Vision and Pattern Recognition) 每年都會吸引全球領域眾多專業人士參與。CVPR 2021將在線舉行, 中國科學院院士、中科院自動化所智能感知與計算研究中心主任譚鐵牛將出任大會主席(General Chair,GC),上海科技大學的虞晶怡教授將任程序主席(Program Chair,PC)。今年的CVPR有效投稿多達7500篇,一共有1663篇論文被接收,接收率為27%。
為此,專知小編提前為大家整理了五篇CVPR 2021視覺目標檢測(Object Detection)相關論文,讓大家先睹為快——開放域目標檢測、實例蒸餾、多實例主動學習、自監督多目標檢測、少樣本目標檢測
1. Towards Open World Object Detection
作者:K J Joseph, Salman Khan, Fahad Shahbaz Khan, Vineeth N Balasubramanian
摘要:人類具有識別其環境中未知目標實例的本能。當相應的知識最終可用時,對這些未知實例的內在好奇心有助于學習它們。這促使我們提出了一個新穎的計算機視覺問題:“開放世界目標檢測”,該模型的任務是:1)在沒有明確監督的情況下將尚未引入該目標的目標識別為“未知”,以及2)當逐漸接收到相應的標簽時,逐步學習這些已識別的未知類別,而不會忘記先前學習的類別。我們提出了問題,引入了強大的評價準則并提供了一種新穎的解決方案,我們稱之為ORE:基于對比聚類和基于能量的未知標識的開放世界目標檢測器。我們的實驗評估和消去實驗研究分析了ORE在實現開放世界目標方面的功效。作為一個有趣的副產品,我們發現識別和表征未知實例有助于減少增量目標檢測設置中的混亂,在此方法中,我們無需任何方法上的努力即可獲得最先進的性能。我們希望我們的工作將吸引對這個新發現的但至關重要的研究方向的進一步研究。
圖片 代碼:
網址:
2. General Instance Distillation for Object Detection
作者:Xing Dai, Zeren Jiang, Zhao Wu, Yiping Bao, Zhicheng Wang, Si Liu, Erjin Zhou
摘要:近年來,知識蒸餾已被證明是模型壓縮的有效解決方案。這種方法可以使輕量級的學生模型獲得從繁瑣的教師模型中提取的知識。但是,先前的蒸餾檢測方法對于不同的檢測框架具有較弱的概括性,并且嚴重依賴ground truth (GT),而忽略了實例之間有價值的關系信息。因此,我們提出了一種新的基于區分性實例檢測任務的蒸餾方法,該方法不考慮GT區分出的正例或負例,這稱為一般實例蒸餾(GID)。我們的方法包含一個通用實例選擇模塊(GISM),以充分利用基于特征的,基于關系的和基于響應的知識進行蒸餾。廣泛的結果表明,在各種檢測框架下,學生模型可顯著提高AP的表現,甚至優于教師模型。具體來說,在Reconet上使用ResNet-50的RetinaNet在COCO數據集上具有GID的mAP達到了39.1%,比基線的36.2%超出了2.9%,甚至比具有38.1%的AP的基于ResNet-101的教師模型更好。
圖片 網址:
3. Multiple Instance Active Learning for Object Detection
作者:Tianning Yuan, Fang Wan, Mengying Fu, Jianzhuang Liu, Songcen Xu, Xiangyang Ji, Qixiang Ye
摘要:盡管主動學習(active learning)在圖像識別方面取得了長足的進步,但仍然缺乏為目標檢測任務設置的實例級主動學習方法。在本文中,我們提出了多實例主動學習(MIAL),通過觀察實例級別的不確定性來選擇信息量最大的圖像進行檢測器訓練。MIAL定義了實例不確定性學習模塊,該模塊利用在標記集上訓練的兩個對抗性實例分類器的差異來預測未標記集的實例不確定性。MIAL將未標記的圖像視為實例包,并將圖像中的特征錨視為實例,并通過以多實例學習(MIL)方式對實例重新加權來估計圖像不確定性。迭代實例不確定性學習和重新加權有助于抑制嘈雜的實例,以彌合實例不確定性和圖像級不確定性之間的差距。實驗證明,MIAL為實例級的主動學習設置了堅實的基準。在常用的目標檢測數據集上,MIAL具有明顯的優勢,優于最新方法,尤其是在標記集很小的情況下。
圖片 代碼:
4. There is More than Meets the Eye: Self-Supervised Multi-Object Detection and Tracking with Sound by Distilling Multimodal Knowledge
作者:Francisco Rivera Valverde, Juana Valeria Hurtado, Abhinav Valada
摘要:目標固有的聲音屬性可以提供有價值的線索,以學習豐富的表示形式來進行目標檢測和跟蹤。此外,可以通過僅監視環境中的聲音來利用視頻中視聽事件的共現來在圖像上定位目標。到目前為止,這僅在攝像機靜止且用于單個目標檢測的情況下才可行。此外,這些方法的魯棒性受到限制,因為它們主要依賴于高度易受光照和天氣變化影響的RGB圖像。在這項工作中,我們提出了一種新穎的自監督的MM-DistillNet框架,該框架由多名教師組成,這些教師利用RGB,深度和熱圖像等多種模式,同時利用互補線索和提煉知識到單個音頻學生網絡中。我們提出了新的MTA損失函數,該函數有助于以自監督的方式從多模態教師中提取信息。此外,我們為有聲讀物的學生提出了一種新穎的自監督的前置任務,使我們不必依賴勞動強度大的人工注釋。我們引入了一個大型多模態數據集,其中包含113,000多個時間同步的RGB,深度,熱和音頻模態幀。大量實驗表明,我們的方法優于最新方法,同時能夠在推理甚至移動過程中僅使用聲音來檢測多個目標。
圖片 網址:
5. Semantic Relation Reasoning for Shot-Stable Few-Shot Object Detection
作者:Chenchen Zhu, Fangyi Chen, Uzair Ahmed, Marios Savvides
摘要:由于真實世界數據固有的長尾分布,少樣本目標檢測是當前非常需要研究的問題。它的性能在很大程度上受到新的類別數據匱乏的影響。但是,無論數據可用性如何,新穎類和基類之間的語義關系都是恒定的。在這項工作中,我們研究將這種語義關系與視覺信息一起使用,并將顯式關系推理引入新穎目標檢測的學習中。具體來說,我們通過從大型語料庫中學到的語義嵌入來表示每個類的概念。檢測要求將目標的圖像表示投影到此嵌入空間中。我們發現如果僅僅使用啟發式知識圖譜作為原始嵌入是遠遠不夠的,提出使用一種動態關系圖來擴展原始嵌入向量。因此,我們提出的SRR-FSD的少樣本檢測器對于新目標的變化能夠保持穩定的性能。實驗表明,SRR-FSD可以在higher shots下獲得還不錯的結果,更重要地是,在較低的explicit shots和implicit shots的情況下,SRR-FSD的性能也要好得多。
圖片 網址:
【導讀】機器學習頂會 NeurIPS 2020, 是人工智能領域全球最具影響力的學術會議之一,因此在該會議上發表論文的研究者也會備受關注。據官方統計,今年NeurIPS 2020 共收到論文投稿 9454 篇,接收 1900 篇(其中 oral 論文 105 篇、spotlight 論文 280 篇),論文接收率為 20.1%。近期,所有paper list 放出,小編發現**對比學習(Contrastive Learning)**相關的投稿paper很多,這塊研究方向這幾年受到了學術界的廣泛關注,并且在CV、NLP等領域也應用頗多。
為此,這期小編為大家奉上NeurIPS 2020必讀的七篇對比學習相關論文——對抗自監督對比學習、局部對比學習、難樣本對比學習、多標簽對比預測編碼、自步對比學習、有監督對比學習
NeurIPS 2020 Accepted Papers://neurips.cc/Conferences/2020/AcceptedPapersInitial
1. Adversarial Self-Supervised Contrastive Learning
作者: Minseon Kim, Jihoon Tack, Sung Ju Hwang
摘要: 現有的對抗性學習方法大多使用類別標簽來生成導致錯誤預測的對抗性樣本,然后使用這些樣本來增強模型的訓練,以提高魯棒性。雖然最近的一些工作提出了利用未標記數據的半監督對抗性學習方法,但它們仍然需要類別標簽。然而,我們真的需要類別標簽來進行反向的深度神經網絡的健壯訓練嗎?本文提出了一種新的針對未標記數據的對抗性攻擊,使得該模型混淆了擾動數據樣本的實例級身份。此外,我們還提出了一種自監督對比學習(Contrastive Learning)框架來對抗性地訓練未標記數據的魯棒神經網絡,其目的是最大化數據樣本的隨機擴充與其實例對抗性擾動之間的相似度。我們在多個基準數據集上驗證了我們的方法-魯棒對比學習(RoCL),在這些數據集上,它獲得了與最新的有監督對抗性學習方法相當的魯棒準確率,并且顯著地提高了對黑盒和不可見類型攻擊的魯棒性。此外,與單獨使用自監督學習相比,RoCL進一步結合有監督對抗性損失進行聯合微調,獲得了更高的魯棒精度。值得注意的是,RoCL在穩健的遷移學習方面也顯示出令人印象深刻的結果。
網址:
2. Contrastive learning of global and local features for medical image segmentation with limited annotations
作者: Krishna Chaitanya, Ertunc Erdil, Neerav Karani, Ender Konukoglu
摘要: 有監督深度學習成功的一個關鍵要求是一個大的標記數據集——這是醫學圖像分析中難以滿足的條件。自監督學習(SSL)可以在這方面提供幫助,因為它提供了一種用未標記的數據預訓練神經網絡的策略,然后用有限的樣本標注對下游任務進行微調。對比學習是SSL的一種特殊變體,是一種學習圖像級表征的強大技術。在這項工作中,我們提出了一種策略,通過利用領域內一些特點,在標注有限的半監督場景下來擴展volumetric 醫療圖像分割的對比學習框架。具體地,我們提出了:(1)新穎的對比策略,它利用volumetric 醫學圖像之間的結構相似性(領域特定線索);(2)對比損失的局部信息來學習對每個像素分割有用的局部區域的獨特表示(問題特定線索)。我們在三個磁共振成像(MRI)數據集上進行了廣泛的評估。在有限的標注環境下,與其他的自監督和半監督學習技術相比,本文提出的方法有了很大的改進。當與簡單的數據增強技術相結合時,該方法僅使用兩個標記的MRI體積用于訓練,達到基準性能的8%以內,相當于用于訓練基準的訓練數據ACDC的4%。
網址:
3. LoCo: Local Contrastive Representation Learning
作者: Yuwen Xiong, Mengye Ren, Raquel Urtasun
摘要: 深度神經網絡通常執行端到端反向傳播來學習權重,該過程在跨層的權重更新步驟中創建同步約束(synchronization constraints),并且這種約束在生物學上是不可信的。無監督對比表示學習的最新進展指出一個問題,即學習算法是否也可以是局部的,即下層的更新不直接依賴于上層的計算。雖然Greedy InfoMax分別學習每個塊的局部目標,但我們發現,在最新的無監督對比學習算法中,可能是由于貪婪的目標以及梯度隔離,會一直損害readout的準確性。在這項工作中,我們發現,通過重疊局部塊堆疊在一起,我們有效地增加了解碼器的深度,并允許較高的塊隱式地向較低的塊發送反饋。這種簡單的設計首次縮小了局部學習算法和端到端對比學習算法之間的性能差距。除了標準的ImageNet實驗,我們還展示了復雜下游任務的結果,例如直接使用readout功能進行對象檢測和實例分割。
網址:
4. Hard Negative Mixing for Contrastive Learning
作者: Yannis Kalantidis, Mert Bulent Sariyildiz, Noe Pion, Philippe Weinzaepfel, Diane Larlus
摘要: 對比學習已成為計算機視覺中自監督學習方法的重要組成部分。通過學習將同一圖像的兩個增強版本相互靠近地圖像嵌入,并將不同圖像的嵌入分開,可以訓練高度可遷移的視覺表示。最近的研究表明,大量的數據增強和大量的負樣本集對于學習這樣的表征都是至關重要的。同時,無論是在圖像層面還是在特征層面,數據混合策略都通過合成新的示例來改進監督和半監督學習,迫使網絡學習更健壯的特征。在這篇文章中,我們認為對比學習的一個重要方面,即hard negatives的影響,到目前為止被忽視了。為了獲得更有意義的負樣本,目前最流行的對比自監督學習方法要么大幅增加batch sizes大小,要么保留非常大的內存庫;然而,增加內存需求會導致性能回報遞減。因此,我們從更深入地研究一個表現最好的框架開始,并展示出證據,為了促進更好、更快的學習,需要更難的難樣本(harder negatives)。基于這些觀察結果,并受到數據混合策略成功的激勵,我們提出了特征級別的難例混合策略,該策略可以用最小的計算開銷在運行中進行計算。我們在線性分類、目標檢測和實例分割方面對我們的方法進行了詳盡的改進,并表明使用我們的難例混合過程提高了通過最先進的自監督學習方法學習的視覺表示的質量。
代碼:
網址:
5. Multi-label Contrastive Predictive Coding
作者: Jiaming Song, Stefano Ermon
摘要: 變量互信息(mutual information, MI)估計器廣泛應用于對比預測編碼(CPC)等無監督表示學習方法中。MI的下界可以從多類分類問題中得到,其中critic試圖區分從潛在聯合分布中提取的正樣本和從合適的建議分布中提取的(m?1)個負樣本。使用這種方法,MI估計值超過log m,因此有效下界可能會嚴重低估,除非m非常大。為了克服這一局限性,我們引入了一種新的基于多標簽分類問題的估計器,其中critic需要同時聯合識別多個正樣本。我們證明了在使用相同數量的負樣本的情況下,多標簽CPC能夠超過log m界,同時仍然是互信息的有效下界。我們證明了所提出的方法能夠帶來更好的互信息估計,在無監督表示學習中獲得經驗上的改進,并且在13個任務中超過了最先進的10個知識提取方法。
網址:
6. Self-paced Contrastive Learning with Hybrid Memory for Domain Adaptive Object Re-ID
作者: Yixiao Ge, Feng Zhu, Dapeng Chen, Rui Zhao, Hongsheng Li
摘要: 域自適應目標Re-ID旨在將學習到的知識從已標記的源域轉移到未標記的目標域,以解決開放類(open-class)的重識別問題。雖然現有的基于偽標簽的方法已經取得了很大的成功,但是由于域的鴻溝和聚類性能的不理想,它們并沒有充分利用所有有價值的信息。為了解決這些問題,我們提出了一種新的具有混合記憶的自適應對比學習框架。混合存儲器動態地生成用于學習特征表示的源域類級、目標域簇級和未聚類實例級監督信號。與傳統的對比學習策略不同,該框架聯合區分了源域類、目標域簇和未聚類實例。最重要的是,所提出的自適應方法逐漸產生更可靠的簇來提煉混合記憶和學習目標,這被證明是我們方法的關鍵。我們的方法在目標 Re-ID的多域適配任務上的性能優于現有技術,甚至在源域上不需要任何額外的標注就能提高性能。在Market1501和MSMT17數據上,我們的無監督目標Re-ID的通用版本分別比最先進的算法高出16.7%和7.9%。
代碼:
網址:
7. Supervised Contrastive Learning
作者: Prannay Khosla, Piotr Teterwak, Chen Wang, Aaron Sarna, Yonglong Tian, Phillip Isola, Aaron Maschinot, Ce Liu, Dilip Krishnan
摘要: 交叉熵是圖像分類模型監督訓練中應用最廣泛的損失函數。在本文中,我們提出了一種新的訓練方法,該方法在不同的體系結構和數據增強的監督學習任務中始終優于交叉熵。我們修正了批量對比損失,它最近被證明在自監督環境下學習強大的表示是非常有效的。因此,我們能夠比交叉熵更有效地利用標簽信息。屬于同一類的點簇在嵌入空間中被拉在一起,同時推開來自不同類的樣本簇。除此之外,我們還利用了大的batch sizes和標準化嵌入等關鍵因素,這些因素已被證明有利于自監督學習。在ResNet-50和ResNet-200上,我們的性能都比交叉熵高出1%以上,在使用 AutoAugment數據增強的方法中創造了78.8%的新技術水平。在校準和準確度方面,這一損失也顯示出在標準基準上對自然損壞的穩健性有明顯的好處。與交叉熵相比,我們的監督對比損失對諸如優化器或數據增強等超參數設置更穩定。
網址: