亚洲男人的天堂2018av,欧美草比,久久久久久免费视频精选,国色天香在线看免费,久久久久亚洲av成人片仓井空

【導讀】作為計算機視覺領域的三大國際頂會之一,ICCV 每年都會吸引全球領域眾多專業人士參與。不久前,ICCV2021接收結果已經公布,本次ICCV共計 6236 篇有效提交論文,其中有 1617 篇論文被接收,接收率為25.9%。

為此,專知小編為大家整理了五篇 ICCV 2021 語義分割(Semantic Segmentation)相關研究和應用,這塊這幾年一直比較受關注——弱監督語義分割、半監督語義分割、無監督語義分割、少樣本語義分割、實例分割

CVPR2021CL、CVPR2021DA、CVPR2021IVC、CVPR2021PID、CVPR2021IC、CVPR2021VU、CVPR2021OD、CVPR2021OT、CVPR2021AR

1. Leveraging Auxiliary Tasks with Affinity Learning for Weakly Supervised Semantic Segmentation

作者:Lian Xu, Wanli Ouyang, Mohammed Bennamoun, Farid Boussaid, Ferdous Sohel, Dan Xu

摘要:在缺乏大量標記數據的情況下,語義分割是一項具有挑戰性的任務。僅依靠具有圖像級標簽的類激活圖 (CAM) 作為語義分割的監督信息是遠遠不夠的。因此,先前的工作用預訓練的模型來生成粗粒度的顯著圖(Saliency Map),以指導偽分割標簽的生成。然而,常用的離線啟發式生成過程不能充分利用這些粗顯著圖的優點。受顯著的任務間相關性的啟發,本文提出了一種新的弱監督多任務框架,稱為AuxSegNet,利用顯著性檢測和多標簽圖像分類作為輔助任務,僅使用圖像級真實標簽來改進語義分割的主要任務。受它們相似的結構化語義的啟發,本文還提出從顯著性和分割表示中學習跨任務全局像素級親和圖。學習到的跨任務親和性可用于改進顯著性預測,并傳播 CAM 映射,從而為這兩個任務提供改進的偽標簽。偽標簽更新和跨任務親和學習之間的相互促進,使得分割性能得到迭代改進。大量實驗證明了本文所提出的輔助學習網絡結構和跨任務親和學習方法的有效性。該方法在具有挑戰性的PASCAL VOC 2012和MS COCO基準測試中達到了最先進的弱監督分割性能。

論文: //arxiv.org/abs/2107.11787

代碼:

2. Re-distributing Biased Pseudo Labels for Semi-supervised Semantic Segmentation: A Baseline Investigation

作者:Ruifei He, Jihan Yang, Xiaojuan Qi

摘要:雖然自訓練具有先進的半監督語義分割,但它嚴重受到現實世界語義分割數據集上的長尾類分布的影響,導致偽標記數據偏向于多數類。本文提出了一種簡單而有效的分布對齊和隨機采樣 (DARS) 方法,來生成無偏偽標簽,來與標記數據中估計的真實類別分布匹配。此外,本文還提供了漸進式數據增強和標記策略,以促進使用偽標記數據進行模型訓練。Cityscapes 和 PASCAL VOC 2012 數據集的實驗證明了本文方法的有效性。盡管很簡單,但與最先進的方法相比,本文的方法表現不錯。

論文:

代碼:

3. Labels4Free: Unsupervised Segmentation using StyleGAN

作者:Rameen Abdal, Peihao Zhu, Niloy Mitra, Peter Wonka

摘要:

本文為StyleGAN生成的目標對象提出了一個無監督的分割框架。本文基于兩個主要觀察結果。首先,StyleGAN生成的特征包含有價值的信息,可用于訓練分割網絡。其次,前景和背景通常可以被視為在很大程度上是獨立的,并以不同的方式合成。對于本文的解決方案,本文提出使用分割分支來增強StyleGAN2生成器架構,并將生成器拆分為前景和背景網絡。這使本文能夠以無監督的方式為前景對象生成軟分割掩碼。在多個對象類別上,本文報告了與最先進的監督分割網絡的可比結果,而與最佳的無監督分割方法相比,本文在定性和定量指標上都表現出了明顯的改進。

論文:

4. Mining Latent Classes for Few-shot Segmentation

作者:Lihe Yang, Wei Zhuo, Lei Qi, Yinghuan Shi, Yang Gao

摘要:少樣本分割(FSS)旨在僅在給定幾個帶注釋的樣本的情況下分割不可見的類。現有方法存在特征破壞的問題,即在訓練階段將潛在的新類作為背景。本文的方法旨在緩解這個問題并增強潛在新類的特征嵌入。在本文的工作中,本文提出了一種新穎的聯合訓練框架。基于對支持-查詢對的常規情景訓練,本文添加了一個額外的挖掘分支,該分支通過可轉移的子集群利用潛在的新類,并在背景和前景類別上采用新校正技術,以得到更穩定的原型。除此之外,本文的可轉移子集群能夠利用額外的未標記數據來進一步增強特征。在兩個 FSS 基準測試中的大量實驗表明,本文的方法在PASCAL-5i上mIOU提升3.7%,在COCO-20i上的mIOU提升7.0%,大幅優于以前的最先進技術,參數減少了74%,推理速度提升2.5 倍。

論文:

5. Rank & Sort Loss for Object Detection and Instance Segmentation

作者:Kemal Oksuz, Baris Can Cam, Emre Akbas, Sinan Kalkan

摘要:本文提出Rank & Sort (RS) Loss,作為基于排序的損失函數來訓練深度目標檢測和實例分割方法(即視覺檢測器)。RS Loss監督分類器,分類器是這些方法的一個子網絡,來將每個正例排在所有負例之上,并根據(wrt.)它們的連續定位質量(例如 Intersection-over-Union - IoU)在它們之間對正例進行排序。為了解決排序和排序的不可區分性,本文將錯誤驅動更新與反向傳播的結合重新制定為Identity Update,這使本文能夠對正樣本中的新排序錯誤進行建模。使用 RS Loss,本文顯著地簡化了訓練:(i)由于本文的排序目標,分類器優先考慮正例,而無需額外的輔助頭(例如,centerness、IoU、mask-IoU),(ii)由于基于排序的性質,RS Loss對類不平衡具有魯棒性,因此,不需要采樣啟發式(iii)本文使用無微調任務平衡系數來解決視覺檢測器的多任務性質。使用 RS Loss,本文僅通過調整學習率來訓練七個不同的視覺檢測器,并表明它始終優于基線:例如本文的 RS Loss將 (i) 在 COCO 數據集上,Faster R-CNN 上box AP提高了3,而 aLRP Loss(基于排名的基線)提高了2,(ii)LVIS 數據集上,具有重復因子采樣(RFS)的 Mask R-CNN 上mask AP提高了 3.5(稀有類約為 7);并且也優于所有同行。

論文:

代碼:

付費5元查看完整內容

相關內容

【導讀】作為計算機視覺領域的三大國際頂會之一,IEEE國際計算機視覺與模式識別會議CVPR(IEEE Conference on Computer Vision and Pattern Recognition) 每年都會吸引全球領域眾多專業人士參與。CVPR 2021已經在線舉行, 今年的CVPR有效投稿多達7500篇,一共有1663篇論文被接收,接收率為27%。

CVPR2021 Paper List: //openaccess.thecvf.com/CVPR2021?day=all

為此,專知小編為大家整理了五篇CVPR 2021零樣本(Zero-Shot Learning)相關研究和應用,這塊這幾年一直比較受關注——零樣本實例分割、開放域組合零樣本學習、零樣本對抗量化、廣義零樣本學習

CVPR2021CL、CVPR2021DA、CVPR2021IVC、CVPR2021PID、CVPR2021IC、CVPR2021VU、CVPR2021OD、CVPR2021OT、CVPR2021AR

1. Zero-Shot Instance Segmentation

作者:Ye Zheng, Jiahong Wu, Yongqiang Qin, Faen Zhang, Li Cui

摘要:通過利用豐富的標記數據,深度學習顯著提高了實例分割的精度。但是,在醫療、制造業等很多領域,收集足夠的數據是非常困難的,標記這些數據需要很高的專業技能。本文遵循這一動機并提出了一個名為零樣本實例分割(ZSI)的新任務集。在 ZSI 的訓練階段,模型使用可見數據進行訓練,而在測試階段,它用于分割所有可見和不可見的實例。本文首先制定了 ZSI 任務并提出了一種應對挑戰的方法,它由零樣本檢測器、語義掩碼、背景感知 RPN 和同步背景策略組成。本文提出了一個基于 MS-COCO 數據集的零樣本實例分割的新基準。該基準測試中大量的實驗結果表明,本文的方法不僅在零樣本目標檢測任務中超越了最先進的結果,而且在 ZSI 上也取得了良好的性能。本文的方法將作為一個可靠的基線,并促進零樣本實例分割的未來研究。

論文:

代碼:

2. Open World Compositional Zero-Shot Learning

作者:Massimiliano Mancini, Muhammad Ferjad Naeem, Yongqin Xian, Zeynep Akata

摘要:組合零樣本學習 (CZSL) 需要識別訓練期間看不見的狀態對象組合。在這項工作中,本文不是假設關于看不見的組合的先驗知識,而是在開放世界環境中操作,其中搜索空間包括大量未見過的組合,其中一些可能是不可行的。在這種情況下,本文從視覺特征和組合嵌入之間的余弦相似度開始。在估計每個組合的可行性分數后,本文使用這些分數直接屏蔽輸出空間,或作為訓練期間視覺特征和組合嵌入之間余弦相似度的邊界。本文在兩個標準 CZSL 基準上的實驗表明,當應用于開放世界設置時,所有方法都會遭受嚴重的性能下降。雖然本文的簡單 CZSL 模型在封閉世界場景中實現了最先進的性能,但本文估計的可行性分數提高了本文方法在開放世界環境中的性能,明顯優于之前的最先進的方法。

論文:

代碼:

3. Learning Graph Embeddings for Compositional Zero-shot Learning

作者:Muhammad Ferjad Naeem, Yongqin Xian, Federico Tombari, Zeynep Akata

摘要: 在組合零樣本學習中,目標是識別訓練集中觀察到的視覺原始狀態(例如老、可愛)和對象(例如汽車、狗)的看不見的組合(例如老狗)。因為相同的狀態可以改變狗的視覺外觀與汽車的就截然不同。本文提出了一種稱為組合圖嵌入 (CGE) 的新型圖公式,它以端到端的方式學習圖像特征、組合分類器和視覺基元的潛在表示,來試著解決這一問題。本文方法的關鍵是利用圖結構中狀態、對象及其組合之間的依賴關系,以強制相關知識從可見組合轉移到不可見組合。通過學習對概念之間的語義進行編碼的聯合兼容性,本文的模型允許在不依賴 WordNet 等外部知識庫的情況下,將看不見的組合泛化。本文表明,在具有挑戰性的廣義組合零樣本設置中,本文的 CGE 顯著優于 MIT-States 和 UT-Zappos 的最新技術。本文還基于最近的 GQA 數據集為此任務提出了一個新的基準。

論文:

代碼:

4. Zero-shot Adversarial Quantization

作者:Yuang Liu, Wei Zhang, Jun Wang

摘要:模型量化是壓縮深度神經網絡和加速推理的一種很有效的方法,使其可以部署在移動和邊緣設備上。為了保持全精度模型的高性能,大多數現有的量化方法都通過假設訓練數據集是可訪問的,來微調量化模型。然而,由于數據隱私和安全問題,這種假設在實際情況中有時并不滿足,從而使這些量化方法不適用。為了在不訪問訓練數據的情況下實現零短模型量化,少數量化方法采用訓練后量化,要么批量歸一化統計引導數據生成進行微調。然而,兩者都不可避免地存在性能低下的問題,因為前者過于經驗化,缺乏對超低精度量化的訓練支持,而后者不能完全還原原始數據的特性,對于多樣化的數據往往效率低下一代。為了解決上述問題,本文提出了一個零樣本對抗量化(ZAQ)框架,促進了有效的差異估計和從全精度模型到量化模型的知識轉移。這是通過一種新穎的兩級差異建模來實現的,以驅動生成器合成信息豐富且多樣化的數據示例,從而以對抗性學習方式優化量化模型。本文對三個基本視覺任務進行了廣泛的實驗,證明了 ZAQ 在強零樣本基線上的優越性,并驗證了其主要組件的有效性。

論文:

代碼:

5. Light Field Super-Resolution with Zero-Shot Learning

作者:Zhen Cheng, Zhiwei Xiong, Chang Chen, Dong Liu, Zheng-Jun Zha

摘要:深度學習為光場超分辨率 (SR) 研究提供了一條新途徑。然而,由不同的光場采集條件所引起的域間隙是其在實際應用中亟需解決的問題。為了有效緩解這個問題,本文提出了一個用于光場SR的零樣本學習框架,該框架學習了一種映射,以使用僅從輸入低分辨率光場本身中提取的示例,來超分辨率參考視圖。然而,鑒于零樣本設置下的訓練數據非常有限,本文觀察到很難成功訓練端到端網絡。相反,本文將這個具有挑戰性的任務分為三個子任務,即預上采樣、視圖對齊和多視圖聚合,然后用簡單而高效的CNN分別克服它們。此外,所提出的框架可以很容易地擴展到微調源數據集上的預訓練模型,以更好地適應目標輸入,這進一步提高了野外光場SR的性能。實驗結果驗證,本文的方法不僅優于經典的非基于學習的方法,而且當域差距很大時,與最先進的基于深度學習的方法相比,對看不見的光場的泛化能力也更好。

論文:

6. Contrastive Embedding for Generalized Zero-Shot Learning

作者:Zongyan Han, Zhenyong Fu, Shuo Chen, Jian Yang

摘要:廣義零樣本學習(GZSL)旨在從可見類和不可見類中識別對象,當僅提供來自可見類的標記示例時。最近的特征生成方法學習了一個生成模型,該模型可以合成看不見的類的缺失視覺特征,以緩解 GZSL 中的數據不平衡問題。然而,原始的視覺特征空間對于 GZSL 分類來說是次優的,因為它缺乏判別信息。為了解決這個問題,本文建議將生成模型與嵌入模型相結合,產生一個混合 GZSL 框架。混合 GZSL 方法將生成模型生成的真實樣本和合成樣本都映射到嵌入空間中,在其中執行最終的 GZSL 分類。具體來說,本文為混合 GZSL 框架提出了對比嵌入 (CE)。所提出的對比嵌入不僅可以利用類監督,還可以利用實例監督,后者通常被現有的 GZSL 研究忽略。本文在五個基準數據集上評估了本文提出的具有對比嵌入的混合 GZSL 框架,名為 CE-GZSL。結果表明,本文的 CEGZSL 方法可以在三個數據集上顯著優于最先進的方法。

論文:

代碼:

付費5元查看完整內容

【導讀】作為計算機視覺領域的三大國際頂會之一,IEEE國際計算機視覺與模式識別會議CVPR(IEEE Conference on Computer Vision and Pattern Recognition) 每年都會吸引全球領域眾多專業人士參與。CVPR 2021將在線舉行, 中國科學院院士、中科院自動化所智能感知與計算研究中心主任譚鐵牛將出任大會主席(General Chair,GC),上海科技大學的虞晶怡教授將任程序主席(Program Chair,PC)。今年的CVPR有效投稿多達7500篇,一共有1663篇論文被接收,接收率為27%。

為此,專知小編提前為大家整理了五篇CVPR 2021對比學習(Contrastive Learning)在計算機視覺上的應用,這塊這幾年一直比較受關注,特別是具體領域應用等等?大家先睹為快——圖像去霧、少樣本學習、多模態視頻學習、密集CL、對抗CL

CVPR2021DA、CVPR2021IVC、CVPR2021PID、CVPR2021IC、CVPR2021VU、CVPR2021OD、CVPR2021OT、CVPR2021AR

1. Contrastive Learning for Compact Single Image Dehazing

作者:Haiyan Wu, Yanyun Qu, Shaohui Lin, Jian Zhou, Ruizhi Qiao, Zhizhong Zhang, Yuan Xie , Lizhuang Ma

摘要:由于嚴重的信息退化,單圖像去霧是一個具有挑戰性的問題。然而,現有的基于深度學習的除霧方法僅采用清晰的圖像作為正樣本來指導除霧網絡的訓練,而未利用負樣本信息。而且,它們中的大多數集中在通過增加深度和寬度來增強除霧網絡,從而導致大量的計算和內存需求。在本文中,我們提出了一種基于對比學習的新穎對比正則化(CR)技術,以利用模糊圖像和清晰圖像的信息分別作為負樣本和正樣本。CR確保在表示空間中將還原后的圖像拉到更接近清晰圖像,并推到遠離朦朧圖像的位置。此外,考慮到性能和內存存儲之間的權衡,我們基于類自動編碼器(AE)框架開發了一個緊湊的除霧網絡。它涉及自適應混合操作和動態特征增強模塊,分別受益于自適應地保存信息流和擴展接收域以提高網絡的轉換能力。我們將具有自動編碼器和對比正則化功能的除霧網絡稱為AECR-Net。在合成和真實數據集上進行的廣泛實驗表明,我們的AECR-Net超越了最新技術。

論文: //arxiv.org/abs/2104.09367

代碼:

2. Fine-grained Angular Contrastive Learning with Coarse Labels

作者:Guy Bukchin, Eli Schwartz, Kate Saenko, Ori Shahar, Rogerio Feris, Raja Giryes, Leonid Karlinsky

摘要:Few-shot學習方法會提供經過優化的預訓練技術,以便使用一個或幾個示例輕松地將模型適應新類(在訓練過程中看不見)。這種對不可見類別的適應性對于許多實際應用尤為重要,在這些實際應用中,預先訓練的標簽空間無法保持固定以有效使用,并且模型需要“特殊化”以支持動態的新類別。粗粒度到細粒度(Coarse-to-Fine)Few-Shot(C2FS)是一種特別有趣的場景,基本上被Few-Shot文獻所忽略,其中訓練(train)類(例如,動物)的粒度比目標(test)類的“粒度”粗得多(例如品種)。C2FS的一個非常實際的示例是目標類是訓練類的子類。直觀地講,這是特別具有挑戰性的,因為包括regular and few-shot的有監督的預訓練往往會學會忽略類內差異性,這對于分離子類至關重要。在本文中,我們介紹了一種新穎的“角度歸一化(Angular normalization)”模塊,該模塊可以有效地結合監督和自監督的對比預訓練來解決C2FS任務,從而證明了在多個基準和數據集的廣泛研究中所取得的顯著成果。我們希望這項工作將有助于為有關C2FS分類這一新的,具有挑戰性且非常實用的主題的未來研究鋪平道路。

論文:

3. Distilling Audio-Visual Knowledge by Compositional Contrastive Learning

作者:Yanbei Chen, Yongqin Xian, A.Sophia Koepke, Ying Shan, Zeynep Akata

摘要:與從單模態學習相比,獲得多模態線索,(例如,視覺和音頻)可以更快地完成某些認知任務。在這項工作中,我們建議在跨模態中傳輸知識,即使這些數據模態在語義上可能不相關。與直接對齊不同模態的表示不同,我們組合音頻,圖像和視頻的跨模態表示,以發現更豐富的多模態知識。我們的主要思想是學習一種組合嵌入表示,這種嵌入可以縮小跨模態語義鴻溝并捕獲與任務相關的語義,這有助于通過組合對比學習將跨模態的表示整合在一起。我們在三個視頻數據集(UCF101,ActivityNet和VG-GSound)上建立了一個新的,全面的多模態蒸餾基準。此外,我們證明了我們的模型在傳輸視聽知識以改善視頻表示學習方面,明顯優于各種現有的知識蒸餾方法。

論文:

代碼:

4. Dense Contrastive Learning for Self-Supervised Visual Pre-Training

作者:Xinlong Wang, Rufeng Zhang, Chunhua Shen, Tao Kong, Lei Li

摘要:迄今為止,大多數現有的自監督學習方法都是針對圖像分類進行設計和優化的。由于圖像級預測和像素級預測之間的差異,這些預訓練的模型對于密集的預測任務可能不是最佳的。為了解決這個問題,我們旨在設計一種有效,密集的自監督學習方法,通過考慮局部特征之間的對應關系,直接在像素(或局部特征)級別上起作用。我們提出了密集的對比學習(DenseCL),該算法通過在輸入圖像的兩個視圖之間的像素級別上優化成對的對比(不相似)損失來實現自監督學習。

與基準方法MoCo-v2相比,我們的方法引入的計算開銷(僅慢了1%)可忽略不計,但是在轉移到下游密集的預測任務(包括目標檢測,語義分割和實例分割)時,始終表現出優異的性能;并大大領先于最新技術。具體而言,在強大的MoCo-v2基線上,我們的方法在PASCAL VOC數據集對象檢測任務上的AP顯著提升2.0%,COCO數據集對象檢測任務上的AP顯著提升1.1%,COCO數據集實例分割任務上的AP提升0.9%,PASCAL VOC數據集語義分割任務上的AP提升3.0% Cityscapes數據集語義分割任務上mIoU顯著提升1.8%。

論文:

代碼:

5. AdCo: Adversarial Contrast for Efficient Learning of Unsupervised Representations from Self-Trained Negative Adversaries

作者:Qianjiang Hu, Xiao Wang, Wei Hu, Guo-Jun Qi

摘要:對比學習依賴于構建一個負樣本集合,當負樣本的表示是經過自訓練時,負樣本很難與正樣本的查詢(query)區分開來。現有的對比學習方法要么在小批量樣本中含有負樣本隊列,而只有一小部分在迭代中被更新,要么只使用當前小批量樣本中的其他樣本作為負樣本。他們無法通過更新整個隊列來密切跟蹤迭代過程中學習到的表示的變化,也無法從使用過的小批量樣本中剔除有用信息。或者,我們提出直接學習一組負樣本來對抗自我訓練的表示。兩個角色,表示網絡和負樣本對抗,交替更新來獲取最具挑戰性的負樣本,以區分正樣本查詢的表示。我們進一步表明,通過最大化對抗性對比損失,負樣本被更新為正樣本查詢的加權組合,從而他們能夠隨著時間密切跟蹤表示的變化。實驗結果表明,本文所提出的對抗對比模型(AdCo)不僅具有出色的性能(在ImageNet上進行線性評估,200個epoch時 top-1準確度為73.2%,800個epoch時為75.7%),而且可以在更短的GPU時間和更少的epoch條件下進行更有效的預訓練。

論文:

代碼:

付費5元查看完整內容

【導讀】作為計算機視覺領域的三大國際頂會之一,IEEE國際計算機視覺與模式識別會議CVPR(IEEE Conference on Computer Vision and Pattern Recognition) 每年都會吸引全球領域眾多專業人士參與。CVPR 2021將在線舉行, 中國科學院院士、中科院自動化所智能感知與計算研究中心主任譚鐵牛將出任大會主席(General Chair,GC),上海科技大學的虞晶怡教授將任程序主席(Program Chair,PC)。今年的CVPR有效投稿多達7500篇,一共有1663篇論文被接收,接收率為27%。

為此,專知小編提前為大家整理了五篇CVPR 2021圖像/視頻描述生成(Image/Video Captioning)相關論文,這塊這幾年一直比較受關注,但是競爭也比較激烈,可以看看最新是如何創新,如何開展的?大家先睹為快——RGB-D描述生成、視頻的文本生成、可控圖像描述生成、圖像描述預訓練模型、開放域視頻描述生成

CVPR2021PID、CVPR2021IC、CVPR2021VU、CVPR2021OD、CVPR2021OT、CVPR2021AR

1. Scan2Cap: Context-aware Dense Captioning in RGB-D Scans

作者:Dave Zhenyu Chen, Ali Gholami, Matthias Nie?ner, Angel X. Chang

摘要:在commodity RGB-D 傳感器的3D掃描中,我們介紹了密集描述生成(dense captioning)的任務。作為輸入,我們假設3D場景的點云;預期的輸出是邊界框以及基礎目標的描述。為了解決3D目標檢測和描述生成問題,我們提出了一種Scan2Cap(一種端到端訓練有素的方法),以檢測輸入場景中的目標并以自然語言描述它們。在引用局部上下文的相關組件時,我們使用一種注意力生成機制來生成描述性標記。為了在生成的標題中反映目標關系(即相對空間關系),我們使用信息傳遞圖模塊來促進學習目標關系特征。我們的方法可以有效地定位和描述來自ScanReferdataset的場景中的3D目標,其性能大大優于2D基線方法(27.61%[email protected]改進)。

圖片 網址:

2. VX2TEXT: End-to-End Learning of Video-Based Text Generation From Multimodal Inputs

作者:Xudong Lin, Gedas Bertasius, Jue Wang, Shih-Fu Chang, Devi Parikh, Lorenzo Torresani

摘要:我們介紹了VX2TEXT,這是一個用于從多模態輸入生成文本的框架,該輸入由視頻加上文本,語音或音頻組成。為了利用已被證明在建模語言方面有效的transformer網絡,本文首先將每個模態由可學習的tokenizer生成器轉換為一組語言嵌入。這使我們的方法可以在語言空間中執行多模態融合,從而消除了對臨時跨模態融合模塊的需求。為了解決連續輸入(例如:視頻或音頻)上tokenization的不可區分性,我們使用了一種relaxation 方案(relaxation scheme),該方案可進行端到端訓練。此外,與以前的僅編碼器模型不同,我們的網絡包括自回歸解碼器,可從語言編碼器融合的多模態嵌入中生成開放式文本。這使我們的方法完全具有生成性,并使其可直接應用于不同的“視頻+ x到文本”問題,而無需為每個任務設計專門的網絡負責人。本文所提出的框架不僅在概念上簡單,而且非常有效:實驗表明,我們基于單一體系結構的方法在字幕,問答和視聽這三個基于視頻的文本生成任務上均優于最新技術場景感知對話框架。

網址:

3. Human-like Controllable Image Captioning with Verb-specific Semantic Roles

作者:Long Chen, Zhihong Jiang, Jun Xiao, Wei Liu

摘要:過去幾年來,可控圖像字幕(CIC)(根據指定的控制信號生成圖像描述)受到了前所未有的關注。為了模仿人類控制字幕生成的能力,當前的CIC研究僅關注與客觀屬性(例如:感興趣的內容或描述性模式)有關的控制信號。但是,我們認為幾乎所有現有的目標控制信號都忽略了理想控制信號的兩個必不可少的特征:1)事件兼容:在單個句子中提及的所有視覺內容應與所描述的活動兼容。2)適合樣本:控制信號應適合于特定的圖像樣本。為此,我們為CIC提出了一個新的控制信號:動詞特定的語義角色(VSR)。VSR由一個動詞和一些語義角色組成,它們表示目標活動以及此活動中涉及的實體的角色。給定指定的VSR,我們首先訓練一個語義角色標記(GSRL)模型,以識別每個角色的所有實體。然后,我們提出了一個語義結構計劃器(SSP)來學習類似人的描述性語義結構。最后,我們使用角色轉換描述模型來生成描述。大量的實驗和消融表明,在兩個具有挑戰性的CIC基準測試中,我們的框架比幾個強大的基準可以實現更好的可控性。此外,我們可以輕松生成多層次的不同描述。

代碼:

網址:

4. VirTex: Learning Visual Representations from Textual Annotations

作者:Karan Desai, Justin Johnson

摘要:實際上,許多解決視覺任務的方法是從預訓練的視覺表示開始,通常是通過ImageNet的監督訓練來學習的。最近的方法已經探索了無監督的預訓練,以擴展到大量未標記的圖像。相反,我們旨在從更少的圖像中學習高質量的視覺表示。為此,我們重新審視了有監督的預訓練,并尋求基于數據的有效方法來替代基于分類的預訓練。我們提出了VirTex——這是一種使用語義密集描述來學習視覺表示的預訓練方法。我們從頭開始在COCO Captions上訓練卷積網絡,并將其轉移到下游識別任務,包括圖像分類,目標檢測和實例分割。在所有任務上,VirTex所產生的特征都可以與ImageNet上達到或超過的特征(在監督或無監督的情況下)相提并論,并且其所使用的圖像最多減少十倍。

網址:

5. Open-book Video Captioning with Retrieve-Copy-Generate Network

作者:Ziqi Zhang, Zhongang Qi, Chunfeng Yuan, Ying Shan, Bing Li, Ying Deng, Weiming Hu

摘要:在本文中,我們將傳統的視頻描述任務轉換為一種新的范例,即``Open-book視頻描述'',它可以在與視頻內容相關的句子的提示下生成自然語言,而不僅限于視頻本身。為了解決Open-book的視頻描述問題,我們提出了一種新穎的“檢索-復制-生成”網絡,該網絡中構建了可插入的視頻到文本檢索器,以有效地從訓練語料庫檢索句子作為提示,而復制機制生成器則是引入動態提取多檢索語句中的表達式。這兩個模塊可以端到端或分別進行訓練,這是靈活且可擴展的。我們的框架將傳統的基于檢索的方法與正統的編碼器/解碼器方法進行了協調,它們不僅可以利用檢索到的句子中的各種表達方式,還可以生成自然而準確的視頻內容。在幾個基準數據集上進行的大量實驗表明,我們提出的方法超越了最新技術的性能,表明了在視頻描述任務中提出的范例的有效性和前景。

網址:

付費5元查看完整內容

【導讀】作為計算機視覺領域的三大國際頂會之一,IEEE國際計算機視覺與模式識別會議CVPR(IEEE Conference on Computer Vision and Pattern Recognition) 每年都會吸引全球領域眾多專業人士參與。CVPR 2021將在線舉行, 中國科學院院士、中科院自動化所智能感知與計算研究中心主任譚鐵牛將出任大會主席(General Chair,GC),上海科技大學的虞晶怡教授將任程序主席(Program Chair,PC)。今年的CVPR有效投稿多達7500篇,一共有1663篇論文被接收,接收率為27%。

為此,專知小編提前為大家整理了五篇CVPR 2021圖像分類(Image Classification)相關論文,圖像分類topic,大家都很熟悉,但是競爭也比較激烈,可以看看最新是如何創新如何開展的?大家先睹為快——半監督細粒度圖像分類、長尾圖像分類、新標簽少樣本學習、對比聯邦學習

CVPR2021OD、CVPR2021AR

1. A Realistic Evaluation of Semi-Supervised Learning for Fine-Grained Classification

作者:Jong-Chyi Su, Zezhou Cheng, Subhransu Maji

摘要:我們在一個現實的基準上評估半監督學習(SSL)的有效性,在該基準上,數據表現出明顯的類別失衡并包含來自新類別的圖像。我們的基準測試由兩個細粒度的分類數據集組成,這些數據集是通過從Aves和Fungi分類中對類進行抽樣而獲得的。我們發現,最近提出的SSL方法具有顯著的優勢,并且當從頭開始訓練深度網絡時,可以有效地使用類外(out-of-class)數據來提高性能。然而,與遷移學習基準相比,這部分表現卻差強人意。另外,盡管現有的SSL方法提供了一些改進,但是類外數據的存在通常對模型的性能反而有害。在這種情況下,微調后再進行基于蒸餾的自訓練反而是最可靠的。我們的實驗表明,在現實數據集上的基于專家的半監督學習可能需要一些不同的策略,這部分策略與現在流行的方法可能不同。

//arxiv.org/abs/2104.00679

2. Contrastive Learning based Hybrid Networks for Long-Tailed Image Classification

作者:Peng Wang, Kai Han, Xiu-Shen Wei, Lei Zhang, Lei Wang

摘要:學習得到圖像的判別性表示在長尾(long-tailed)圖像分類中起著至關重要的作用,因為它可以緩解分類器在數據不平衡情況下的學習。鑒于最近對比學習的表現,在這項工作中,我們探討了有效的監督對比學習策略,并定制了他們從不平衡數據學習更好的圖像表示的方法,以提高其上的分類精度。具體來說,我們提出了一種新穎的混合網絡結構,該結構由監督的對比損失(用于學習圖像表示)和交叉熵損失(用于學習分類器)組成,其中學習逐漸從特征學習過渡到分類器學習,以體現更好的特征訓練更好的分類器。我們探索了用于特征學習的兩種對比損失形式,它們的形式各不相同,但有一個共同的想法,即在歸一化嵌入空間中將同一類別的樣本拉在一起,然后將不同類別的樣本推開。其中之一是最近提出的監督對比(SC)損失,它是通過合并來自同一類別的正樣本在最先進的無監督對比損失之上設計的。另一種是原型監督對比(PSC)學習策略,該策略解決了標準SC丟失中的大量內存消耗問題,因此在有限的內存預算下顯示出更多的希望。在三個長尾分類數據集上的廣泛實驗證明了在長尾分類中所提出的基于對比學習的混合網絡的優勢。

3. Fine-grained Angular Contrastive Learning with Coarse Labels

作者:Guy Bukchin, Eli Schwartz, Kate Saenko, Ori Shahar, Rogerio Feris, Raja Giryes, Leonid Karlinsky

摘要:少樣本學習方法會提供經過優化的預訓練技術,以便使用一個或幾個示例輕松地將模型適應新類別(在訓練過程中看不見)。這種對看不見類別的適應性對于許多實際應用尤為重要,在這些實際應用中,預訓練的標簽空間無法保持固定以有效使用,并且模型需要“專業化”以支持動態的新類別。Coarseto-Fine Few-Shot(C2FS)是一種特別有趣的場景,但被鮮為人知的文獻所忽略,其中訓練類(例如動物)比目標(測試)類(例如品種)具有“更粗糙的粒度”。C2FS的一個非常實際的示例是目標類是訓練類的子類。直觀地講,這是特別具有挑戰性的,因為(規律和少樣本)監督的預訓練往往會學會忽略類內變異性,這對于分離子類至關重要。在本文中,我們介紹了一個新穎的“角度歸一化”模塊,該模塊可以有效地結合監督和自監督的對比預訓練來解決提出的C2FS任務,從而在對多個基準和數據集的廣泛研究中顯示出顯著的收益。我們希望這項工作將有助于為有關C2FS分類這一新的,具有挑戰性且非常實用的主題的未來研究鋪平道路。

網址:

4. MetaSAug: Meta Semantic Augmentation for Long-Tailed Visual Recognition

作者:Shuang Li, Kaixiong Gong, Chi Harold Liu, Yulin Wang, Feng Qiao, Xinjing Cheng

摘要:現實世界中的訓練數據通常呈現長尾分布,其中幾個多數類的樣本數量明顯多于其余少數類。這種不平衡會降低被設計用于平衡訓練集的典型監督學習算法的性能。在本文中,我們通過使用最近提出的隱式語義數據增強(ISDA)算法來增強少數類,以解決該問題,該算法通過沿著語義有意義的方向平移深層特征來產生多樣化的增強樣本。重要的是,鑒于ISDA估計了分類條件統計信息以獲得語義指導,由于訓練數據不足,我們發現在少數群體分類中這樣做是無效的。為此,我們提出了一種新穎的方法,可通過元學習自動學習轉換后的語義方向。具體來說,訓練過程中的擴充策略是動態優化的,旨在最大程度地減少通過平衡更新步驟近似的小的平衡驗證集上的損失。在CIFAR-LT-10 / 100,ImageNet-LT和iNaturalist 2017/2018的廣泛經驗結果驗證了我們方法的有效性。

網址:

5. Model-Contrastive Federated Learning

作者:Qinbin Li, Bingsheng He, Dawn Song

摘要:聯邦學習使多方可以協作訓練機器學習模型,而無需傳達他們的本地數據。聯合學習中的一個關鍵挑戰是處理各方之間本地數據分布的異質性。盡管已經提出了許多研究來應對這一挑戰,但我們發現它們在具有深度學習模型的圖像數據集中無法實現高性能。在本文中,我們提出了MOON:模型對比聯合學習。MOON是一種簡單有效的聯合學習框架。MOON的關鍵思想是利用模型表示之間的相似性來校正單個方面的本地訓練,即在模型級別進行對比學習。我們廣泛的實驗表明,MOON在各種圖像分類任務上明顯優于其他最新的聯邦學習算法。

網址:

付費5元查看完整內容

【導讀】作為計算機視覺領域的三大國際頂會之一,IEEE國際計算機視覺與模式識別會議CVPR(IEEE Conference on Computer Vision and Pattern Recognition) 每年都會吸引全球領域眾多專業人士參與。CVPR 2021將在線舉行, 中國科學院院士、中科院自動化所智能感知與計算研究中心主任譚鐵牛將出任大會主席(General Chair,GC),上海科技大學的虞晶怡教授將任程序主席(Program Chair,PC)。今年的CVPR有效投稿多達7500篇,一共有1663篇論文被接收,接收率為27%。

為此,專知小編提前為大家整理了五篇CVPR 2021視頻理解(Video Understanding)相關論文,讓大家先睹為快——長視頻學習、指稱表達、VideoMoCo、視頻預測、自監督視頻表示學習

CVPR2021OD、CVPR2021AR

1. PGT: A Progressive Method for Training Models on Long Videos

作者:Bo Pang, Gao Peng, Yizhuo Li, Cewu Lu

摘要:卷積視頻模型的計算復雜度比其對應的圖像級模型大一個數量級。受計算資源的約束,沒有模型或訓練方法可以端到端訓練長視頻序列。目前,主流方法是將原始視頻分割成片段,導致片段時間信息流不完整,受自然語言處理長句的啟發,我們建議將視頻視為滿足馬爾可夫性質的連續片段,并將其訓練為通過逐步擴展信息在時間維度上的整體傳播。這種漸進式訓練(PGT)方法能夠以有限的資源端對端地訓練長視頻,并確保信息的有效傳輸。作為一種通用且強大的訓練方法,我們通過經驗證明了該方法在不同模型和數據集上均具有顯著的性能改進。作為說明性示例,我們提出的方法將Chalow上的SlowOnly網絡提高了3.7 mAP,在Kinetics 方面提高了1.9 top-1的精度,而參數和計算開銷卻可以忽略不計。

代碼:

//github.com/BoPang1996/PGT

網址:

2. Co-Grounding Networks with Semantic Attention for Referring Expression Comprehension in Videos

作者:Sijie Song, Xudong Lin, Jiaying Liu, Zongming Guo, Shih-Fu Chang

摘要:在本文中,我們解決了在視頻中引用了指稱表達(Referring Expression)的問題,這個任務由于復雜的表達和場景動態而具有挑戰性。與以前的解決方案可以在多個階段(即跟蹤,基于proposal的匹配)解決問題的方法不同,我們從新穎的角度出發使用單階段框架—co-grounding。我們通過語義注意力學習來提高單幀 grounding 的準確性,并通過聯合co-grounding特征學習來提高跨幀 grounding的一致性。語義注意力學習顯式地解析具有不同屬性的線索,以減少復雜表達中的歧義。co-groundin特征學習通過集成時間相關性來減少由場景動態引起的模糊性,從而增強了視覺特征表示。實驗結果證明了我們的框架在video grounding數據集VID和LiOTB上的優越性,可以跨幀生成準確而穩定的結果。我們的模型還適用于引用圖像中的指稱表達(Referring Expression),這可以通過RefCOCO數據集上的改進性能來說明。

代碼:

網址:

3. VideoMoCo: Contrastive Video Representation Learning with Temporally Adversarial Examples

作者:Tian Pan, Yibing Song, Tianyu Yang, Wenhao Jiang, Wei Liu

摘要:MOCO對于無監督的圖像表示學習是有效的。在本文中,我們針對無監督視頻表示學習提出VideomoCo。給出視頻序列作為輸入樣本,我們從兩個視角改善MoCo的時間特征表示。首先,我們介紹一個生成器,以便在時間上刪除幾個幀。然后學習鑒別器以編碼類似的特征表示,無論幀移除如何。通過在訓練攻擊期間自適應地丟棄不同的幀,我們將該輸入樣本增強以訓練一個時間魯棒的編碼器。其次,在計算對比損耗時,我們使用時間衰減來模擬內存隊列中的鍵(key)衰減。動量編碼器在鍵進入后進行更新,當我們使用當前輸入樣本進行對比學習時,這些鍵的表示能力會下降。這種下降通過時間衰減反映出來,以使輸入樣本進入隊列中的最近鍵。結果,我們使MoCo能夠學習視頻表示,而無需憑經驗設計pretext任務。通過增強編碼器的時間魯棒性并為鍵的時間衰減建模,我們的VideoMoCo基于對比學習在時間上提高了MoCo。在包括UCF101和HMDB51在內的基準數據集上進行的實驗表明,VideoMoCo是最先進的視頻表示學習方法。

代碼:

網址:

4. Greedy Hierarchical Variational Autoencoders for Large-Scale Video Prediction

作者:Bohan Wu, Suraj Nair, Roberto Martin-Martin, Li Fei-Fei, Chelsea Finn

摘要:拓展到不同場景的視頻預測模型將使智能體(agent)能夠通過使用模型規劃來執行多種任務。然而,雖然現有的視頻預測模型在小型數據集上產生了有希望的結果,但在大型和多樣化的數據集上訓練時,它們會遭受嚴重的欠擬合(underfitting)。為了解決這種欠擬合挑戰,我們首先觀察到訓練更大的視頻預測模型的能力通常是通過GPU或TPU的內存限制的。同時,深層次的潛在變量模型可以通過捕獲未來觀測值的多級隨機性來產生更高質量的預測,但是這種模型的端到端優化特別困難。我們的主要想法在于,通過對分層自編碼器的貪婪和模塊化優化可以同時解決內存限制和大規模視頻預測的優化挑戰。我們介紹貪婪的分層變分自編碼器(GHVAES),這是一種通過貪婪訓練分層自編碼器的每個級別來學習Highfivelity視頻預測的方法。GHVAE在四個視頻數據集上的預測性能提高了17-55%,在實際機器人任務上的成功率提高了35-40%,并且可以通過簡單地添加更多內容來提高性能模塊。

代碼:

網址:

5. Removing the Background by Adding the Background: Towards Background Robust Self-supervised Video Representation Learning

作者:Jinpeng Wang, Yuting Gao, Ke Li, Yiqi Lin, Andy J. Ma, Hao Cheng, Pai Peng, Rongrong Ji, Xing Sun

摘要:通過從數據本身監督,自監督學習表現出了提高深神經網絡的視頻表示能力的巨大潛力。然而,一些當前的方法傾向于從背景中欺騙,即,預測高度依賴于視頻背景而不是運動,使得模型容易受到背景的變化。為了減輕模型依賴背景,我們建議通過添加背景來消除背景影響。也就是說,給定視頻,我們隨機選擇靜態幀并將其添加到每個其他幀以構建分散注意力的視頻樣本。然后我們強制模型拉動分散的視頻的特征和原始視頻的特征,以便明確地限制模型以抵抗背景影響,更多地關注運動變化。我們將我們的方法命名為Background Erasing (BE)。值得注意的是,我們的方法的實現非常簡單,可以很輕松地添加到大多數SOTA方法中。具體而言,在嚴重bias的數據集UCF101和HMDB51上具有16.4%和19.1%的改善,對較少bias的數據集Diving48改進了14.5%。

網址:

付費5元查看完整內容

【導讀】作為計算機視覺領域的三大國際頂會之一,IEEE國際計算機視覺與模式識別會議CVPR(IEEE Conference on Computer Vision and Pattern Recognition) 每年都會吸引全球領域眾多專業人士參與。CVPR 2021將在線舉行, 中國科學院院士、中科院自動化所智能感知與計算研究中心主任譚鐵牛將出任大會主席(General Chair,GC),上海科技大學的虞晶怡教授將任程序主席(Program Chair,PC)。今年的CVPR有效投稿多達7500篇,一共有1663篇論文被接收,接收率為27%。

為此,專知小編提前為大家整理了五篇CVPR 2021視覺目標檢測(Object Detection)相關論文,讓大家先睹為快——開放域目標檢測、實例蒸餾、多實例主動學習、自監督多目標檢測、少樣本目標檢測

1. Towards Open World Object Detection

作者:K J Joseph, Salman Khan, Fahad Shahbaz Khan, Vineeth N Balasubramanian

摘要:人類具有識別其環境中未知目標實例的本能。當相應的知識最終可用時,對這些未知實例的內在好奇心有助于學習它們。這促使我們提出了一個新穎的計算機視覺問題:“開放世界目標檢測”,該模型的任務是:1)在沒有明確監督的情況下將尚未引入該目標的目標識別為“未知”,以及2)當逐漸接收到相應的標簽時,逐步學習這些已識別的未知類別,而不會忘記先前學習的類別。我們提出了問題,引入了強大的評價準則并提供了一種新穎的解決方案,我們稱之為ORE:基于對比聚類和基于能量的未知標識的開放世界目標檢測器。我們的實驗評估和消去實驗研究分析了ORE在實現開放世界目標方面的功效。作為一個有趣的副產品,我們發現識別和表征未知實例有助于減少增量目標檢測設置中的混亂,在此方法中,我們無需任何方法上的努力即可獲得最先進的性能。我們希望我們的工作將吸引對這個新發現的但至關重要的研究方向的進一步研究。

圖片 代碼:

//github.com/JosephKJ/OWOD

網址:

2. General Instance Distillation for Object Detection

作者:Xing Dai, Zeren Jiang, Zhao Wu, Yiping Bao, Zhicheng Wang, Si Liu, Erjin Zhou

摘要:近年來,知識蒸餾已被證明是模型壓縮的有效解決方案。這種方法可以使輕量級的學生模型獲得從繁瑣的教師模型中提取的知識。但是,先前的蒸餾檢測方法對于不同的檢測框架具有較弱的概括性,并且嚴重依賴ground truth (GT),而忽略了實例之間有價值的關系信息。因此,我們提出了一種新的基于區分性實例檢測任務的蒸餾方法,該方法不考慮GT區分出的正例或負例,這稱為一般實例蒸餾(GID)。我們的方法包含一個通用實例選擇模塊(GISM),以充分利用基于特征的,基于關系的和基于響應的知識進行蒸餾。廣泛的結果表明,在各種檢測框架下,學生模型可顯著提高AP的表現,甚至優于教師模型。具體來說,在Reconet上使用ResNet-50的RetinaNet在COCO數據集上具有GID的mAP達到了39.1%,比基線的36.2%超出了2.9%,甚至比具有38.1%的AP的基于ResNet-101的教師模型更好。

圖片 網址:

3. Multiple Instance Active Learning for Object Detection

作者:Tianning Yuan, Fang Wan, Mengying Fu, Jianzhuang Liu, Songcen Xu, Xiangyang Ji, Qixiang Ye

摘要:盡管主動學習(active learning)在圖像識別方面取得了長足的進步,但仍然缺乏為目標檢測任務設置的實例級主動學習方法。在本文中,我們提出了多實例主動學習(MIAL),通過觀察實例級別的不確定性來選擇信息量最大的圖像進行檢測器訓練。MIAL定義了實例不確定性學習模塊,該模塊利用在標記集上訓練的兩個對抗性實例分類器的差異來預測未標記集的實例不確定性。MIAL將未標記的圖像視為實例包,并將圖像中的特征錨視為實例,并通過以多實例學習(MIL)方式對實例重新加權來估計圖像不確定性。迭代實例不確定性學習和重新加權有助于抑制嘈雜的實例,以彌合實例不確定性和圖像級不確定性之間的差距。實驗證明,MIAL為實例級的主動學習設置了堅實的基準。在常用的目標檢測數據集上,MIAL具有明顯的優勢,優于最新方法,尤其是在標記集很小的情況下。

圖片 代碼:

4. There is More than Meets the Eye: Self-Supervised Multi-Object Detection and Tracking with Sound by Distilling Multimodal Knowledge

作者:Francisco Rivera Valverde, Juana Valeria Hurtado, Abhinav Valada

摘要:目標固有的聲音屬性可以提供有價值的線索,以學習豐富的表示形式來進行目標檢測和跟蹤。此外,可以通過僅監視環境中的聲音來利用視頻中視聽事件的共現來在圖像上定位目標。到目前為止,這僅在攝像機靜止且用于單個目標檢測的情況下才可行。此外,這些方法的魯棒性受到限制,因為它們主要依賴于高度易受光照和天氣變化影響的RGB圖像。在這項工作中,我們提出了一種新穎的自監督的MM-DistillNet框架,該框架由多名教師組成,這些教師利用RGB,深度和熱圖像等多種模式,同時利用互補線索和提煉知識到單個音頻學生網絡中。我們提出了新的MTA損失函數,該函數有助于以自監督的方式從多模態教師中提取信息。此外,我們為有聲讀物的學生提出了一種新穎的自監督的前置任務,使我們不必依賴勞動強度大的人工注釋。我們引入了一個大型多模態數據集,其中包含113,000多個時間同步的RGB,深度,熱和音頻模態幀。大量實驗表明,我們的方法優于最新方法,同時能夠在推理甚至移動過程中僅使用聲音來檢測多個目標。

圖片 網址:

5. Semantic Relation Reasoning for Shot-Stable Few-Shot Object Detection

作者:Chenchen Zhu, Fangyi Chen, Uzair Ahmed, Marios Savvides

摘要:由于真實世界數據固有的長尾分布,少樣本目標檢測是當前非常需要研究的問題。它的性能在很大程度上受到新的類別數據匱乏的影響。但是,無論數據可用性如何,新穎類和基類之間的語義關系都是恒定的。在這項工作中,我們研究將這種語義關系與視覺信息一起使用,并將顯式關系推理引入新穎目標檢測的學習中。具體來說,我們通過從大型語料庫中學到的語義嵌入來表示每個類的概念。檢測要求將目標的圖像表示投影到此嵌入空間中。我們發現如果僅僅使用啟發式知識圖譜作為原始嵌入是遠遠不夠的,提出使用一種動態關系圖來擴展原始嵌入向量。因此,我們提出的SRR-FSD的少樣本檢測器對于新目標的變化能夠保持穩定的性能。實驗表明,SRR-FSD可以在higher shots下獲得還不錯的結果,更重要地是,在較低的explicit shots和implicit shots的情況下,SRR-FSD的性能也要好得多。

圖片 網址:

付費5元查看完整內容

【導讀】機器學習頂會 NeurIPS 2020, 是人工智能領域全球最具影響力的學術會議之一,因此在該會議上發表論文的研究者也會備受關注。據官方統計,今年NeurIPS 2020 共收到論文投稿 9454 篇,接收 1900 篇(其中 oral 論文 105 篇、spotlight 論文 280 篇),論文接收率為 20.1%。近期,NeurIPS 2020快開會了,小編發現域自適應(Domain Adaptation)相關的接受paper很多,這塊研究方向近幾年一直很火,并且各個CV和NLP的域自適應任務也非常多。

為此,這期小編為大家奉上NeurIPS 2020必讀的六篇域自適應(Domain Adaptation)相關論文——One-shot 無監督域自適應、圖模型、啟發式域自適應、自監督、多源域自適應

NeurIPS 2020 Accepted Papers : //proceedings.neurips.cc/paper/2020

NIPS2020CI、ICLR2020CI、ICML2020CI

1. Adversarial Style Mining for One-Shot Unsupervised Domain Adaptation

作者:Yawei Luo, Ping Liu, Tao Guan, Junqing Yu, Yi Yang

摘要:我們針對One-Shot無監督域自適應的問題。與傳統的無監督域適應不同,它假定學習適應時只能使用一個未標記的目標樣本。這種設置是現實的,但更具挑戰性,在這種情況下,傳統的自適應方法由于缺少未標記的目標數據而容易失敗。為此,我們提出了一種新穎的對抗式風格挖掘方法,該方法將風格遷移模塊和特定于任務模塊組合成對抗的方式。具體來說,風格遷移模塊會根據當前的學習狀態,迭代搜索One-Shot目標樣本周圍的較難的風格化圖像,從而使任務模型探索在不可知的目標領域中難以解決的潛在風格,從而增強了數據稀缺情況下的適應性能。對抗學習框架使風格遷移模塊和特定于任務模塊在競爭中彼此受益。在跨域分類和分割基準方面的大量實驗證明,ASM在具有挑戰性的One-Shot設置下達到了最新的自適應性能。

網址:

2. Domain Adaptation as a Problem of Inference on Graphical Models

作者:Kun Zhang, Mingming Gong, Petar Stojanov, Biwei Huang, QINGSONG LIU, Clark Glymour

摘要:本文涉及數據驅動的無監督域自適應,在這種情況下,事先不知道跨域的聯合分布如何變化,即數據分布的哪些因素或模塊保持不變或跨域變化。為了研究具有多個源域的域自適應方法,我們提出使用圖模型作為一種緊湊(compact)的方式來編碼聯合分布的變化屬性,該屬性可以從數據中學習,然后將域自適應視為一個關于圖模型的貝葉斯推斷問題。這種圖模型區分了分布的恒定和變化模塊,并指定了跨域變化的特性,這是變化模塊的先驗知識,目的是得出目標域中目標變量Y的后驗。這提供了域自適應的端到端框架,可以將關于聯合分布如何變化的其他知識(如果可用)直接合并以改善圖表示。我們討論如何將基于因果關系的域適應置于此保護之下。和真實數據的實驗結果證明了所提出的域適應框架的功效。

代碼:

網址:

3. Heuristic Domain Adaptation

作者:shuhao cui, Xuan Jin, Shuhui Wang, Yuan He, Qingming Huang

摘要:在視覺域自適應(DA)中,將特定于域的特征與不依賴于域的表示形式分開是一個病態(ill-posed)問題。現有方法采用不同的先驗方法或直接最小化域差異來解決此問題,這在處理實際情況時缺乏靈活性。另一個研究方向是將特定域的信息表示為逐步遷移的過程,這在準確刪除特定域的屬性方面往往不是最佳選擇。在本文中,我們從啟發式搜索的角度解決了域不變和域特定信息的建模問題。我們將現有的特征標識為啟發式表示形式,從而導致更大的域差異。在啟發式表示的指導下,我們制定了一個具有良好理論依據的啟發式域自適應(HDA)原則框架。為了執行HDA,在學習過程中,將域不變和域特定表示之間的余弦相似性評分和獨立性度量放入初始和最終狀態的約束中。類似于啟發式搜索的最終條件,我們進一步推導出一個約束,以強制約束啟發式網絡輸出的最終范圍較小。因此,我們提出了啟發式域自適應網絡(HDAN),該網絡明確學習了具有上述約束的域不變和域特定表示。大量實驗表明,HDAN在無監督DA,多源DA和半監督DA方面已超過了最新技術。

代碼:

網址:

4. Transferable Calibration with Lower Bias and Variance in Domain Adaptation

作者:Ximei Wang, Mingsheng Long, Jianmin Wang, Michael Jordan

摘要:域自適應(DA)可以將學習器從標記的源域轉移到未標記的目標域。盡管已經取得了顯著的進步,但大多數現有的DA方法都專注于提高推理的目標精度。如何估計DA模型的預測不確定性對于安全重要型場景中的決策至關重要,但其仍然是研究的邊界。在本文中,我們研究了DA校準(Calibration)中的開放性問題,該問題是由于域轉移和缺少目標標簽共存所造成的,這一問題極具挑戰性。我們首先揭示了DA模型以經過良好校準的概率為代價來學習更高的精度的困境。基于這一發現,我們提出了可遷移校準(TransCal),以在統一的無超參數優化框架中以較低的偏差和方差實現更準確的校準。作為常規的post-hoc 校準方法,TransCal可以輕松地應用于重新校準現有的DA方法。從理論上和經驗上都證明了其有效性。

網址:

5. Universal Domain Adaptation through Self-Supervision

作者:Kuniaki Saito, Donghyun Kim, Stan Sclaroff, Kate Saenko

摘要:傳統上,無監督域自適應方法假定所有源類別都存在于目標域中。實際上,對于兩個域之間的類別重疊知之甚少。雖然某些方法使用部分或開放類別來解決目標設置,但它們假定特定設置是先驗的。我們提出了一種更通用的域自適應框架,該框架可以處理任意類別轉換,稱為通過熵優化(DANCE)的域自適應鄰域聚類。DANCE結合了兩種新穎的思想:首先,由于我們不能完全依靠源類別來學習針對目標的判別性特征,因此我們提出了一種新穎的鄰域聚類技術,以一種自監督的方式來學習目標域的結構。其次,我們使用基于熵的特征對齊和拒絕來將目標特征與源對齊,或基于它們的熵將它們拒絕為未知類別。我們通過廣泛的實驗表明,在開放集,開放部分和部分域適應設置中,DANCE的性能均優于基線。

代碼:

網址:

6. Your Classifier can Secretly Suffice Multi-Source Domain Adaptation

作者:Naveen Venkat, Jogendra Nath Kundu, Durgesh Singh, Ambareesh Revanur, R. Venkatesh Babu

摘要:多源域適應(MSDA)解決在域轉移(domain-shift)下將任務知識從多個標記的源域轉移到未標記的目標域。現有方法旨在使用輔助分布對齊目標來最小化該域偏移。在這項工作中,我們提出了與MSDA不同的觀點,我們觀察到了深度模型以在標簽監督下隱式對齊域。因此,我們旨在利用隱式對齊方式而無需其他訓練目標來進行適應。為此,我們使用偽標記的目標樣本并在偽標記上執行分類器協議,此過程稱為自監督隱式比對(SImpA1)。我們發現,即使在源域之間的類別轉換下,SImpAl仍然可以輕松工作。此外,我們提出了分類器一致性作為確定訓練收斂的線索,從而產生了一種簡單的訓練算法。我們在五個基準上對我們的方法進行了全面的評估,并對方法的每個組成部分進行了詳細的分析。

網址:

付費5元查看完整內容

【導讀】作為計算機視覺領域的三大國際頂會之一,IEEE國際計算機視覺與模式識別會議 CVPR 每年都會吸引全球領域眾多專業人士參與。由于受COVID-19疫情影響,原定于6月16日至20日在華盛頓州西雅圖舉行的CVPR 2020將全部改為線上舉行。今年的CVPR有6656篇有效投稿,最終有1470篇論文被接收,接收率為22%左右。之前小編為大家整理過CVPR 2020 GNN 相關論文,這周小編繼續為大家整理了五篇CVPR 2020 圖神經網絡(GNN)相關論文,供大家參考——行為識別、少樣本學習、仿射跳躍連接、多層GCN、3D視頻目標檢測。

CVPR2020SGNN、CVPR2020GNN_Part2、CVPR2020GNN_Part1、WWW2020GNN_Part1、AAAI2020GNN、ACMMM2019GNN、CIKM2019GNN、ICLR2020GNN、EMNLP2019GNN、ICCV2019GNN_Part2、ICCV2019GNN_Part1、NIPS2019GNN、IJCAI2019GNN_Part1、IJCAI2019GNN_Part2、KDD2019GNN、ACL2019GNN、CVPR2019GNN

1. Disentangling and Unifying Graph Convolutions for Skeleton-Based Action Recognition

作者:Ziyu Liu, Hongwen Zhang, Zhenghao Chen, Zhiyong Wang, Wanli Ouyang

摘要:基于骨架的動作識別算法廣泛使用時空圖對人體動作動態進行建模。為了從這些圖中捕獲魯棒的運動模式,長范圍和多尺度的上下文聚合與時空依賴建模是一個強大的特征提取器的關鍵方面。然而,現有的方法在實現(1)多尺度算子下的無偏差長范圍聯合關系建模和(2)用于捕捉復雜時空依賴的通暢的跨時空信息流方面存在局限性。在這項工作中,我們提出了(1)一種簡單的分解(disentangle)多尺度圖卷積的方法和(2)一種統一的時空圖卷積算子G3D。所提出的多尺度聚合方法理清了不同鄰域中節點對于有效的遠程建模的重要性。所提出的G3D模塊利用密集的跨時空邊作為跳過連接(skip connections),用于在時空圖中直接傳播信息。通過耦合上述提議,我們開發了一個名為MS-G3D的強大的特征提取器,在此基礎上,我們的模型在三個大規模數據集NTU RGB+D60,NTU RGB+D120和Kinetics Skeleton 400上的性能優于以前的最先進方法。

網址: //arxiv.org/pdf/2003.14111.pdf

代碼鏈接: github.com/kenziyuliu/ms-g3d

2. DPGN: Distribution Propagation Graph Network for Few-shot Learning

作者:Ling Yang, Liangliang Li, Zilun Zhang, Xinyu Zhou, Erjin Zhou, Yu Liu

摘要:大多數基于圖網絡的元學習方法都是為實例的instance-level關系進行建模。我們進一步擴展了此思想,以1-vs-N的方式將一個實例與所有其他實例的分布級關系明確建模。我們提出了一種新的少樣本學習方法--分布傳播圖網絡(DPGN)。它既表達了每個少樣本學習任務中的分布層次關系,又表達了實例層次關系。為了將所有實例的分布層關系和實例層關系結合起來,我們構造了一個由點圖和分布圖組成的對偶全圖網絡,其中每個節點代表一個實例。DPGN采用雙圖結構,在更新時間內將標簽信息從帶標簽的實例傳播到未帶標簽的實例。在少樣本學習的大量基準實驗中,DPGN在監督設置下以5%~12%和在半監督設置下以7%~13%的優勢大大超過了最新的結果。

網址:

代碼鏈接:

3. Geometrically Principled Connections in Graph Neural Networks

作者:Shunwang Gong, Mehdi Bahri, Michael M. Bronstein, Stefanos Zafeiriou

摘要:圖卷積操作為以前認為遙不可及的各種圖形和網格處理任務帶來了深度學習的優勢。隨著他們的持續成功,人們希望設計更強大的體系結構,這通常是將現有的深度學習技術應用于非歐幾里得數據。在這篇文章中,我們認為幾何應該仍然是幾何深度學習這一新興領域創新的主要驅動力。我們將圖神經網絡與廣泛成功的計算機圖形和數據近似模型(徑向基函數(RBF))相關聯。我們推測,與RBF一樣,圖卷積層將從向功能強大的卷積核中添加簡單函數中受益。我們引入了仿射跳躍連接 (affine skip connections),這是一種通過將全連接層與任意圖卷積算子相結合而形成的一種新的構建塊。通過實驗證明了我們的技術的有效性,并表明性能的提高是參數數量增加的結果。采用仿射跳躍連接的算子在形狀重建、密集形狀對應和圖形分類等每一項任務上的表現都明顯優于它們的基本性能。我們希望我們簡單有效的方法將成為堅實的基準,并有助于簡化圖神經網絡未來的研究。

網址:

4. L^2-GCN: Layer-Wise and Learned Efficient Training of Graph Convolutional Networks

作者:Yuning You, Tianlong Chen, Zhangyang Wang, Yang Shen

摘要:圖卷積網絡(GCN)在許多應用中越來越受歡迎,但在大型圖形數據集上的訓練仍然是出了名的困難。它們需要遞歸地計算鄰居的節點表示。當前的GCN訓練算法要么存在隨層數呈指數增長的高計算成本,要么存在加載整個圖和節點嵌入的高內存使用率問題。本文提出了一種新的高效的GCN分層訓練框架(L-GCN),該框架將訓練過程中的特征聚合和特征變換分離開來,從而大大降低了時間和存儲復雜度。我們在圖同構框架下給出了L-GCN的理論分析,在溫和的條件下,與代價更高的傳統訓練算法相比L-GCN可以產生同樣強大的GCN。我們進一步提出了L2-GCN,它為每一層學習一個控制器,該控制器可以自動調整L-GCN中每一層的訓練周期。實驗表明,L-GCN比現有技術快至少一個數量級,內存使用量的一致性不依賴于數據集的大小,同時保持了還不錯的預測性能。通過學習控制器,L2-GCN可以將訓練時間進一步減少一半。

網址:

代碼鏈接:

補充材料:

5. LiDAR-based Online 3D Video Object Detection with Graph-based Message Passing and Spatiotemporal Transformer Attention

作者:Junbo Yin, Jianbing Shen, Chenye Guan, Dingfu Zhou, Ruigang Yang

摘要:現有的基于LiDAR的3D目標檢測算法通常側重于單幀檢測,而忽略了連續點云幀中的時空信息。本文提出了一種基于點云序列的端到端在線3D視頻對象檢測器。該模型包括空間特征編碼部分和時空特征聚合部分。在前一個組件中,我們提出了一種新的柱狀消息傳遞網絡(Pillar Message Passing Network,PMPNet)來對每個離散點云幀進行編碼。它通過迭代信息傳遞的方式自適應地從相鄰節點收集柱節點的信息,有效地擴大了柱節點特征的感受野。在后一組件中,我們提出了一種注意力時空轉換GRU(AST-GRU)來聚合時空信息,通過注意力記憶門控機制增強了傳統的ConvGRU。AST-GRU包含一個空間Transformer Attention(STA)模塊和一個時間Transformer Attention(TTA)模塊,分別用于強調前景對象和對齊動態對象。實驗結果表明,所提出的3D視頻目標檢測器在大規模的nuScenes基準測試中達到了最先進的性能。

網址:

代碼鏈接:

付費5元查看完整內容
北京阿比特科技有限公司