亚洲男人的天堂2018av,欧美草比,久久久久久免费视频精选,国色天香在线看免费,久久久久亚洲av成人片仓井空

【導讀】作為計算機視覺領域的三大國際頂會之一,IEEE國際計算機視覺與模式識別會議CVPR(IEEE Conference on Computer Vision and Pattern Recognition) 每年都會吸引全球領域眾多專業人士參與。CVPR 2021將在線舉行, 中國科學院院士、中科院自動化所智能感知與計算研究中心主任譚鐵牛將出任大會主席(General Chair,GC),上海科技大學的虞晶怡教授將任程序主席(Program Chair,PC)。今年的CVPR有效投稿多達7500篇,一共有1663篇論文被接收,接收率為27%。

為此,專知小編提前為大家整理了五篇CVPR 2021圖像分類(Image Classification)相關論文,圖像分類topic,大家都很熟悉,但是競爭也比較激烈,可以看看最新是如何創新如何開展的?大家先睹為快——半監督細粒度圖像分類、長尾圖像分類、新標簽少樣本學習、對比聯邦學習

CVPR2021OD、CVPR2021AR

1. A Realistic Evaluation of Semi-Supervised Learning for Fine-Grained Classification

作者:Jong-Chyi Su, Zezhou Cheng, Subhransu Maji

摘要:我們在一個現實的基準上評估半監督學習(SSL)的有效性,在該基準上,數據表現出明顯的類別失衡并包含來自新類別的圖像。我們的基準測試由兩個細粒度的分類數據集組成,這些數據集是通過從Aves和Fungi分類中對類進行抽樣而獲得的。我們發現,最近提出的SSL方法具有顯著的優勢,并且當從頭開始訓練深度網絡時,可以有效地使用類外(out-of-class)數據來提高性能。然而,與遷移學習基準相比,這部分表現卻差強人意。另外,盡管現有的SSL方法提供了一些改進,但是類外數據的存在通常對模型的性能反而有害。在這種情況下,微調后再進行基于蒸餾的自訓練反而是最可靠的。我們的實驗表明,在現實數據集上的基于專家的半監督學習可能需要一些不同的策略,這部分策略與現在流行的方法可能不同。

//arxiv.org/abs/2104.00679

2. Contrastive Learning based Hybrid Networks for Long-Tailed Image Classification

作者:Peng Wang, Kai Han, Xiu-Shen Wei, Lei Zhang, Lei Wang

摘要:學習得到圖像的判別性表示在長尾(long-tailed)圖像分類中起著至關重要的作用,因為它可以緩解分類器在數據不平衡情況下的學習。鑒于最近對比學習的表現,在這項工作中,我們探討了有效的監督對比學習策略,并定制了他們從不平衡數據學習更好的圖像表示的方法,以提高其上的分類精度。具體來說,我們提出了一種新穎的混合網絡結構,該結構由監督的對比損失(用于學習圖像表示)和交叉熵損失(用于學習分類器)組成,其中學習逐漸從特征學習過渡到分類器學習,以體現更好的特征訓練更好的分類器。我們探索了用于特征學習的兩種對比損失形式,它們的形式各不相同,但有一個共同的想法,即在歸一化嵌入空間中將同一類別的樣本拉在一起,然后將不同類別的樣本推開。其中之一是最近提出的監督對比(SC)損失,它是通過合并來自同一類別的正樣本在最先進的無監督對比損失之上設計的。另一種是原型監督對比(PSC)學習策略,該策略解決了標準SC丟失中的大量內存消耗問題,因此在有限的內存預算下顯示出更多的希望。在三個長尾分類數據集上的廣泛實驗證明了在長尾分類中所提出的基于對比學習的混合網絡的優勢。

3. Fine-grained Angular Contrastive Learning with Coarse Labels

作者:Guy Bukchin, Eli Schwartz, Kate Saenko, Ori Shahar, Rogerio Feris, Raja Giryes, Leonid Karlinsky

摘要:少樣本學習方法會提供經過優化的預訓練技術,以便使用一個或幾個示例輕松地將模型適應新類別(在訓練過程中看不見)。這種對看不見類別的適應性對于許多實際應用尤為重要,在這些實際應用中,預訓練的標簽空間無法保持固定以有效使用,并且模型需要“專業化”以支持動態的新類別。Coarseto-Fine Few-Shot(C2FS)是一種特別有趣的場景,但被鮮為人知的文獻所忽略,其中訓練類(例如動物)比目標(測試)類(例如品種)具有“更粗糙的粒度”。C2FS的一個非常實際的示例是目標類是訓練類的子類。直觀地講,這是特別具有挑戰性的,因為(規律和少樣本)監督的預訓練往往會學會忽略類內變異性,這對于分離子類至關重要。在本文中,我們介紹了一個新穎的“角度歸一化”模塊,該模塊可以有效地結合監督和自監督的對比預訓練來解決提出的C2FS任務,從而在對多個基準和數據集的廣泛研究中顯示出顯著的收益。我們希望這項工作將有助于為有關C2FS分類這一新的,具有挑戰性且非常實用的主題的未來研究鋪平道路。

網址:

4. MetaSAug: Meta Semantic Augmentation for Long-Tailed Visual Recognition

作者:Shuang Li, Kaixiong Gong, Chi Harold Liu, Yulin Wang, Feng Qiao, Xinjing Cheng

摘要:現實世界中的訓練數據通常呈現長尾分布,其中幾個多數類的樣本數量明顯多于其余少數類。這種不平衡會降低被設計用于平衡訓練集的典型監督學習算法的性能。在本文中,我們通過使用最近提出的隱式語義數據增強(ISDA)算法來增強少數類,以解決該問題,該算法通過沿著語義有意義的方向平移深層特征來產生多樣化的增強樣本。重要的是,鑒于ISDA估計了分類條件統計信息以獲得語義指導,由于訓練數據不足,我們發現在少數群體分類中這樣做是無效的。為此,我們提出了一種新穎的方法,可通過元學習自動學習轉換后的語義方向。具體來說,訓練過程中的擴充策略是動態優化的,旨在最大程度地減少通過平衡更新步驟近似的小的平衡驗證集上的損失。在CIFAR-LT-10 / 100,ImageNet-LT和iNaturalist 2017/2018的廣泛經驗結果驗證了我們方法的有效性。

網址:

5. Model-Contrastive Federated Learning

作者:Qinbin Li, Bingsheng He, Dawn Song

摘要:聯邦學習使多方可以協作訓練機器學習模型,而無需傳達他們的本地數據。聯合學習中的一個關鍵挑戰是處理各方之間本地數據分布的異質性。盡管已經提出了許多研究來應對這一挑戰,但我們發現它們在具有深度學習模型的圖像數據集中無法實現高性能。在本文中,我們提出了MOON:模型對比聯合學習。MOON是一種簡單有效的聯合學習框架。MOON的關鍵思想是利用模型表示之間的相似性來校正單個方面的本地訓練,即在模型級別進行對比學習。我們廣泛的實驗表明,MOON在各種圖像分類任務上明顯優于其他最新的聯邦學習算法。

網址:

付費5元查看完整內容

相關內容

【導讀】ICML(International Conference on Machine Learning),即國際機器學習大會, 是機器學習領域全球最具影響力的學術會議之一,因此在該會議上發表論文的研究者也會備受關注。據官方統計,ICML 2021共有5513篇論文投稿,共有1184篇接受(包括1018篇短論文和166篇長論文),接受率21.48%。

為此,專知小編提前為大家整理了五篇ICML 2021圖神經網絡(Graph Neural Network)最新進展,這塊這幾年一直比較受關注,大家先睹為快——圖正則化、分子式圖神經網絡、時間序列預測、有向圖網絡、GNN泛化

CVPR2021DA、CVPR2021IVC、CVPR2021PID、CVPR2021IC、CVPR2021VU、CVPR2021OD、CVPR2021OT、CVPR2021AR

1. GraphNorm: A Principled Approach to Accelerating Graph Neural Network Training

作者:Tianle Cai, Shengjie Luo, Keyulu Xu, Di He, Tie-Yan Liu, Liwei Wang

摘要:眾所周知,Normalization有助于深度神經網絡的優化。不同的體系結構需要專門的規范化方法。本文研究哪種歸一化對圖神經網絡(GNN)有效。首先,本文采用其他領域GNN的現有方法并評估。與BatchNorm和LayerNorm相比,InstanceNorm可以實現更快的收斂。我們通過將InstanceNorm作為GNN的前提條件來提供解釋,但是由于圖數據集中的大量批處理噪聲,BatchNorm的這種預處理效果較弱。其次,我們證明InstanceNorm中的移位操作會導致GNN的表達性下降,從而影響高度規則的圖。我們提出GraphNorm以可學習的方式解決此問題。根據經驗,與使用其他規范化的GNN相比,具有GraphNorm的GNN收斂更快。GraphNorm還改善了GNN的泛化,在圖分類基準上實現了更好的性能。

論文: //arxiv.org/abs/2009.03294

2. Improving Molecular Graph Neural Network Explainability with Orthonormalization and Induced Sparsity

作者:Ryan Henderson, Djork-Arné Clevert, Floriane Montanari

摘要:對于分子的哪些部分可能會影響分子圖卷積神經網絡(GCNN)的預測,這部分探索相對很困難。為了幫助解決這個問題,本文提出了兩種簡單的正則化方法,在GCNN的訓練過程中應用:批處理表示正態化(Batch Representation Orthonormalization,BRO)和基尼正則化(Gini regularization)。BRO受分子軌道理論的啟發,使圖卷積運算生成正交節點嵌入表示。Gini正則化應用于輸出層的權重,限制模型可用于進行預測的維數。本文表明,Gini和BRO正則化可以提高人工基準數據集上最新的GCNN方法的準確性。在現實世界中,本文證明了藥物化學家非常喜歡從正規化模型中提取解釋。雖然我們僅在GCNN的背景下研究這些正則化,但兩者都可以應用于其他類型的神經網絡。

論文:

3. Z-GCNETs: Time Zigzags at Graph Convolutional Networks for Time Series Forecasting

作者:Yuzhou Chen, Ignacio Segovia-Dominguez, Yulia R. Gel

摘要:最近,一種新的深度學習(DL)架構的變得很火,該架構將明確的時間維度集成為學習和表示機制的基本構建塊。與之相反,許多最新結果表明,觀測數據的拓撲描述符(即數據的持久同源性)可能包含重要的補充信息從而改善DL的性能和魯棒性,這種拓撲描述符以不同比例對拓撲空間中數據集形狀信息進行編碼。隨著這兩個新思想的融合,我們提出使用數據的最顯著的時間條件拓撲信息來增強DL體系結構,并將zigzag持久性的概念引入時間感知圖卷積網絡(GCN)中。zigzag持續性提供了一個系統的、數學上嚴格的框架來跟蹤觀察數據的最重要的拓撲特征,這些特征隨著時間的推移會逐漸顯現。為了將提取的時間條件拓撲描述符集成到DL中,本文開發了一個新的拓撲方法,zigzag持久性圖像,并得出其理論上的穩定性保證。我們使用時間感知zigzag拓撲層(Z-GCNET)驗證了新的GCN,并將其應用于流量預測和以太坊區塊鏈價格預測。結果表明,Z-GCNET在4個時間序列數據集上的表現優于13種最新方法。

論文:

4. Directional Graph Networks

作者:Dominique Beaini, Saro Passaro, Vincent Létourneau, William L. Hamilton, Gabriele Corso, Pietro Liò

摘要:圖神經網絡(GNN)中缺乏各向異性核極大地限制了其表達能力,導致了一些眾所周知的問題,如過度平滑。為了克服這個限制,作者提出了第一個全局一致的各向異性核,允許根據拓撲導出的方向流定義圖卷積。首先,通過在圖中定義矢量場,將具體節點信息投影到場,提出了一種方向導數和平滑的方法。然后,用拉普拉斯特征向量作為這種向量場。在Weisfeiler-Lehman 1-WL檢驗方面,證明了該方法可以在n維網格上泛化CNN,并證明比標準的GNN更有分辨力。在不同的標準基準上評估了本文方法,發現在CIFAR10圖數據集上相對誤差減少了8%,在分子鋅數據集上相對誤差減少了11%到32%,在MolPCBA數據集上相對精度提高了1.6%。這項工作的重要成果是,它使圖網絡能夠以一種無監督的方式嵌入方向,從而能夠更好地表示不同物理或生物問題中的各向異性特征。

論文:

5. Optimization of Graph Neural Networks: Implicit Acceleration by Skip Connections and More Depth

作者:Keyulu Xu, Mozhi Zhang, Stefanie Jegelka, Kenji Kawaguchi

摘要:GNN的表示能力和泛化能力得到了廣泛的研究。但是,它們的優化其實研究的很少。通過研究GNN的梯度動力學,本文邁出分析GNN訓練的第一步。具體來說,首先,本文分析線性化(linearized)的GNN,并證明了:盡管它的訓練不具有凸性,但在我們通過真實圖驗證的溫和假設下,可以保證以線性速率收斂到全局最小值。其次,我們研究什么會影響GNN的訓練速度。結果表明,通過跳過(skip)連接,可以的到更深的深度、良好的標簽分布,可以隱式地加速GNN的訓練。實驗結果證實,我們針對線性GNN的理論結果與非線性GNN的訓練行為一致。我們的結果在優化方面為具有跳過連接的GNN的成功提供了第一個理論支持,并表明具有跳過連接的深層GNN在實踐中將很有希望對。

論文:

付費5元查看完整內容

【導讀】作為計算機視覺領域的三大國際頂會之一,IEEE國際計算機視覺與模式識別會議CVPR(IEEE Conference on Computer Vision and Pattern Recognition) 每年都會吸引全球領域眾多專業人士參與。CVPR 2021將在線舉行, 中國科學院院士、中科院自動化所智能感知與計算研究中心主任譚鐵牛將出任大會主席(General Chair,GC),上海科技大學的虞晶怡教授將任程序主席(Program Chair,PC)。今年的CVPR有效投稿多達7500篇,一共有1663篇論文被接收,接收率為27%。

為此,專知小編提前為大家整理了五篇CVPR 2021對比學習(Contrastive Learning)在計算機視覺上的應用,這塊這幾年一直比較受關注,特別是具體領域應用等等?大家先睹為快——圖像去霧、少樣本學習、多模態視頻學習、密集CL、對抗CL

CVPR2021DA、CVPR2021IVC、CVPR2021PID、CVPR2021IC、CVPR2021VU、CVPR2021OD、CVPR2021OT、CVPR2021AR

1. Contrastive Learning for Compact Single Image Dehazing

作者:Haiyan Wu, Yanyun Qu, Shaohui Lin, Jian Zhou, Ruizhi Qiao, Zhizhong Zhang, Yuan Xie , Lizhuang Ma

摘要:由于嚴重的信息退化,單圖像去霧是一個具有挑戰性的問題。然而,現有的基于深度學習的除霧方法僅采用清晰的圖像作為正樣本來指導除霧網絡的訓練,而未利用負樣本信息。而且,它們中的大多數集中在通過增加深度和寬度來增強除霧網絡,從而導致大量的計算和內存需求。在本文中,我們提出了一種基于對比學習的新穎對比正則化(CR)技術,以利用模糊圖像和清晰圖像的信息分別作為負樣本和正樣本。CR確保在表示空間中將還原后的圖像拉到更接近清晰圖像,并推到遠離朦朧圖像的位置。此外,考慮到性能和內存存儲之間的權衡,我們基于類自動編碼器(AE)框架開發了一個緊湊的除霧網絡。它涉及自適應混合操作和動態特征增強模塊,分別受益于自適應地保存信息流和擴展接收域以提高網絡的轉換能力。我們將具有自動編碼器和對比正則化功能的除霧網絡稱為AECR-Net。在合成和真實數據集上進行的廣泛實驗表明,我們的AECR-Net超越了最新技術。

論文: //arxiv.org/abs/2104.09367

代碼:

2. Fine-grained Angular Contrastive Learning with Coarse Labels

作者:Guy Bukchin, Eli Schwartz, Kate Saenko, Ori Shahar, Rogerio Feris, Raja Giryes, Leonid Karlinsky

摘要:Few-shot學習方法會提供經過優化的預訓練技術,以便使用一個或幾個示例輕松地將模型適應新類(在訓練過程中看不見)。這種對不可見類別的適應性對于許多實際應用尤為重要,在這些實際應用中,預先訓練的標簽空間無法保持固定以有效使用,并且模型需要“特殊化”以支持動態的新類別。粗粒度到細粒度(Coarse-to-Fine)Few-Shot(C2FS)是一種特別有趣的場景,基本上被Few-Shot文獻所忽略,其中訓練(train)類(例如,動物)的粒度比目標(test)類的“粒度”粗得多(例如品種)。C2FS的一個非常實際的示例是目標類是訓練類的子類。直觀地講,這是特別具有挑戰性的,因為包括regular and few-shot的有監督的預訓練往往會學會忽略類內差異性,這對于分離子類至關重要。在本文中,我們介紹了一種新穎的“角度歸一化(Angular normalization)”模塊,該模塊可以有效地結合監督和自監督的對比預訓練來解決C2FS任務,從而證明了在多個基準和數據集的廣泛研究中所取得的顯著成果。我們希望這項工作將有助于為有關C2FS分類這一新的,具有挑戰性且非常實用的主題的未來研究鋪平道路。

論文:

3. Distilling Audio-Visual Knowledge by Compositional Contrastive Learning

作者:Yanbei Chen, Yongqin Xian, A.Sophia Koepke, Ying Shan, Zeynep Akata

摘要:與從單模態學習相比,獲得多模態線索,(例如,視覺和音頻)可以更快地完成某些認知任務。在這項工作中,我們建議在跨模態中傳輸知識,即使這些數據模態在語義上可能不相關。與直接對齊不同模態的表示不同,我們組合音頻,圖像和視頻的跨模態表示,以發現更豐富的多模態知識。我們的主要思想是學習一種組合嵌入表示,這種嵌入可以縮小跨模態語義鴻溝并捕獲與任務相關的語義,這有助于通過組合對比學習將跨模態的表示整合在一起。我們在三個視頻數據集(UCF101,ActivityNet和VG-GSound)上建立了一個新的,全面的多模態蒸餾基準。此外,我們證明了我們的模型在傳輸視聽知識以改善視頻表示學習方面,明顯優于各種現有的知識蒸餾方法。

論文:

代碼:

4. Dense Contrastive Learning for Self-Supervised Visual Pre-Training

作者:Xinlong Wang, Rufeng Zhang, Chunhua Shen, Tao Kong, Lei Li

摘要:迄今為止,大多數現有的自監督學習方法都是針對圖像分類進行設計和優化的。由于圖像級預測和像素級預測之間的差異,這些預訓練的模型對于密集的預測任務可能不是最佳的。為了解決這個問題,我們旨在設計一種有效,密集的自監督學習方法,通過考慮局部特征之間的對應關系,直接在像素(或局部特征)級別上起作用。我們提出了密集的對比學習(DenseCL),該算法通過在輸入圖像的兩個視圖之間的像素級別上優化成對的對比(不相似)損失來實現自監督學習。

與基準方法MoCo-v2相比,我們的方法引入的計算開銷(僅慢了1%)可忽略不計,但是在轉移到下游密集的預測任務(包括目標檢測,語義分割和實例分割)時,始終表現出優異的性能;并大大領先于最新技術。具體而言,在強大的MoCo-v2基線上,我們的方法在PASCAL VOC數據集對象檢測任務上的AP顯著提升2.0%,COCO數據集對象檢測任務上的AP顯著提升1.1%,COCO數據集實例分割任務上的AP提升0.9%,PASCAL VOC數據集語義分割任務上的AP提升3.0% Cityscapes數據集語義分割任務上mIoU顯著提升1.8%。

論文:

代碼:

5. AdCo: Adversarial Contrast for Efficient Learning of Unsupervised Representations from Self-Trained Negative Adversaries

作者:Qianjiang Hu, Xiao Wang, Wei Hu, Guo-Jun Qi

摘要:對比學習依賴于構建一個負樣本集合,當負樣本的表示是經過自訓練時,負樣本很難與正樣本的查詢(query)區分開來。現有的對比學習方法要么在小批量樣本中含有負樣本隊列,而只有一小部分在迭代中被更新,要么只使用當前小批量樣本中的其他樣本作為負樣本。他們無法通過更新整個隊列來密切跟蹤迭代過程中學習到的表示的變化,也無法從使用過的小批量樣本中剔除有用信息。或者,我們提出直接學習一組負樣本來對抗自我訓練的表示。兩個角色,表示網絡和負樣本對抗,交替更新來獲取最具挑戰性的負樣本,以區分正樣本查詢的表示。我們進一步表明,通過最大化對抗性對比損失,負樣本被更新為正樣本查詢的加權組合,從而他們能夠隨著時間密切跟蹤表示的變化。實驗結果表明,本文所提出的對抗對比模型(AdCo)不僅具有出色的性能(在ImageNet上進行線性評估,200個epoch時 top-1準確度為73.2%,800個epoch時為75.7%),而且可以在更短的GPU時間和更少的epoch條件下進行更有效的預訓練。

論文:

代碼:

付費5元查看完整內容

【導讀】作為計算機視覺領域的三大國際頂會之一,IEEE國際計算機視覺與模式識別會議CVPR(IEEE Conference on Computer Vision and Pattern Recognition) 每年都會吸引全球領域眾多專業人士參與。CVPR 2021將在線舉行, 中國科學院院士、中科院自動化所智能感知與計算研究中心主任譚鐵牛將出任大會主席(General Chair,GC),上海科技大學的虞晶怡教授將任程序主席(Program Chair,PC)。今年的CVPR有效投稿多達7500篇,一共有1663篇論文被接收,接收率為27%。

為此,專知小編提前為大家整理了五篇CVPR 2021領域自適應(Domain Adaptation)相關論文,這塊這幾年一直比較受關注,特別是未知域、通用域學習等等?大家先睹為快——真實域泛化、多目標域自適應、通用領域自適應、頻域空間域方法、未知域泛化

CVPR2021IVC、CVPR2021PID、CVPR2021IC、CVPR2021VU、CVPR2021OD、CVPR2021OT、CVPR2021AR

1. Adaptive Methods for Real-World Domain Generalization

作者:Abhimanyu Dubey, Vignesh Ramanathan, Alex Pentland, Dhruv Mahajan

摘要:不變性(Invariant)方法在解決域泛化問題方面非常成功,其目的是對在訓練中使用的數據分布不同的數據分布進行推斷。在我們的工作中,我們調研了是否有可能利用來自不可見的測試樣本本身的域信息。我們提出了一種包含兩個步驟的領域自適應方法:a)我們首先從無監督的訓練示例中學習判別性領域嵌入,以及b)使用該領域嵌入作為補充信息來構建領域自適應模型,該模型同時采用了以下兩種方法:進行預測時要考慮輸入及其域。對于不可見的域,我們的方法僅使用一些未標記的測試示例來構建域嵌入。這可以在任何不可見的域上進行自適應分類。我們的方法可在各種領域通用基準上實現最先進的性能。此外,我們推出了第一個真實的,大規模的領域通用基準測試Geo-YFCC,其中包含110萬個樣本,經過40個訓練,7個驗證和15個測試域,比以前的工作大了幾個數量級。我們顯示,與在所有訓練域的數據聯合上訓練模型的簡單基準相比,現有方法無法擴展到該數據集或表現不佳。相比之下,我們的方法實現了1%的顯著改進。

網址: //arxiv.org/abs/2103.15796

2. Curriculum Graph Co-Teaching for Multi-Target Domain Adaptation

作者:Subhankar Roy, Evgeny Krivosheev, Zhun Zhong, Nicu Sebe, Elisa Ricci

摘要:在本文中,我們討論了多目標域適應(MTDA),其中給定一個標記的源域數據集和多個數據分布不同的未標記的目標域數據集,任務是為所有目標域學習可靠的預測模型。我們確定了兩個關鍵方面,可以幫助減輕MTDA中的多領域轉移:特征聚合和課程學習(curriculum learning)。為此,我們提出了使用雙重分類器的課程圖協同教學模型 Curriculum Graph Co-Teaching(CGCT),其中之一是圖卷積網絡(GCN),該圖卷積網絡匯總了跨域相似樣本的特征。為了防止分類器過分適合自己的嘈雜偽標簽,我們與雙分類器一起使用了一種共同教學策略,并借助課程學習來獲得更可靠的偽標簽。此外,當域標簽可用時,我們提出了Domain-aware Curriculum Learning(DCL),這是一種順序適應策略,首先適應較容易的目標域,然后適應較難的目標域。我們在幾個基準上實驗性地證明了我們提出的框架的有效性,并大幅提高了MTDA中的最新水平(例如,在DomainNet上為+ 5.6%)。

代碼:

網址:

3. Domain Consensus Clustering for Universal Domain Adaptation

作者:Guangrui Li, Guoliang Kang, Yi Zhu, Yunchao Wei, Yi Yang

摘要:在本文中,我們研究了通用域自適應(UniDA)問題,該問題旨在在不對齊的標簽空間下將知識從源域轉移到目標域。UniDA的主要挑戰在于如何將公共類(即跨域共享的類)與私有類(即僅在一個域中存在的類)分開。先前的工作將目標域中的私有樣本視為一個通用類,但忽略了它們的固有結構。因此,所得到的表示在潛在空間中不夠緊湊,并且很容易與普通樣本混淆。為了更好地利用目標域的內在結構,我們提出了Domain Consensus Clustering(DCC),它利用域共識知識來發現普通樣本和私有樣本上的區分性聚類。具體來說,我們從兩個方面汲取領域共識知識,以促進聚類和私有類發現,即語義級別的共識(將周期一致的簇標識為通用類)和樣本級別的共識,利用交叉域分類協議以確定集群的數量并發現私有類。基于DCC,我們能夠將私有類與公共類分開,并區分私有類本身。最后,我們在識別出的常見樣本上應用了分類感知比對技術,以最大程度地減少分布偏移,并應用原型正則化方法來激發可辨別的目標集群。在四個基準上進行的實驗表明,DCC明顯優于以前的最新技術。

網址:

4. FSDR: Frequency Space Domain Randomization for Domain Generalization

作者:Jiaxing Huang, Dayan Guan, Aoran Xiao, Shijian Lu

摘要:域泛化旨在從“已知”源域中為各種“未知”目標域學習可泛化的模型。已經通過域隨機化對它進行了廣泛的研究,該方法將源圖像轉移到空間中的不同樣式以學習域不可知的特征。然而,大多數現有的隨機化方法使用的GAN常常缺乏控制力,甚至改變了圖像的語義結構。受到將空間圖像轉換成多個頻率分量(FC)的JPEG理念的啟發,我們提出了頻空域隨機化(FSDR),該方法通過僅保留域不變FC(DIF)和隨機化域變FC(DVF)來隨機化頻率空間中的圖像。FSDR具有兩個獨特的功能:1)將圖像分解為DIF和DVF,從而允許對其進行顯式訪問和操縱以及更可控的隨機化;2)它對圖像的語義結構和領域不變特征的影響最小。我們統計地檢查了FC的域方差和不變性,并設計了一個網絡,該網絡可以通過迭代學習動態地識別和融合DIF和DVF。對多個領域可概括的分割任務的廣泛實驗表明,FSDR實現了出色的分割,其性能甚至與在訓練中訪問目標數據的領域自適應方法相當。

網址:

5. RobustNet: Improving Domain Generalization in Urban-Scene Segmentation via Instance Selective Whitening

作者:Sungha Choi, Sanghun Jung, Huiwon Yun, Joanne Kim, Seungryong Kim, Jaegul Choo

摘要:將深度神經網絡的泛化能力提高到不可見域對于現實世界中與安全相關的應用(如自動駕駛)至關重要。為了解決這個問題,本文提出了一種新的實例選擇性白化損失(instance selective whitening loss),以提高針對未知域的分割網絡的魯棒性。我們的方法解開了特征表示的高階統計量(即特征協方差)中編碼的特定于域的樣式和域不變內容,并有選擇地僅刪除導致域移位的樣式信息。如圖1所示,我們的方法為(a)低照度,(b)多雨和(c)不可見的結構提供了合理的預測。這些類型的圖像未包含在訓練數據集中,其中基線顯示出明顯的性能下降,這與我們的方法相反。我們的方法提高了各種骨干網絡的魯棒性,而沒有額外的計算成本。我們在城市場景分割中進行了廣泛的實驗,顯示了我們的方法在現有工作中的優越性。

代碼:

網址:

付費5元查看完整內容

【導讀】作為計算機視覺領域的三大國際頂會之一,IEEE國際計算機視覺與模式識別會議CVPR(IEEE Conference on Computer Vision and Pattern Recognition) 每年都會吸引全球領域眾多專業人士參與。CVPR 2021將在線舉行, 中國科學院院士、中科院自動化所智能感知與計算研究中心主任譚鐵牛將出任大會主席(General Chair,GC),上海科技大學的虞晶怡教授將任程序主席(Program Chair,PC)。今年的CVPR有效投稿多達7500篇,一共有1663篇論文被接收,接收率為27%。

為此,專知小編提前為大家整理了五篇CVPR 2021圖像/視頻描述生成(Image/Video Captioning)相關論文,這塊這幾年一直比較受關注,但是競爭也比較激烈,可以看看最新是如何創新,如何開展的?大家先睹為快——RGB-D描述生成、視頻的文本生成、可控圖像描述生成、圖像描述預訓練模型、開放域視頻描述生成

CVPR2021PID、CVPR2021IC、CVPR2021VU、CVPR2021OD、CVPR2021OT、CVPR2021AR

1. Scan2Cap: Context-aware Dense Captioning in RGB-D Scans

作者:Dave Zhenyu Chen, Ali Gholami, Matthias Nie?ner, Angel X. Chang

摘要:在commodity RGB-D 傳感器的3D掃描中,我們介紹了密集描述生成(dense captioning)的任務。作為輸入,我們假設3D場景的點云;預期的輸出是邊界框以及基礎目標的描述。為了解決3D目標檢測和描述生成問題,我們提出了一種Scan2Cap(一種端到端訓練有素的方法),以檢測輸入場景中的目標并以自然語言描述它們。在引用局部上下文的相關組件時,我們使用一種注意力生成機制來生成描述性標記。為了在生成的標題中反映目標關系(即相對空間關系),我們使用信息傳遞圖模塊來促進學習目標關系特征。我們的方法可以有效地定位和描述來自ScanReferdataset的場景中的3D目標,其性能大大優于2D基線方法(27.61%[email protected]改進)。

圖片 網址:

2. VX2TEXT: End-to-End Learning of Video-Based Text Generation From Multimodal Inputs

作者:Xudong Lin, Gedas Bertasius, Jue Wang, Shih-Fu Chang, Devi Parikh, Lorenzo Torresani

摘要:我們介紹了VX2TEXT,這是一個用于從多模態輸入生成文本的框架,該輸入由視頻加上文本,語音或音頻組成。為了利用已被證明在建模語言方面有效的transformer網絡,本文首先將每個模態由可學習的tokenizer生成器轉換為一組語言嵌入。這使我們的方法可以在語言空間中執行多模態融合,從而消除了對臨時跨模態融合模塊的需求。為了解決連續輸入(例如:視頻或音頻)上tokenization的不可區分性,我們使用了一種relaxation 方案(relaxation scheme),該方案可進行端到端訓練。此外,與以前的僅編碼器模型不同,我們的網絡包括自回歸解碼器,可從語言編碼器融合的多模態嵌入中生成開放式文本。這使我們的方法完全具有生成性,并使其可直接應用于不同的“視頻+ x到文本”問題,而無需為每個任務設計專門的網絡負責人。本文所提出的框架不僅在概念上簡單,而且非常有效:實驗表明,我們基于單一體系結構的方法在字幕,問答和視聽這三個基于視頻的文本生成任務上均優于最新技術場景感知對話框架。

網址:

3. Human-like Controllable Image Captioning with Verb-specific Semantic Roles

作者:Long Chen, Zhihong Jiang, Jun Xiao, Wei Liu

摘要:過去幾年來,可控圖像字幕(CIC)(根據指定的控制信號生成圖像描述)受到了前所未有的關注。為了模仿人類控制字幕生成的能力,當前的CIC研究僅關注與客觀屬性(例如:感興趣的內容或描述性模式)有關的控制信號。但是,我們認為幾乎所有現有的目標控制信號都忽略了理想控制信號的兩個必不可少的特征:1)事件兼容:在單個句子中提及的所有視覺內容應與所描述的活動兼容。2)適合樣本:控制信號應適合于特定的圖像樣本。為此,我們為CIC提出了一個新的控制信號:動詞特定的語義角色(VSR)。VSR由一個動詞和一些語義角色組成,它們表示目標活動以及此活動中涉及的實體的角色。給定指定的VSR,我們首先訓練一個語義角色標記(GSRL)模型,以識別每個角色的所有實體。然后,我們提出了一個語義結構計劃器(SSP)來學習類似人的描述性語義結構。最后,我們使用角色轉換描述模型來生成描述。大量的實驗和消融表明,在兩個具有挑戰性的CIC基準測試中,我們的框架比幾個強大的基準可以實現更好的可控性。此外,我們可以輕松生成多層次的不同描述。

代碼:

網址:

4. VirTex: Learning Visual Representations from Textual Annotations

作者:Karan Desai, Justin Johnson

摘要:實際上,許多解決視覺任務的方法是從預訓練的視覺表示開始,通常是通過ImageNet的監督訓練來學習的。最近的方法已經探索了無監督的預訓練,以擴展到大量未標記的圖像。相反,我們旨在從更少的圖像中學習高質量的視覺表示。為此,我們重新審視了有監督的預訓練,并尋求基于數據的有效方法來替代基于分類的預訓練。我們提出了VirTex——這是一種使用語義密集描述來學習視覺表示的預訓練方法。我們從頭開始在COCO Captions上訓練卷積網絡,并將其轉移到下游識別任務,包括圖像分類,目標檢測和實例分割。在所有任務上,VirTex所產生的特征都可以與ImageNet上達到或超過的特征(在監督或無監督的情況下)相提并論,并且其所使用的圖像最多減少十倍。

網址:

5. Open-book Video Captioning with Retrieve-Copy-Generate Network

作者:Ziqi Zhang, Zhongang Qi, Chunfeng Yuan, Ying Shan, Bing Li, Ying Deng, Weiming Hu

摘要:在本文中,我們將傳統的視頻描述任務轉換為一種新的范例,即``Open-book視頻描述'',它可以在與視頻內容相關的句子的提示下生成自然語言,而不僅限于視頻本身。為了解決Open-book的視頻描述問題,我們提出了一種新穎的“檢索-復制-生成”網絡,該網絡中構建了可插入的視頻到文本檢索器,以有效地從訓練語料庫檢索句子作為提示,而復制機制生成器則是引入動態提取多檢索語句中的表達式。這兩個模塊可以端到端或分別進行訓練,這是靈活且可擴展的。我們的框架將傳統的基于檢索的方法與正統的編碼器/解碼器方法進行了協調,它們不僅可以利用檢索到的句子中的各種表達方式,還可以生成自然而準確的視頻內容。在幾個基準數據集上進行的大量實驗表明,我們提出的方法超越了最新技術的性能,表明了在視頻描述任務中提出的范例的有效性和前景。

網址:

付費5元查看完整內容

【導讀】作為計算機視覺領域的三大國際頂會之一,IEEE國際計算機視覺與模式識別會議CVPR(IEEE Conference on Computer Vision and Pattern Recognition) 每年都會吸引全球領域眾多專業人士參與。CVPR 2021將在線舉行, 中國科學院院士、中科院自動化所智能感知與計算研究中心主任譚鐵牛將出任大會主席(General Chair,GC),上海科技大學的虞晶怡教授將任程序主席(Program Chair,PC)。今年的CVPR有效投稿多達7500篇,一共有1663篇論文被接收,接收率為27%。

為此,專知小編提前為大家整理了五篇CVPR 2021視頻理解(Video Understanding)相關論文,讓大家先睹為快——長視頻學習、指稱表達、VideoMoCo、視頻預測、自監督視頻表示學習

CVPR2021OD、CVPR2021AR

1. PGT: A Progressive Method for Training Models on Long Videos

作者:Bo Pang, Gao Peng, Yizhuo Li, Cewu Lu

摘要:卷積視頻模型的計算復雜度比其對應的圖像級模型大一個數量級。受計算資源的約束,沒有模型或訓練方法可以端到端訓練長視頻序列。目前,主流方法是將原始視頻分割成片段,導致片段時間信息流不完整,受自然語言處理長句的啟發,我們建議將視頻視為滿足馬爾可夫性質的連續片段,并將其訓練為通過逐步擴展信息在時間維度上的整體傳播。這種漸進式訓練(PGT)方法能夠以有限的資源端對端地訓練長視頻,并確保信息的有效傳輸。作為一種通用且強大的訓練方法,我們通過經驗證明了該方法在不同模型和數據集上均具有顯著的性能改進。作為說明性示例,我們提出的方法將Chalow上的SlowOnly網絡提高了3.7 mAP,在Kinetics 方面提高了1.9 top-1的精度,而參數和計算開銷卻可以忽略不計。

代碼:

//github.com/BoPang1996/PGT

網址:

2. Co-Grounding Networks with Semantic Attention for Referring Expression Comprehension in Videos

作者:Sijie Song, Xudong Lin, Jiaying Liu, Zongming Guo, Shih-Fu Chang

摘要:在本文中,我們解決了在視頻中引用了指稱表達(Referring Expression)的問題,這個任務由于復雜的表達和場景動態而具有挑戰性。與以前的解決方案可以在多個階段(即跟蹤,基于proposal的匹配)解決問題的方法不同,我們從新穎的角度出發使用單階段框架—co-grounding。我們通過語義注意力學習來提高單幀 grounding 的準確性,并通過聯合co-grounding特征學習來提高跨幀 grounding的一致性。語義注意力學習顯式地解析具有不同屬性的線索,以減少復雜表達中的歧義。co-groundin特征學習通過集成時間相關性來減少由場景動態引起的模糊性,從而增強了視覺特征表示。實驗結果證明了我們的框架在video grounding數據集VID和LiOTB上的優越性,可以跨幀生成準確而穩定的結果。我們的模型還適用于引用圖像中的指稱表達(Referring Expression),這可以通過RefCOCO數據集上的改進性能來說明。

代碼:

網址:

3. VideoMoCo: Contrastive Video Representation Learning with Temporally Adversarial Examples

作者:Tian Pan, Yibing Song, Tianyu Yang, Wenhao Jiang, Wei Liu

摘要:MOCO對于無監督的圖像表示學習是有效的。在本文中,我們針對無監督視頻表示學習提出VideomoCo。給出視頻序列作為輸入樣本,我們從兩個視角改善MoCo的時間特征表示。首先,我們介紹一個生成器,以便在時間上刪除幾個幀。然后學習鑒別器以編碼類似的特征表示,無論幀移除如何。通過在訓練攻擊期間自適應地丟棄不同的幀,我們將該輸入樣本增強以訓練一個時間魯棒的編碼器。其次,在計算對比損耗時,我們使用時間衰減來模擬內存隊列中的鍵(key)衰減。動量編碼器在鍵進入后進行更新,當我們使用當前輸入樣本進行對比學習時,這些鍵的表示能力會下降。這種下降通過時間衰減反映出來,以使輸入樣本進入隊列中的最近鍵。結果,我們使MoCo能夠學習視頻表示,而無需憑經驗設計pretext任務。通過增強編碼器的時間魯棒性并為鍵的時間衰減建模,我們的VideoMoCo基于對比學習在時間上提高了MoCo。在包括UCF101和HMDB51在內的基準數據集上進行的實驗表明,VideoMoCo是最先進的視頻表示學習方法。

代碼:

網址:

4. Greedy Hierarchical Variational Autoencoders for Large-Scale Video Prediction

作者:Bohan Wu, Suraj Nair, Roberto Martin-Martin, Li Fei-Fei, Chelsea Finn

摘要:拓展到不同場景的視頻預測模型將使智能體(agent)能夠通過使用模型規劃來執行多種任務。然而,雖然現有的視頻預測模型在小型數據集上產生了有希望的結果,但在大型和多樣化的數據集上訓練時,它們會遭受嚴重的欠擬合(underfitting)。為了解決這種欠擬合挑戰,我們首先觀察到訓練更大的視頻預測模型的能力通常是通過GPU或TPU的內存限制的。同時,深層次的潛在變量模型可以通過捕獲未來觀測值的多級隨機性來產生更高質量的預測,但是這種模型的端到端優化特別困難。我們的主要想法在于,通過對分層自編碼器的貪婪和模塊化優化可以同時解決內存限制和大規模視頻預測的優化挑戰。我們介紹貪婪的分層變分自編碼器(GHVAES),這是一種通過貪婪訓練分層自編碼器的每個級別來學習Highfivelity視頻預測的方法。GHVAE在四個視頻數據集上的預測性能提高了17-55%,在實際機器人任務上的成功率提高了35-40%,并且可以通過簡單地添加更多內容來提高性能模塊。

代碼:

網址:

5. Removing the Background by Adding the Background: Towards Background Robust Self-supervised Video Representation Learning

作者:Jinpeng Wang, Yuting Gao, Ke Li, Yiqi Lin, Andy J. Ma, Hao Cheng, Pai Peng, Rongrong Ji, Xing Sun

摘要:通過從數據本身監督,自監督學習表現出了提高深神經網絡的視頻表示能力的巨大潛力。然而,一些當前的方法傾向于從背景中欺騙,即,預測高度依賴于視頻背景而不是運動,使得模型容易受到背景的變化。為了減輕模型依賴背景,我們建議通過添加背景來消除背景影響。也就是說,給定視頻,我們隨機選擇靜態幀并將其添加到每個其他幀以構建分散注意力的視頻樣本。然后我們強制模型拉動分散的視頻的特征和原始視頻的特征,以便明確地限制模型以抵抗背景影響,更多地關注運動變化。我們將我們的方法命名為Background Erasing (BE)。值得注意的是,我們的方法的實現非常簡單,可以很輕松地添加到大多數SOTA方法中。具體而言,在嚴重bias的數據集UCF101和HMDB51上具有16.4%和19.1%的改善,對較少bias的數據集Diving48改進了14.5%。

網址:

付費5元查看完整內容

【導讀】作為計算機視覺領域的三大國際頂會之一,IEEE國際計算機視覺與模式識別會議CVPR(IEEE Conference on Computer Vision and Pattern Recognition) 每年都會吸引全球領域眾多專業人士參與。CVPR 2021將在線舉行, 中國科學院院士、中科院自動化所智能感知與計算研究中心主任譚鐵牛將出任大會主席(General Chair,GC),上海科技大學的虞晶怡教授將任程序主席(Program Chair,PC)。今年的CVPR有效投稿多達7500篇,一共有1663篇論文被接收,接收率為27%。

為此,專知小編提前為大家整理了五篇CVPR 2021視覺目標跟蹤(Object Tracking)相關論文,讓大家先睹為快——GCN多目標跟蹤、概率自回歸、旋轉孿生網絡、3D目標檢測和跟蹤、在線多目標跟蹤

CVPR2021OD、CVPR2021AR

1. Learning a Proposal Classifier for Multiple Object Tracking

作者:Peng Dai, Renliang Weng, Wongun Choi, Changshui Zhang, Zhangping He, Wei Ding

摘要:最近多目標跟蹤(MOT)的趨勢正在朝著利用深度學習來推動跟蹤性能的方面發展。但是,以端到端的方式解決數據關聯問題并非易事。在本文中,我們提出了一個新穎的基于proposal的可學習框架,該模型將MOT建模為proposal生成,proposal評分和affinity圖上的軌跡推斷范式。該框架類似于兩階段目標檢測器Faster RCNN,可以以數據驅動的方式解決MOT問題。對于proposa的生成,我們提出了一種迭代圖聚類方法,以降低計算成本,同時保持生成的proposa的質量。對于proposa評分,我們部署了可訓練的圖卷積網絡(GCN),以學習生成的proposa的結構模式,并根據估算的質量得分對它們進行排名。對于軌跡推斷,采用一種簡單的去重疊策略來生成跟蹤輸出,同時遵守不能將檢測分配給一個以上軌道的約束。我們通過實驗證明,相對于以前在兩個公共基準上的最新技術,該方法在MOTA和IDF1中均實現了明顯的性能改進。

代碼: //github.com/daip13/LPC_MOT.git

網址:

2. Probabilistic Tracklet Scoring and Inpainting for Multiple Object Tracking

作者:Fatemeh Saleh, Sadegh Aliakbarian, Hamid Rezatofighi, Mathieu Salzmann, Stephen Gould

摘要:盡管通過聯合檢測和跟蹤實現了多目標跟蹤(MOT)的最新進展,但是處理長距離遮擋仍然是一個挑戰。這是由于這些技術傾向于忽略長期運動信息。在本文中,我們引入了一種概率自回歸運動模型,通過直接測量它們的可能性來對tracklet proposals進行評分。這是我們的模型通過訓練來學習自然軌跡的基本分布來實現的。這樣,我們的模型不僅能夠為現有的軌跡分配新的檢測結果,而且還可以在目標長時間丟失時(例如:遮擋),通過采樣軌跡以填補錯誤檢測引起的差距。我們的實驗證明了我們的方法在具有挑戰性的序列中跟蹤物體的優越性。在多個MOT基準數據集(包括MOT16,MOT17和MOT20)上,它在大多數標準MOT指標上的表現均優于最新技術。

網址:

3. Rotation Equivariant Siamese Networks for Tracking

作者:Deepak K. Gupta, Devanshu Arya, Efstratios Gavves

摘要:旋轉是視覺目標跟蹤中長期存在但尚未解決的艱巨挑戰之一。現有的基于深度學習的跟蹤算法使用常規的CNN,這些CNN本質上是平移不變的,它們并沒有解決旋轉問題。在本文中,我們首先證明在視頻中存在旋轉實例時,現有跟蹤器的性能會受到嚴重影響。為了避免旋轉的不利影響,我們提出了等速旋轉孿生網絡(RE-SiamNets),該網絡是通過使用包含可控濾波器的等分組卷積層構建的。SiamNets允許以無監督的方式估計目標方向的變化,從而也方便了其在相對2D姿勢估計中的使用。我們進一步表明,通過對兩個連續幀之間的方向變化施加限制,這種方向變化可以用于在孿生(Siamese)跟蹤中施加附加的運動約束。為了進行基準測試,我們展示了旋轉跟蹤基準(RTB),它是一個包含一組帶有旋轉實例的視頻的數據集。通過對兩種流行的孿生體系結構進行的實驗,我們證明RE-SiamNets很好地解決了旋轉問題,并且性能優于常規同類產品。此外,RE-SiamNets可以以無監督的方式準確估算目標姿勢的相對變化,即目標相對于參考框架的平面內旋轉。

網址:

4. Center-based 3D Object Detection and Tracking

作者:Tianwei Yin, Xingyi Zhou, Philipp Kr?henbühl

摘要:三維目標通常表示為點云中的3D框。這種表示方法借鑒了基于圖像的2D邊界框檢測,但同時其也帶來了其他挑戰。3D世界中的目標不遵循任何特定的方向,基于box的檢測器很難枚舉所有方向或將軸對齊的邊界框擬合到旋轉的目標。在本文中,我們提出將3D目標表示為點,并進行檢測和跟蹤。我們的框架CenterPoint首先使用關鍵點檢測器檢測目標的中心,然后回歸到其他屬性,包括3D大小,3D方向和速度。在第二階段,它使用目標上的其他點特征來完善這些估計。在CenterPoint中,3D目標跟蹤可簡化為貪婪的最近點匹配。這樣得到的檢測和跟蹤算法簡單,高效且有效。CenterPoint在nuScenes基準上實現了3D檢測和跟蹤的最先進性能,單個模型具有65.5 NDS和63.8 AMOTA。在Waymo開放數據集上,CenterPoint大大優于所有以前的單一模型方法,并且在所有僅Lidar提交中排名第一。

代碼:

網址:

5. Track to Detect and Segment: An Online Multi-Object Tracker

作者:Jialian Wu, Jiale Cao, Liangchen Song, Yu Wang, Ming Yang, Junsong Yuan

摘要:大多數在線多目標跟蹤器在神經網絡中獨立執行目標檢測,而無需跟蹤任何輸入。在本文中,我們介紹了一個新的在線聯合檢測和跟蹤模型TraDeS(用于檢測和分段的TRack),它利用跟蹤線索來輔助端到端檢測。TraDeS推斷目標跟蹤偏移量為成本,用于傳播先前的目標特征以改善當前目標的檢測和分割。TraDeS的有效性和優越性顯示在4個數據集上,包括MOT(2D跟蹤),nuScenes(3D跟蹤),MOTS和Youtube-VIS(實例分割跟蹤)。

代碼:

網址:

付費5元查看完整內容

【導讀】作為計算機視覺領域的三大國際頂會之一,IEEE國際計算機視覺與模式識別會議CVPR(IEEE Conference on Computer Vision and Pattern Recognition) 每年都會吸引全球領域眾多專業人士參與。CVPR 2021將在線舉行, 中國科學院院士、中科院自動化所智能感知與計算研究中心主任譚鐵牛將出任大會主席(General Chair,GC),上海科技大學的虞晶怡教授將任程序主席(Program Chair,PC)。今年的CVPR有效投稿多達7500篇,一共有1663篇論文被接收,接收率為27%。

為此,專知小編提前為大家整理了五篇CVPR 2021行為識別(Action Recognition)相關論文,讓大家先睹為快——Action-Net、黑盒對抗攻擊、Coarse-Fine 網絡、時序差分網絡、對抗攻擊

CVPR2021OD

1. ACTION-Net: Multipath Excitation for Action Recognition

作者:Zhengwei Wang, Qi She, Aljosa Smolic

摘要:時空,channel-wise和運動模式是視頻動作識別的三種互補且至關重要的信息類型。傳統的2D CNN在計算上簡單,但無法捕捉時間關系。3D CNN可以實現良好的性能,但計算量很大。在這項工作中,我們通過設計可以嵌入到2D CNN中的通用有效模塊來解決這一難題。為此,我們提出了一個時空,通道和運動激發(ACTION)模塊,該模塊由三個路徑組成:時空激發(STE)路徑,通道激發(CE)路徑和運動激發(ME)路徑。STE路徑采用一個通道3D卷積來表征時空表示。CE路徑通過在時間方面明確地建模通道之間的相互依賴性,來自適應地重新校準通道方式的特征響應。ME路徑計算特征級別的時間差異,然后將其用于激發運動敏感通道。我們為2D CNN集成了ACTION模塊,以形成一個簡單而有效的ACTION-Net,這樣可以減少額外的計算成本。通過使用三個數據集(即Something-Something V2,Jester和EgoGesture)在三個主干網(即ResNet-50,MobileNet V2和BNInception)上始終優于2D CNN,證明了ACTION-Net的有效性。

代碼:

//github.com/V-Sense/ACTION-Net

網址:

2. BASAR:Black-box Attack on Skeletal Action Recognition

作者:Yunfeng Diao, Tianjia Shao, Yong-Liang Yang, Kun Zhou, He Wang

摘要:骨骼運動作為獨立的數據源或補充,在人類動作識別中起著至關重要的作用。最近,基于骨骼的動作識別器的魯棒性受到了質疑,當攻擊者可以全面了解識別器時,它們很容易受到對抗性攻擊。但是,在大多數情況下,此白盒要求過于嚴格,并且攻擊并未真正造成威脅。在本文中,我們證明了這種威脅在黑盒設置下也確實存在。為此,我們提出了第一種黑盒對抗攻擊方法BASAR。通過BASAR,我們證明對抗攻擊不僅是真正的威脅,而且可能是極具欺騙性的,因為流形上的對抗性樣本在骨骼運動中相當普遍,這與通常認為對抗性樣本僅在流形之外存在形成了鮮明的對比。通過詳盡的評估和比較,表明BASAR可以成功跨越模型,數據和攻擊模式進行攻擊。通過嚴格的感知研究,我們表明它可以實現有效而又不易察覺的攻擊。通過分析對不同動作識別器的攻擊,BASAR可以幫助確定其脆弱性的潛在原因,并提供有關哪些分類器可能更強大地抵抗攻擊的見解。

網址:

3. Coarse-Fine Networks for Temporal Activity Detection in Videos

作者:Kumara Kahatapitiya, Michael S. Ryoo

摘要:在本文中,我們介紹了Coarse-Fine網絡,這是一種雙流架構,該架構利用不同時間分辨率,來學習更好的長期運動視頻表示。傳統的視頻模型以一種(或幾種)固定的時間分辨率處理輸入,而沒有考慮任何動態幀選擇。但是,我們認為,處理輸入的多個時間分辨率并通過學習估計每個幀的重要性來動態地執行此操作可以極大地改善視頻表示,特別是在時序動作定位領域。為此,我們提出(1)“Grid Pool”,一個時間下采樣層,用于提取粗略特征;以及,(2)“多階段融合”,一種時空注意力機制,用于融合細粒度的上下文與粗略的特征。我們證明了本文的方法可以在包括Charades在內的公共數據集中勝過最新的動作檢測,并且顯著減少了計算和內存占用。

網址:

4. TDN: Temporal Difference Networks for Efficient Action Recognition

作者:Limin Wang, Zhan Tong, Bin Ji, Gangshan Wu

摘要:對于視頻中的行動識別仍然具有挑戰性。為緩解此問題,本文提出了一種新的視頻架構,稱為時間差分網絡(Temporal Difference Network, TDN),重點是捕獲多尺度時間信息以進行高效動作識別。我們TDN的核心是通過明確地利用時間差分操作設計有效的時間模塊(TDM),并系統地評估其對短期和長期運動建模的影響。為了在整個視頻中完全捕獲時間信息,我們的TDN是采用兩級差分建模范例建立的。具體而言,對于局部運動建模,連續幀上的時間差異用于為2D CNN提供更精細的運動模式,而對于全局運動建模,跨段的時間差異被并入以捕獲用于運動特征激勵的遠程結構。TDN提供了簡單而有原則的時間建模框架,可以用現有的CNN實例化,而所需的額外計算成本很小。我們的TDN在Something-Something V1和V2數據集上展示了最新的技術水平,可以與Kinetics-400數據集上的最佳性能相提并論。此外,我們進行了深入的消融研究并繪制了TDN的可視化結果,希望能對時差操作提供深入的分析。

代碼:

網址:

5. Understanding the Robustness of Skeleton-based Action Recognition under Adversarial Attack

作者:He Wang, Feixiang He, Zhexi Peng, Yong-Liang Yang, Tianjia Shao, Kun Zhou, David Hogg

摘要:動作識別已在許多應用中被大量采用,例如自動駕駛,監控等,其中,魯棒性是首要考慮的問題。在本文中,我們研究了最前沿的動作識別器對付對抗攻擊的魯棒性,到目前為止,這種魯棒性很少被研究。為此,我們提出了一種新的攻擊依賴3D骨骼運動的動作識別器的方法。我們的方法涉及創新的感知損失,可確保攻擊的感知力。實證研究表明,我們的方法在白盒和黑盒方案中均有效。在各種動作識別器和數據集上都證明了其通用性。它的多功能性在不同的攻擊策略中得到了體現。其欺騙性在廣泛的感知研究中得到了證明。我們的方法表明,對3D骨骼運動(一種時間序列數據)的對抗攻擊與傳統的對抗攻擊問題顯著不同。它的成功引起了對動作識別器魯棒性的嚴重關注,并為潛在的改進提供了見解。

網址:

付費5元查看完整內容

【導讀】作為計算機視覺領域的三大國際頂會之一,IEEE國際計算機視覺與模式識別會議CVPR(IEEE Conference on Computer Vision and Pattern Recognition) 每年都會吸引全球領域眾多專業人士參與。CVPR 2021將在線舉行, 中國科學院院士、中科院自動化所智能感知與計算研究中心主任譚鐵牛將出任大會主席(General Chair,GC),上海科技大學的虞晶怡教授將任程序主席(Program Chair,PC)。今年的CVPR有效投稿多達7500篇,一共有1663篇論文被接收,接收率為27%。

為此,專知小編提前為大家整理了五篇CVPR 2021視覺目標檢測(Object Detection)相關論文,讓大家先睹為快——開放域目標檢測、實例蒸餾、多實例主動學習、自監督多目標檢測、少樣本目標檢測

1. Towards Open World Object Detection

作者:K J Joseph, Salman Khan, Fahad Shahbaz Khan, Vineeth N Balasubramanian

摘要:人類具有識別其環境中未知目標實例的本能。當相應的知識最終可用時,對這些未知實例的內在好奇心有助于學習它們。這促使我們提出了一個新穎的計算機視覺問題:“開放世界目標檢測”,該模型的任務是:1)在沒有明確監督的情況下將尚未引入該目標的目標識別為“未知”,以及2)當逐漸接收到相應的標簽時,逐步學習這些已識別的未知類別,而不會忘記先前學習的類別。我們提出了問題,引入了強大的評價準則并提供了一種新穎的解決方案,我們稱之為ORE:基于對比聚類和基于能量的未知標識的開放世界目標檢測器。我們的實驗評估和消去實驗研究分析了ORE在實現開放世界目標方面的功效。作為一個有趣的副產品,我們發現識別和表征未知實例有助于減少增量目標檢測設置中的混亂,在此方法中,我們無需任何方法上的努力即可獲得最先進的性能。我們希望我們的工作將吸引對這個新發現的但至關重要的研究方向的進一步研究。

圖片 代碼:

//github.com/JosephKJ/OWOD

網址:

2. General Instance Distillation for Object Detection

作者:Xing Dai, Zeren Jiang, Zhao Wu, Yiping Bao, Zhicheng Wang, Si Liu, Erjin Zhou

摘要:近年來,知識蒸餾已被證明是模型壓縮的有效解決方案。這種方法可以使輕量級的學生模型獲得從繁瑣的教師模型中提取的知識。但是,先前的蒸餾檢測方法對于不同的檢測框架具有較弱的概括性,并且嚴重依賴ground truth (GT),而忽略了實例之間有價值的關系信息。因此,我們提出了一種新的基于區分性實例檢測任務的蒸餾方法,該方法不考慮GT區分出的正例或負例,這稱為一般實例蒸餾(GID)。我們的方法包含一個通用實例選擇模塊(GISM),以充分利用基于特征的,基于關系的和基于響應的知識進行蒸餾。廣泛的結果表明,在各種檢測框架下,學生模型可顯著提高AP的表現,甚至優于教師模型。具體來說,在Reconet上使用ResNet-50的RetinaNet在COCO數據集上具有GID的mAP達到了39.1%,比基線的36.2%超出了2.9%,甚至比具有38.1%的AP的基于ResNet-101的教師模型更好。

圖片 網址:

3. Multiple Instance Active Learning for Object Detection

作者:Tianning Yuan, Fang Wan, Mengying Fu, Jianzhuang Liu, Songcen Xu, Xiangyang Ji, Qixiang Ye

摘要:盡管主動學習(active learning)在圖像識別方面取得了長足的進步,但仍然缺乏為目標檢測任務設置的實例級主動學習方法。在本文中,我們提出了多實例主動學習(MIAL),通過觀察實例級別的不確定性來選擇信息量最大的圖像進行檢測器訓練。MIAL定義了實例不確定性學習模塊,該模塊利用在標記集上訓練的兩個對抗性實例分類器的差異來預測未標記集的實例不確定性。MIAL將未標記的圖像視為實例包,并將圖像中的特征錨視為實例,并通過以多實例學習(MIL)方式對實例重新加權來估計圖像不確定性。迭代實例不確定性學習和重新加權有助于抑制嘈雜的實例,以彌合實例不確定性和圖像級不確定性之間的差距。實驗證明,MIAL為實例級的主動學習設置了堅實的基準。在常用的目標檢測數據集上,MIAL具有明顯的優勢,優于最新方法,尤其是在標記集很小的情況下。

圖片 代碼:

4. There is More than Meets the Eye: Self-Supervised Multi-Object Detection and Tracking with Sound by Distilling Multimodal Knowledge

作者:Francisco Rivera Valverde, Juana Valeria Hurtado, Abhinav Valada

摘要:目標固有的聲音屬性可以提供有價值的線索,以學習豐富的表示形式來進行目標檢測和跟蹤。此外,可以通過僅監視環境中的聲音來利用視頻中視聽事件的共現來在圖像上定位目標。到目前為止,這僅在攝像機靜止且用于單個目標檢測的情況下才可行。此外,這些方法的魯棒性受到限制,因為它們主要依賴于高度易受光照和天氣變化影響的RGB圖像。在這項工作中,我們提出了一種新穎的自監督的MM-DistillNet框架,該框架由多名教師組成,這些教師利用RGB,深度和熱圖像等多種模式,同時利用互補線索和提煉知識到單個音頻學生網絡中。我們提出了新的MTA損失函數,該函數有助于以自監督的方式從多模態教師中提取信息。此外,我們為有聲讀物的學生提出了一種新穎的自監督的前置任務,使我們不必依賴勞動強度大的人工注釋。我們引入了一個大型多模態數據集,其中包含113,000多個時間同步的RGB,深度,熱和音頻模態幀。大量實驗表明,我們的方法優于最新方法,同時能夠在推理甚至移動過程中僅使用聲音來檢測多個目標。

圖片 網址:

5. Semantic Relation Reasoning for Shot-Stable Few-Shot Object Detection

作者:Chenchen Zhu, Fangyi Chen, Uzair Ahmed, Marios Savvides

摘要:由于真實世界數據固有的長尾分布,少樣本目標檢測是當前非常需要研究的問題。它的性能在很大程度上受到新的類別數據匱乏的影響。但是,無論數據可用性如何,新穎類和基類之間的語義關系都是恒定的。在這項工作中,我們研究將這種語義關系與視覺信息一起使用,并將顯式關系推理引入新穎目標檢測的學習中。具體來說,我們通過從大型語料庫中學到的語義嵌入來表示每個類的概念。檢測要求將目標的圖像表示投影到此嵌入空間中。我們發現如果僅僅使用啟發式知識圖譜作為原始嵌入是遠遠不夠的,提出使用一種動態關系圖來擴展原始嵌入向量。因此,我們提出的SRR-FSD的少樣本檢測器對于新目標的變化能夠保持穩定的性能。實驗表明,SRR-FSD可以在higher shots下獲得還不錯的結果,更重要地是,在較低的explicit shots和implicit shots的情況下,SRR-FSD的性能也要好得多。

圖片 網址:

付費5元查看完整內容

【導讀】機器學習頂會 NeurIPS 2020, 是人工智能領域全球最具影響力的學術會議之一,因此在該會議上發表論文的研究者也會備受關注。據官方統計,今年NeurIPS 2020 共收到論文投稿 9454 篇,接收 1900 篇(其中 oral 論文 105 篇、spotlight 論文 280 篇),論文接收率為 20.1%。近期,NeurIPS 2020快開會了,小編發現域自適應(Domain Adaptation)相關的接受paper很多,這塊研究方向近幾年一直很火,并且各個CV和NLP的域自適應任務也非常多。

為此,這期小編為大家奉上NeurIPS 2020必讀的六篇域自適應(Domain Adaptation)相關論文——One-shot 無監督域自適應、圖模型、啟發式域自適應、自監督、多源域自適應

NeurIPS 2020 Accepted Papers : //proceedings.neurips.cc/paper/2020

NIPS2020CI、ICLR2020CI、ICML2020CI

1. Adversarial Style Mining for One-Shot Unsupervised Domain Adaptation

作者:Yawei Luo, Ping Liu, Tao Guan, Junqing Yu, Yi Yang

摘要:我們針對One-Shot無監督域自適應的問題。與傳統的無監督域適應不同,它假定學習適應時只能使用一個未標記的目標樣本。這種設置是現實的,但更具挑戰性,在這種情況下,傳統的自適應方法由于缺少未標記的目標數據而容易失敗。為此,我們提出了一種新穎的對抗式風格挖掘方法,該方法將風格遷移模塊和特定于任務模塊組合成對抗的方式。具體來說,風格遷移模塊會根據當前的學習狀態,迭代搜索One-Shot目標樣本周圍的較難的風格化圖像,從而使任務模型探索在不可知的目標領域中難以解決的潛在風格,從而增強了數據稀缺情況下的適應性能。對抗學習框架使風格遷移模塊和特定于任務模塊在競爭中彼此受益。在跨域分類和分割基準方面的大量實驗證明,ASM在具有挑戰性的One-Shot設置下達到了最新的自適應性能。

網址:

2. Domain Adaptation as a Problem of Inference on Graphical Models

作者:Kun Zhang, Mingming Gong, Petar Stojanov, Biwei Huang, QINGSONG LIU, Clark Glymour

摘要:本文涉及數據驅動的無監督域自適應,在這種情況下,事先不知道跨域的聯合分布如何變化,即數據分布的哪些因素或模塊保持不變或跨域變化。為了研究具有多個源域的域自適應方法,我們提出使用圖模型作為一種緊湊(compact)的方式來編碼聯合分布的變化屬性,該屬性可以從數據中學習,然后將域自適應視為一個關于圖模型的貝葉斯推斷問題。這種圖模型區分了分布的恒定和變化模塊,并指定了跨域變化的特性,這是變化模塊的先驗知識,目的是得出目標域中目標變量Y的后驗。這提供了域自適應的端到端框架,可以將關于聯合分布如何變化的其他知識(如果可用)直接合并以改善圖表示。我們討論如何將基于因果關系的域適應置于此保護之下。和真實數據的實驗結果證明了所提出的域適應框架的功效。

代碼:

網址:

3. Heuristic Domain Adaptation

作者:shuhao cui, Xuan Jin, Shuhui Wang, Yuan He, Qingming Huang

摘要:在視覺域自適應(DA)中,將特定于域的特征與不依賴于域的表示形式分開是一個病態(ill-posed)問題。現有方法采用不同的先驗方法或直接最小化域差異來解決此問題,這在處理實際情況時缺乏靈活性。另一個研究方向是將特定域的信息表示為逐步遷移的過程,這在準確刪除特定域的屬性方面往往不是最佳選擇。在本文中,我們從啟發式搜索的角度解決了域不變和域特定信息的建模問題。我們將現有的特征標識為啟發式表示形式,從而導致更大的域差異。在啟發式表示的指導下,我們制定了一個具有良好理論依據的啟發式域自適應(HDA)原則框架。為了執行HDA,在學習過程中,將域不變和域特定表示之間的余弦相似性評分和獨立性度量放入初始和最終狀態的約束中。類似于啟發式搜索的最終條件,我們進一步推導出一個約束,以強制約束啟發式網絡輸出的最終范圍較小。因此,我們提出了啟發式域自適應網絡(HDAN),該網絡明確學習了具有上述約束的域不變和域特定表示。大量實驗表明,HDAN在無監督DA,多源DA和半監督DA方面已超過了最新技術。

代碼:

網址:

4. Transferable Calibration with Lower Bias and Variance in Domain Adaptation

作者:Ximei Wang, Mingsheng Long, Jianmin Wang, Michael Jordan

摘要:域自適應(DA)可以將學習器從標記的源域轉移到未標記的目標域。盡管已經取得了顯著的進步,但大多數現有的DA方法都專注于提高推理的目標精度。如何估計DA模型的預測不確定性對于安全重要型場景中的決策至關重要,但其仍然是研究的邊界。在本文中,我們研究了DA校準(Calibration)中的開放性問題,該問題是由于域轉移和缺少目標標簽共存所造成的,這一問題極具挑戰性。我們首先揭示了DA模型以經過良好校準的概率為代價來學習更高的精度的困境。基于這一發現,我們提出了可遷移校準(TransCal),以在統一的無超參數優化框架中以較低的偏差和方差實現更準確的校準。作為常規的post-hoc 校準方法,TransCal可以輕松地應用于重新校準現有的DA方法。從理論上和經驗上都證明了其有效性。

網址:

5. Universal Domain Adaptation through Self-Supervision

作者:Kuniaki Saito, Donghyun Kim, Stan Sclaroff, Kate Saenko

摘要:傳統上,無監督域自適應方法假定所有源類別都存在于目標域中。實際上,對于兩個域之間的類別重疊知之甚少。雖然某些方法使用部分或開放類別來解決目標設置,但它們假定特定設置是先驗的。我們提出了一種更通用的域自適應框架,該框架可以處理任意類別轉換,稱為通過熵優化(DANCE)的域自適應鄰域聚類。DANCE結合了兩種新穎的思想:首先,由于我們不能完全依靠源類別來學習針對目標的判別性特征,因此我們提出了一種新穎的鄰域聚類技術,以一種自監督的方式來學習目標域的結構。其次,我們使用基于熵的特征對齊和拒絕來將目標特征與源對齊,或基于它們的熵將它們拒絕為未知類別。我們通過廣泛的實驗表明,在開放集,開放部分和部分域適應設置中,DANCE的性能均優于基線。

代碼:

網址:

6. Your Classifier can Secretly Suffice Multi-Source Domain Adaptation

作者:Naveen Venkat, Jogendra Nath Kundu, Durgesh Singh, Ambareesh Revanur, R. Venkatesh Babu

摘要:多源域適應(MSDA)解決在域轉移(domain-shift)下將任務知識從多個標記的源域轉移到未標記的目標域。現有方法旨在使用輔助分布對齊目標來最小化該域偏移。在這項工作中,我們提出了與MSDA不同的觀點,我們觀察到了深度模型以在標簽監督下隱式對齊域。因此,我們旨在利用隱式對齊方式而無需其他訓練目標來進行適應。為此,我們使用偽標記的目標樣本并在偽標記上執行分類器協議,此過程稱為自監督隱式比對(SImpA1)。我們發現,即使在源域之間的類別轉換下,SImpAl仍然可以輕松工作。此外,我們提出了分類器一致性作為確定訓練收斂的線索,從而產生了一種簡單的訓練算法。我們在五個基準上對我們的方法進行了全面的評估,并對方法的每個組成部分進行了詳細的分析。

網址:

付費5元查看完整內容
北京阿比特科技有限公司