亚洲男人的天堂2018av,欧美草比,久久久久久免费视频精选,国色天香在线看免费,久久久久亚洲av成人片仓井空

Vision Prompt Tuning

Xing Nie, Gaofeng Meng, Jianlong Chang, Chunlei Huo, Shiming Xiang, Qi Tian, Zhaoxiang Zhang, Chunhong Pan

在計算機視覺中,微調是一種實用的利用預先訓練的視覺模型來執行下游任務的方法。然而,由于這類方法多采用低效的全局參數更新策略,以及嚴重依賴于高質量的下游數據,在實踐中部署非常具有挑戰性。最近,基于prompt learning的方法增加了與任務相關的提示以使下游任務適應預訓練模型,極大地提高了許多自然語言下游任務的性能。在這項工作中,我們將這種顯著的遷移能力擴展到視覺模型中,作為微調的替代方案。為此,我們提出了視覺提示調整(VPT),這是一種參數有效的視覺調整范式,可將凍結的視覺模型適應到下游數據。VPT 的關鍵是基于提示的調優,即只學習與輸入圖像連接的特定任務視覺提示,并凍結預訓練模型。通過這種方式,VPT 只需訓練少量額外參數即可生成緊湊且穩健的下游模型。大量實驗有力地證明,我們的方法在十五個下游視覺數據集上優于當前的調整范例,包括圖像損壞、對抗性示例、長尾分布和OOD問題等。

VPT結構示意圖

付費5元查看完整內容

相關內容

CVPR 2022 將于2022年 6 月 21-24 日在美國的新奧爾良舉行。CVPR是IEEE Conference on Computer Vision and Pattern Recognition的縮寫,即IEEE國際計算機視覺與模式識別會議。該會議是由IEEE舉辦的計算機視覺和模式識別領域的頂級會議,會議的主要內容是計算機視覺與模式識別技術。

知識薈萃

精品入門和進階教程、論文和代碼整理等

更多

查看相關VIP內容、論文、資訊等

多模態視頻字幕的端到端生成預訓練】End-to-end Generative Pretraining for Multimodal Video Captioning
● 論文摘要:最近的視頻和語言前訓練框架缺乏生成句子的能力。我們提出了多模態視頻生成預訓練(MV-GPT),這是一個新的用于從無標簽視頻學習的預訓練框架,它可以有效地用于生成任務,如多模態視頻字幕。與最近的視頻語言預訓練框架不同,我們的框架同時訓練多模態視頻編碼器和句子解碼器。為了克服無標簽視頻中字幕的缺乏,我們利用未來話語作為一個額外的文本源,并提出一個雙向生成目標——我們在當前多模態語境下生成未來話語,在未來觀察下也生成當前話語。基于此目標,我們訓練一個端到端的編碼器-解碼器模型來直接從原始像素和轉錄語音生成標題。我們的模型在四個標準基準上的多模態視頻字幕以及其他視頻理解任務(如VideoQA、視頻檢索和動作分類)上都達到了最先進的性能。
● 論文鏈接://arxiv.org/abs/2201.08264
● 作者單位:Google Research

付費5元查看完整內容

對比學習允許我們通過對比消極樣本中的正對來靈活地定義強大的損失函數。最近,該原理也被用于學習視頻和文本的跨模態嵌入,但沒有充分發揮其潛力。特別是之前的損失沒有考慮模態內的相似性,導致嵌入效率低下,因為相同的內容被映射到嵌入空間的多個點上。在CrossCLR中,我們提出了一個對比損失來解決這個問題。此外,我們根據輸入嵌入定義了高度相關的樣本集,并將其從負樣本中排除,以避免假負樣本性問題。我們表明,這些原則持續地提高了學習嵌入的質量。通過CrossCLR學習的聯合嵌入擴展了Youcook2和LSMDC數據集上的視頻文本檢索和Youcook2數據集上的視頻字幕的技術水平。我們還通過學習其他對模式的改進的關節嵌入來證明這個概念的通用性。

//www.zhuanzhi.ai/paper/91484725dec5fe4f3db2e6bb2ca9a448

付費5元查看完整內容

【導讀】作為計算機視覺領域的三大國際頂會之一,IEEE國際計算機視覺與模式識別會議CVPR(IEEE Conference on Computer Vision and Pattern Recognition) 每年都會吸引全球領域眾多專業人士參與。CVPR 2021將在線舉行, 中國科學院院士、中科院自動化所智能感知與計算研究中心主任譚鐵牛將出任大會主席(General Chair,GC),上海科技大學的虞晶怡教授將任程序主席(Program Chair,PC)。今年的CVPR有效投稿多達7500篇,一共有1663篇論文被接收,接收率為27%。

為此,專知小編提前為大家整理了五篇CVPR 2021對比學習(Contrastive Learning)在計算機視覺上的應用,這塊這幾年一直比較受關注,特別是具體領域應用等等?大家先睹為快——圖像去霧、少樣本學習、多模態視頻學習、密集CL、對抗CL

CVPR2021DA、CVPR2021IVC、CVPR2021PID、CVPR2021IC、CVPR2021VU、CVPR2021OD、CVPR2021OT、CVPR2021AR

1. Contrastive Learning for Compact Single Image Dehazing

作者:Haiyan Wu, Yanyun Qu, Shaohui Lin, Jian Zhou, Ruizhi Qiao, Zhizhong Zhang, Yuan Xie , Lizhuang Ma

摘要:由于嚴重的信息退化,單圖像去霧是一個具有挑戰性的問題。然而,現有的基于深度學習的除霧方法僅采用清晰的圖像作為正樣本來指導除霧網絡的訓練,而未利用負樣本信息。而且,它們中的大多數集中在通過增加深度和寬度來增強除霧網絡,從而導致大量的計算和內存需求。在本文中,我們提出了一種基于對比學習的新穎對比正則化(CR)技術,以利用模糊圖像和清晰圖像的信息分別作為負樣本和正樣本。CR確保在表示空間中將還原后的圖像拉到更接近清晰圖像,并推到遠離朦朧圖像的位置。此外,考慮到性能和內存存儲之間的權衡,我們基于類自動編碼器(AE)框架開發了一個緊湊的除霧網絡。它涉及自適應混合操作和動態特征增強模塊,分別受益于自適應地保存信息流和擴展接收域以提高網絡的轉換能力。我們將具有自動編碼器和對比正則化功能的除霧網絡稱為AECR-Net。在合成和真實數據集上進行的廣泛實驗表明,我們的AECR-Net超越了最新技術。

論文: //arxiv.org/abs/2104.09367

代碼:

2. Fine-grained Angular Contrastive Learning with Coarse Labels

作者:Guy Bukchin, Eli Schwartz, Kate Saenko, Ori Shahar, Rogerio Feris, Raja Giryes, Leonid Karlinsky

摘要:Few-shot學習方法會提供經過優化的預訓練技術,以便使用一個或幾個示例輕松地將模型適應新類(在訓練過程中看不見)。這種對不可見類別的適應性對于許多實際應用尤為重要,在這些實際應用中,預先訓練的標簽空間無法保持固定以有效使用,并且模型需要“特殊化”以支持動態的新類別。粗粒度到細粒度(Coarse-to-Fine)Few-Shot(C2FS)是一種特別有趣的場景,基本上被Few-Shot文獻所忽略,其中訓練(train)類(例如,動物)的粒度比目標(test)類的“粒度”粗得多(例如品種)。C2FS的一個非常實際的示例是目標類是訓練類的子類。直觀地講,這是特別具有挑戰性的,因為包括regular and few-shot的有監督的預訓練往往會學會忽略類內差異性,這對于分離子類至關重要。在本文中,我們介紹了一種新穎的“角度歸一化(Angular normalization)”模塊,該模塊可以有效地結合監督和自監督的對比預訓練來解決C2FS任務,從而證明了在多個基準和數據集的廣泛研究中所取得的顯著成果。我們希望這項工作將有助于為有關C2FS分類這一新的,具有挑戰性且非常實用的主題的未來研究鋪平道路。

論文:

3. Distilling Audio-Visual Knowledge by Compositional Contrastive Learning

作者:Yanbei Chen, Yongqin Xian, A.Sophia Koepke, Ying Shan, Zeynep Akata

摘要:與從單模態學習相比,獲得多模態線索,(例如,視覺和音頻)可以更快地完成某些認知任務。在這項工作中,我們建議在跨模態中傳輸知識,即使這些數據模態在語義上可能不相關。與直接對齊不同模態的表示不同,我們組合音頻,圖像和視頻的跨模態表示,以發現更豐富的多模態知識。我們的主要思想是學習一種組合嵌入表示,這種嵌入可以縮小跨模態語義鴻溝并捕獲與任務相關的語義,這有助于通過組合對比學習將跨模態的表示整合在一起。我們在三個視頻數據集(UCF101,ActivityNet和VG-GSound)上建立了一個新的,全面的多模態蒸餾基準。此外,我們證明了我們的模型在傳輸視聽知識以改善視頻表示學習方面,明顯優于各種現有的知識蒸餾方法。

論文:

代碼:

4. Dense Contrastive Learning for Self-Supervised Visual Pre-Training

作者:Xinlong Wang, Rufeng Zhang, Chunhua Shen, Tao Kong, Lei Li

摘要:迄今為止,大多數現有的自監督學習方法都是針對圖像分類進行設計和優化的。由于圖像級預測和像素級預測之間的差異,這些預訓練的模型對于密集的預測任務可能不是最佳的。為了解決這個問題,我們旨在設計一種有效,密集的自監督學習方法,通過考慮局部特征之間的對應關系,直接在像素(或局部特征)級別上起作用。我們提出了密集的對比學習(DenseCL),該算法通過在輸入圖像的兩個視圖之間的像素級別上優化成對的對比(不相似)損失來實現自監督學習。

與基準方法MoCo-v2相比,我們的方法引入的計算開銷(僅慢了1%)可忽略不計,但是在轉移到下游密集的預測任務(包括目標檢測,語義分割和實例分割)時,始終表現出優異的性能;并大大領先于最新技術。具體而言,在強大的MoCo-v2基線上,我們的方法在PASCAL VOC數據集對象檢測任務上的AP顯著提升2.0%,COCO數據集對象檢測任務上的AP顯著提升1.1%,COCO數據集實例分割任務上的AP提升0.9%,PASCAL VOC數據集語義分割任務上的AP提升3.0% Cityscapes數據集語義分割任務上mIoU顯著提升1.8%。

論文:

代碼:

5. AdCo: Adversarial Contrast for Efficient Learning of Unsupervised Representations from Self-Trained Negative Adversaries

作者:Qianjiang Hu, Xiao Wang, Wei Hu, Guo-Jun Qi

摘要:對比學習依賴于構建一個負樣本集合,當負樣本的表示是經過自訓練時,負樣本很難與正樣本的查詢(query)區分開來。現有的對比學習方法要么在小批量樣本中含有負樣本隊列,而只有一小部分在迭代中被更新,要么只使用當前小批量樣本中的其他樣本作為負樣本。他們無法通過更新整個隊列來密切跟蹤迭代過程中學習到的表示的變化,也無法從使用過的小批量樣本中剔除有用信息。或者,我們提出直接學習一組負樣本來對抗自我訓練的表示。兩個角色,表示網絡和負樣本對抗,交替更新來獲取最具挑戰性的負樣本,以區分正樣本查詢的表示。我們進一步表明,通過最大化對抗性對比損失,負樣本被更新為正樣本查詢的加權組合,從而他們能夠隨著時間密切跟蹤表示的變化。實驗結果表明,本文所提出的對抗對比模型(AdCo)不僅具有出色的性能(在ImageNet上進行線性評估,200個epoch時 top-1準確度為73.2%,800個epoch時為75.7%),而且可以在更短的GPU時間和更少的epoch條件下進行更有效的預訓練。

論文:

代碼:

付費5元查看完整內容

【導讀】作為計算機視覺領域的三大國際頂會之一,IEEE國際計算機視覺與模式識別會議CVPR(IEEE Conference on Computer Vision and Pattern Recognition) 每年都會吸引全球領域眾多專業人士參與。CVPR 2021將在線舉行, 中國科學院院士、中科院自動化所智能感知與計算研究中心主任譚鐵牛將出任大會主席(General Chair,GC),上海科技大學的虞晶怡教授將任程序主席(Program Chair,PC)。今年的CVPR有效投稿多達7500篇,一共有1663篇論文被接收,接收率為27%。

為此,專知小編提前為大家整理了五篇CVPR 2021視頻理解(Video Understanding)相關論文,讓大家先睹為快——長視頻學習、指稱表達、VideoMoCo、視頻預測、自監督視頻表示學習

CVPR2021OD、CVPR2021AR

1. PGT: A Progressive Method for Training Models on Long Videos

作者:Bo Pang, Gao Peng, Yizhuo Li, Cewu Lu

摘要:卷積視頻模型的計算復雜度比其對應的圖像級模型大一個數量級。受計算資源的約束,沒有模型或訓練方法可以端到端訓練長視頻序列。目前,主流方法是將原始視頻分割成片段,導致片段時間信息流不完整,受自然語言處理長句的啟發,我們建議將視頻視為滿足馬爾可夫性質的連續片段,并將其訓練為通過逐步擴展信息在時間維度上的整體傳播。這種漸進式訓練(PGT)方法能夠以有限的資源端對端地訓練長視頻,并確保信息的有效傳輸。作為一種通用且強大的訓練方法,我們通過經驗證明了該方法在不同模型和數據集上均具有顯著的性能改進。作為說明性示例,我們提出的方法將Chalow上的SlowOnly網絡提高了3.7 mAP,在Kinetics 方面提高了1.9 top-1的精度,而參數和計算開銷卻可以忽略不計。

代碼:

//github.com/BoPang1996/PGT

網址:

2. Co-Grounding Networks with Semantic Attention for Referring Expression Comprehension in Videos

作者:Sijie Song, Xudong Lin, Jiaying Liu, Zongming Guo, Shih-Fu Chang

摘要:在本文中,我們解決了在視頻中引用了指稱表達(Referring Expression)的問題,這個任務由于復雜的表達和場景動態而具有挑戰性。與以前的解決方案可以在多個階段(即跟蹤,基于proposal的匹配)解決問題的方法不同,我們從新穎的角度出發使用單階段框架—co-grounding。我們通過語義注意力學習來提高單幀 grounding 的準確性,并通過聯合co-grounding特征學習來提高跨幀 grounding的一致性。語義注意力學習顯式地解析具有不同屬性的線索,以減少復雜表達中的歧義。co-groundin特征學習通過集成時間相關性來減少由場景動態引起的模糊性,從而增強了視覺特征表示。實驗結果證明了我們的框架在video grounding數據集VID和LiOTB上的優越性,可以跨幀生成準確而穩定的結果。我們的模型還適用于引用圖像中的指稱表達(Referring Expression),這可以通過RefCOCO數據集上的改進性能來說明。

代碼:

網址:

3. VideoMoCo: Contrastive Video Representation Learning with Temporally Adversarial Examples

作者:Tian Pan, Yibing Song, Tianyu Yang, Wenhao Jiang, Wei Liu

摘要:MOCO對于無監督的圖像表示學習是有效的。在本文中,我們針對無監督視頻表示學習提出VideomoCo。給出視頻序列作為輸入樣本,我們從兩個視角改善MoCo的時間特征表示。首先,我們介紹一個生成器,以便在時間上刪除幾個幀。然后學習鑒別器以編碼類似的特征表示,無論幀移除如何。通過在訓練攻擊期間自適應地丟棄不同的幀,我們將該輸入樣本增強以訓練一個時間魯棒的編碼器。其次,在計算對比損耗時,我們使用時間衰減來模擬內存隊列中的鍵(key)衰減。動量編碼器在鍵進入后進行更新,當我們使用當前輸入樣本進行對比學習時,這些鍵的表示能力會下降。這種下降通過時間衰減反映出來,以使輸入樣本進入隊列中的最近鍵。結果,我們使MoCo能夠學習視頻表示,而無需憑經驗設計pretext任務。通過增強編碼器的時間魯棒性并為鍵的時間衰減建模,我們的VideoMoCo基于對比學習在時間上提高了MoCo。在包括UCF101和HMDB51在內的基準數據集上進行的實驗表明,VideoMoCo是最先進的視頻表示學習方法。

代碼:

網址:

4. Greedy Hierarchical Variational Autoencoders for Large-Scale Video Prediction

作者:Bohan Wu, Suraj Nair, Roberto Martin-Martin, Li Fei-Fei, Chelsea Finn

摘要:拓展到不同場景的視頻預測模型將使智能體(agent)能夠通過使用模型規劃來執行多種任務。然而,雖然現有的視頻預測模型在小型數據集上產生了有希望的結果,但在大型和多樣化的數據集上訓練時,它們會遭受嚴重的欠擬合(underfitting)。為了解決這種欠擬合挑戰,我們首先觀察到訓練更大的視頻預測模型的能力通常是通過GPU或TPU的內存限制的。同時,深層次的潛在變量模型可以通過捕獲未來觀測值的多級隨機性來產生更高質量的預測,但是這種模型的端到端優化特別困難。我們的主要想法在于,通過對分層自編碼器的貪婪和模塊化優化可以同時解決內存限制和大規模視頻預測的優化挑戰。我們介紹貪婪的分層變分自編碼器(GHVAES),這是一種通過貪婪訓練分層自編碼器的每個級別來學習Highfivelity視頻預測的方法。GHVAE在四個視頻數據集上的預測性能提高了17-55%,在實際機器人任務上的成功率提高了35-40%,并且可以通過簡單地添加更多內容來提高性能模塊。

代碼:

網址:

5. Removing the Background by Adding the Background: Towards Background Robust Self-supervised Video Representation Learning

作者:Jinpeng Wang, Yuting Gao, Ke Li, Yiqi Lin, Andy J. Ma, Hao Cheng, Pai Peng, Rongrong Ji, Xing Sun

摘要:通過從數據本身監督,自監督學習表現出了提高深神經網絡的視頻表示能力的巨大潛力。然而,一些當前的方法傾向于從背景中欺騙,即,預測高度依賴于視頻背景而不是運動,使得模型容易受到背景的變化。為了減輕模型依賴背景,我們建議通過添加背景來消除背景影響。也就是說,給定視頻,我們隨機選擇靜態幀并將其添加到每個其他幀以構建分散注意力的視頻樣本。然后我們強制模型拉動分散的視頻的特征和原始視頻的特征,以便明確地限制模型以抵抗背景影響,更多地關注運動變化。我們將我們的方法命名為Background Erasing (BE)。值得注意的是,我們的方法的實現非常簡單,可以很輕松地添加到大多數SOTA方法中。具體而言,在嚴重bias的數據集UCF101和HMDB51上具有16.4%和19.1%的改善,對較少bias的數據集Diving48改進了14.5%。

網址:

付費5元查看完整內容
北京阿比特科技有限公司