亚洲男人的天堂2018av,欧美草比,久久久久久免费视频精选,国色天香在线看免费,久久久久亚洲av成人片仓井空

預訓練已被證實能夠大大提升下游任務的性能。傳統方法中經常利用大規模的帶圖像標注分類數據集(如 ImageNet)進行模型監督預訓練,近年來自監督學習方法的出現,讓預訓練任務不再需要昂貴的人工標簽。然而,絕大多數方法都是針對圖像分類進行設計和優化的。但圖像級別的預測和區域級別 / 像素級別存在預測差異,因此這些預訓練模型在下游的密集預測任務上的性能可能不是最佳的。

基于此,來自阿德萊德大學、同濟大學、字節跳動的研究者設計了一種簡單且有效的密集自監督學習方法,不需要昂貴的密集人工標簽,就能在下游密集預測任務上實現出色的性能。目前該論文已被 CVPR 2021 接收。

//www.zhuanzhi.ai/paper/4b31c2807b7c37ca49ca8f7c43b4b7d4

該研究提出的新方法 DenseCL(Dense Contrastive Learning)通過考慮局部特征之間的對應關系,直接在輸入圖像的兩個視圖之間的像素(或區域)特征上優化成對的對比(不相似)損失來實現密集自監督學習。

兩種用于表征學習的對比學習范式的概念描述圖。

現有的自監督框架將同一張圖像的不同數據增強作為一對正樣本,利用剩余圖像的數據增強作為其負樣本,構建正負樣本對實現全局對比學習,這往往會忽略局部特征的聯系性與差異性。該研究提出的方法在此基礎上,將同一張圖像中最為相似的兩個像素(區域)特征作為一對正樣本,而將余下所有的像素(區域)特征作為其負樣本實現密集對比學習。

具體而言,該方法去掉了已有的自監督學習框架中的全局池化層,并將其全局映射層替換為密集映射層實現。在匹配策略的選擇上,研究者發現最大相似匹配和隨機相似匹配對最后的精度影響非常小。與基準方法 MoCo-v2[1] 相比,DenseCL 引入了可忽略的計算開銷(僅慢了不到 1%),但在遷移至下游密集任務(如目標檢測、語義分割)時,表現出了十分優異的性能。

付費5元查看完整內容

相關內容

通過潛在空間的對比損失最大限度地提高相同數據樣本的不同擴充視圖之間的一致性來學習表示。對比式自監督學習技術是一類很有前途的方法,它通過學習編碼來構建表征,編碼使兩個事物相似或不同

基于自監督學習的Bert[1]預訓練模型在NLP領域大放光彩,在多項下游任務中均取得很好的效果。Bert在無標注的語料中充分地學到了通用的知識,那么很容易引出一個問題,CV領域是否也可以“復現”Bert的成功呢?近年比較火熱的對比學習或許是這個問題的一個答案。

對比學習(Contrastive Learning)是自監督學習的一種,需要從無標注的圖像數據中學習特征表示,并用于下游任務中。其指導原則是:通過自動構造相似實例和不相似實例,學習一個表示學習模型,通過這個模型,使得相似的實例在投影空間中比較接近,而不相似的實例在投影空間中距離比較遠。本文將介紹對比學習的基本思路以及經典的MoCo系列[2][3][4]、SimCLR系列模型[5][6],了解對比學習的方法和特性。

[1] Devlin, Jacob, et al. "Bert: Pre-training of deep bidirectional transformers for language understanding." arXiv preprint arXiv:1810.04805 (2018).

[2] He, Kaiming, et al. "Momentum contrast for unsupervised visual representation learning." Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. 2020.

[3] Chen, Xinlei, et al. "Improved baselines with momentum contrastive learning." arXiv preprint arXiv:2003.04297 (2020).

[4] Chen, Xinlei, Saining Xie, and Kaiming He. "An empirical study of training self-supervised visual transformers." arXiv preprint arXiv:2104.02057 (2021).

[5] Chen, Ting, et al. "A simple framework for contrastive learning of visual representations." International conference on machine learning. PMLR, 2020.

[6] Chen, Ting, et al. "Big self-supervised models are strong semi-supervised learners." arXiv preprint arXiv:2006.10029 (2020).

[7] Contrastive Self-Supervised Learning //ankeshanand.com/blog/2020/01/26/contrative-self-supervised-learning.html

[8] Kingma, Diederik P., and Max Welling. "Auto-encoding variational bayes." arXiv preprint arXiv:1312.6114 (2013).

[9] Goodfellow, Ian J., et al. "Generative adversarial networks." arXiv preprint arXiv:1406.2661 (2014).

[10] Caron, Mathilde, et al. "Unsupervised learning of visual features by contrasting cluster assignments." arXiv preprint arXiv:2006.09882 (2020).

[11] Grill, Jean-Bastien, et al. "Bootstrap your own latent: A new approach to self-supervised learning." arXiv preprint arXiv:2006.07733 (2020).

[12] Chen, Xinlei, and Kaiming He. "Exploring Simple Siamese Representation Learning." arXiv preprint arXiv:2011.10566 (2020).

[13] Gao, Tianyu, Xingcheng Yao, and Danqi Chen. "SimCSE: Simple Contrastive Learning of Sentence Embeddings." arXiv preprint arXiv:2104.08821 (2021).

付費5元查看完整內容

本文研究了卷積神經網絡(CNN)和視覺語言預訓練Transformer(VLPT)的聯合學習,旨在從數百萬個圖像-文本對中學習跨模態對齊。當前大多數文章都是先抽取出圖像中的顯著性區域,再將其與文字一一對齊。由于基于區域的視覺特征通常代表圖像的一部分,因此現有的視覺語言模型要充分理解配對自然語言的語義是一項挑戰。由于基于區域的視覺特征通常代表圖像的一部分,現有的視覺語言模型很難完全理解成對自然語言的語義。本文提出SOHO“開箱即看”的概念,將完整的圖像為輸入,以一種端到端的方式學習視覺語言表達。SOHO不需要邊界框標注,這使得推理速度比基于區域的方法快10倍。特別地,SOHO學會了通過視覺詞典(VD)來提取全面而緊湊的圖像特征,這有助于跨模態理解。大量的實驗結果也驗證了本文SOHO的有效性。

//www.zhuanzhi.ai/paper/a8c52c4b641c0a5bc840a955b6258b39

付費5元查看完整內容

一種基于知識蒸餾的弱監督圖像文本匹配模型

Improving Weakly Supervised Visual Grounding by Contrastive Knowledge Distillation

本文由騰訊 AI Lab 主導完成。弱監督的圖像文本匹配旨在學習僅使用圖像句子的對應來得到細顆粒度的圖像區域和短語的對應. 因此,主要的挑戰在于訓練期間圖像區域和句子短語之間缺少匹配的數據。

為了應對這一挑戰,我們在訓練時利用了通用的物體檢測器知識蒸餾,并提出了利用對比學習來得到圖像和文本細顆粒度匹配的新方法。我們的方法在弱監督的視覺區域和短語匹配任務上超越了以前的方法。

//www.zhuanzhi.ai/paper/d59e9b614122852f5a78b38a14d43921

付費5元查看完整內容

論文:Adaptive Consistency Regularization for Semi-Supervised Transfer Learning 鏈接: //www.zhuanzhi.ai/paper/43d085f2c66d68b77584edcb0ee36ba0 代碼:

盡管最近半監督學習的研究在利用標記和未標記數據方面有顯著進步,但大多數假設模型的基本設置是隨機初始化的。

因此本文將半監督學習和遷移學習相結合提出了一種半監督的轉移學習框架,該方法不僅能利用目標域(目標任務數據集)中的標記/未標記數據,還能利用源域(具有不同語義的通用數據集,如:ImageNet)中的預訓練模型。為了更好地利用預訓練權重和未標記目標數據,我們引入了自適應一致性正則化,它由兩個互補組件組成:源模型和目標模型之間的示例上的自適應知識一致性(AKC),以及自適應表示一致性(ARC) ),在目標模型上標記和未標記的示例之間,根據它們對目標任務的潛在貢獻,自適應地選擇一致性正則化中涉及的示例。

通過微調ImageNet預訓練的ResNet-50模型,我們在幾個流行的基準上進行了廣泛的實驗,包括CUB-200-2011,MIT Indoor-67,MURA。結果表明,我們提出的自適應一致性正則化性能優于最新的半監督學習技術,例如Pseudo Label,Mean Teacher和MixMatch。此外,我們的算法能與現有方法共同使用,因此能夠在MixMatch和FixMatch之上獲得其他改進。

本文的主要貢獻包含以下三點:

1、第一個提出用于深度神經網絡的半監督轉移學習框架 2、利用半監督學習和轉移學習的特性引入自適應一致性正則化來改善半監督轉移學習 3、實驗結果表明所提出的自適應一致性正則化性能優于最新的半監督學習技術

付費5元查看完整內容

以往的人臉圖像質量評估研究大多以樣本層面不確定性或配對相似度作為質量評分標準,而且只考慮部分類內信息。這些方法忽略了來自類間有價值的信息。在本研究中,對于人臉識別系統,我們認為一個高質量的人臉圖像應該與其類內樣本相似,而與其類間樣本不相似,如圖1所示。為此,我們提出了一種基于類內-類間相似度分布距離的無監督人臉質量評估方法(SDD-FIQA)。

//www.zhuanzhi.ai/paper/b51b03b10fb5b413e14282835e0e8a6a

該方法從人臉識別的性能影響因子出發,從理論上推導出人臉樣本類間相似度分布與人臉圖像質量高度相關,利用類內相似度分布和類間相似度分布之間的Wasserstein距離生成人臉圖像質量偽標簽。然后,利用這些質量偽標簽進行無監督訓練一個人臉質量回歸網絡,從而獲得一個質量評估模型。大量實驗表明,在各大人臉識別的基準數據集上,提出的SDD-FIQA方法在不同的人臉識別系統下,精度和泛化能力都達到國際最先進水平。

主要創新點:1)發現了人臉樣本類間相似度分布與人臉圖像質量高度相關;2)提出了類內-類間相似度分布距離的概念;3)從理論上導出了人臉圖像質量與類內-類間相似度分布距離直接相關;4)提出了利用Wasserstein準則度量類內-類間相似度分布距離,并用于人臉圖像質量評分;5)實現了一種完全無監督的人臉圖像質量評估算法,性能最優。

付費5元查看完整內容

自監督學習已被廣泛應用于從未標記圖像中獲取可轉移的表示。特別是,最近的對比學習方法在下游圖像分類任務中表現出了令人印象深刻的性能。這些對比方法主要集中在語義保留變換下的圖像級上生成不變的全局表示,容易忽略局部表示的空間一致性,因此在目標檢測和實例分割等本地化任務的預處理中存在一定的局限性。此外,在現有的對比方法中使用的積極裁剪視圖可以最小化單個圖像中語義不同區域之間的表示距離。

在本文中,我們提出了一種用于多目標和特定位置任務的空間一致表示學習算法(SCRL)。特別地,我們設計了一個新的自監督目標,試圖根據幾何平移和縮放操作產生隨機裁剪局部區域的連貫空間表示。在使用基準數據集的各種下游定位任務上,提出的SCRL顯示了相對于圖像級監督前訓練和最先進的自監督學習方法的顯著性能改進。代碼將會被發布。

//www.zhuanzhi.ai/paper/86fc25415eef2e6e1ed9019494ce1fcf

付費5元查看完整內容

//www.zhuanzhi.ai/paper/cc9fa0af60aee58e256bce07f15065a0

code:

本文是新加坡國立大學Qinbin Hou&Jiashi Feng等人在注意力機制方面的一次探索,針對如何有效提升移動網絡的卷積特征表達能力,以及通道注意力(如SE)機制能夠有效建模通道間相關性但忽視了位置信息的問題,提出了一種的新穎的注意力機制:Coordinate Attention。

Coordinate Attention通過水平與垂直方向注意力圖捕獲特征的遠程依賴關系,而且水平與垂直注意力還可以有效保持精確的位置信息。所提注意力集中的精確位置信息無論對于分類,還是檢測與分割而言都是一種非常重要的性能,因而所提注意力機制在圖像分類、目標檢測以及語義分割方面均取得了顯著的性能提升,尤其需要注意的是,所提注意力尤其適合于語義分割等稠密預測任務

移動網絡設計的近期研究表明:通道注意力(如Squeeze-and-Excitation)機制對于提升模型性能極為有效,但是忽略了位置信息,這對于生成空間選擇注意力圖非常重要。

針對通道注意力機制存在的上述問題,我們提出了一種用于移動網絡的新穎注意力機制:它將位置信息嵌入到通道注意力中,我們將其稱之為Coordinate Attention。不同于通道注意力將特征張量通過GAP轉換為特征向量,坐標注意力將通道注意力拆分為兩個1D特征編碼過程,分別沿著兩個空間方向集成特征。

通過這種處理,遠程相關性可以通過空間方向捕獲,于此同時,精確的位置信息可以通過另一個空間方向得以保持。所得到的特征圖分辨編碼為成對的方向相關注意力圖與通道注意力圖(兩者具有互補性),并用于增強輸入特征以增廣目標的表達能力。

所提坐標注意力機制極為簡單,可以靈活嵌入到現有移動網絡(比如MobileNetV2, MobileN2Xt, EfficientNet)中,且幾乎不會導致額外的計算負載。

我們通過實驗證實:坐標注意力不僅有助于ImageNet分類,在下游任務(比如目標檢測、語義分割)上表達更佳。下圖給出了所提注意力與SE/CBAM在不同任務上的性能對比。

付費5元查看完整內容

Adaptive Consistency Regularization for Semi-Supervised Transfer Learning Abulikemu Abuduweili1,2*, Xingjian Li1,3? , Humphrey Shi2? , Cheng-Zhong Xu3 , Dejing Dou1?

雖然最近關于半監督學習的研究在利用標記和未標記數據方面取得了顯著進展,但大多數研究都假定模型的基本設置是隨機初始化的。在這項工作中,我們將半監督學習和遷移學習結合起來,從而形成一個更實用和更具競爭力的范式,該范式可以利用來自源領域的強大的預訓練模型以及目標領域的標記/未標記數據。更好地利用pre-trained權重和標記的價值目標的例子,我們引入自適應一致性互補正規化,由兩部分組成:自適應知識一致性(AKC)在源和目標之間的示例模型和自適應表示一致性(AKC)標記和未標記示例之間的目標模型。一致性正則化所涉及的實例是根據它們對目標任務的潛在貢獻自適應選擇的。通過微調ImageNet預先訓練的ResNet-50模型,我們對流行基準進行了廣泛的實驗,包括CIFAR-10、CUB-200、Indoor67和MURA。結果表明,我們提出的自適應一致性正則化優于最先進的半監督學習技術,如偽標簽、Mean Teacher和MixMatch。此外,我們的算法與現有的方法是正交的,因此能夠在MixMatch和FixMatch之上獲得額外的改進。我們的代碼可以在//github.com/SHI-Labs/SemiSupervised-Transfer-Learning上找到。

付費5元查看完整內容

【導讀】無監督學習再發力!Facebook AI 研究團隊的陳鑫磊、樊昊棋、Ross Girshick、何愷明等人提出了第二版動量對比(MoCo)的無監督訓練方法。使用一個MLP投影頭和更多的數據增強——建立了比Hinton前一久的SimCLR更強的基準,并且不需要大量的訓練。

對比式無監督學習最近取得了令人鼓舞的進展,例如動量對比(MoCo)和SimCLR。在本文中,我們通過在MoCo框架中實現SimCLR的兩個設計改進來驗證它們的有效性。通過對MoCo的簡單修改——即使用一個MLP投影頭和更多的數據增強——我們建立了比SimCLR更強的基準,并且不需要大量的訓練。我們希望這將使最先進的無監督學習研究更容易獲得。代碼將被公開。

論文鏈接://arxiv.org/pdf/2003.04297.pdf

最近關于從圖像中進行無監督表示學習的研究[16,13,8,17,1,9,15,6,12,2]都集中在一個中心概念上,即對比學習[5]。結果是非常有希望的:例如,動量對比(MoCo)[6]表明,在多個檢測和分割任務中,無監督前訓練可以超越其圖像監督后,而SimCLR[2]進一步減少了無監督和監督前預訓練表示之間的線性分類器性能的差距。

本文介紹在MoCo框架內建立了更強、更可行的基線。我們報告了SimCLR中使用的兩個設計改進,即一個MLP投影頭和更強的數據增強,與MoCo和SimCLR框架是正交的,當與MoCo一起使用時,它們會帶來更好的圖像分類和目標檢測遷移學習結果。此外,MoCo框架可以處理大量的負樣本,而不需要大量的訓練批(圖1)。與需要TPU支持的SimCLR的大4k~8k批相比,我們的“MoCo v2”基線可以在典型的8-GPU機器上運行,并且獲得比SimCLR更好的結果。我們希望這些改進的基線能夠為未來的無監督學習研究提供參考。

圖1:對比學習的兩種優化機制的批處理透視圖。圖像被編碼到一個表示空間中,在這個表示空間中計算成對的相似度。

方法

對比學習及其最新進展可以看做是為查詞典任務訓練一個編碼器。

假設有一個編碼的查詢 q 和一組編碼的樣本 {k0, k1, k2, ...},它們都是詞典的鍵。詞典中有一個鍵(k+)與 q 相匹配。對比損失是一個函數,該函數的值在 q 類似于其正鍵 k+且不同于其他所有鍵(q 的負鍵)時很低。研究者使用點積的相似度度量,這是一種對比損失函數的形式,名為 InfoNCE。本文采用了這個函數:

這一對比損失函數充當一個無監督目標函數,用于訓練表征查詢和鍵的編碼器網絡。總體來說,查詢表征是 q = f_q(x^q ),其中的 f_q 是一個編碼器網絡,x^q 是查詢樣本。

改進設計

SimCLR[2]在三個方面改進了實例識別的端到端變體:(i)能夠提供更多負樣本的更大的批處理(4k或8k);(ii)將輸出的fc投影頭[16]替換為MLP頭;(三)數據擴充能力增強。

在MoCo框架中,大量的負樣本是現成的;MLP頭和數據擴充與對比學習的實例化方式是正交的。接下來,我們研究MoCo中的這些改進。

實驗設置

在1.28M的ImageNet[3]訓練集上進行無監督學習。(i) ImageNet線性分類:對特征進行凍結,訓練監督線性分類器;我們報告了1種crop(224×224),驗證準確率排名第一。(ii) 遷移到VOC目標檢測[4]:更快的R-CNN檢測器[14](c4 -主干)在VOC 07+12訓練集上對所有條目(包括監督和MoCo v1基線)進行端到端微調,我們對VOC進行24k迭代微調,高于[6]中的18k。并在VOC 07測試集上使用COCO標準[10]進行評估。我們使用與MoCo[6]相同的超參數(除非特別指出)和代碼庫。所有結果使用標準大小的ResNet-50[7]。

MLP頭 在[2]之后,我們將MoCo中的fc頭替換為2層MLP頭(隱藏層2048-d,使用ReLU)。注意,這只影響到非監督訓練階段;線性分類或遷移階段不使用這個MLP頭。[2]之后,我們尋找一個最佳的τ關于ImageNet線性分類準確率:

使用默認τ= 0.07[16,6],訓練的MLP頭提高從60.6%至62.9%;切換到MLP的最優值(0.2),準確度度提高到66.2%。表1(a)顯示了它的檢測結果:與ImageNet上的大飛躍相比,檢測增益更小。

數據增強 我們通過在[2]中加入模糊增強來擴展[6]中的原始增強(我們發現在[2]中更強的顏色失真在我們更高的基線中有遞減的增益)。單獨的額外增加(即(no MLP)將ImageNet上的MoCo基線提高了2.8%,達到63.4%,見表1(b)。有趣的是,它的檢測準確率比單獨使用MLP要高,表1(b)與(a),盡管線性分類準確度要低得多(63.4%比66.2%)。這說明線性分類精度與檢測中的遷移性能不是單調相關的。對于MLP,額外的增強將ImageNet的精度提高到67.3%,見表1(c)。

與SimCLR進行比較 表2將SimCLR[2]與我們的結果MoCo v2進行了比較。為了公平比較,我們還研究了SimCLR采用的一個余弦(半周期)學習速率調度[11]。表1(d, e)。MoCo v2使用200個epoch和256個批量大小的預訓練,在ImageNet上達到67.5%的準確率,比SimCLR在相同epoch和批量大小下的準確率高5.6%,比SimCLR的大批量結果高66.6%。通過800-epoch的預訓練,MoCo v2達到了71.1%,超過了SimCLR的69.3%,達到了1000個epoch。

計算成本

在表3中,我們報告了實現的內存和時間成本。端到端案例反映了GPU中的SimCLR成本(而不是[2]中的TPUs)。即使在高端的8-GPU機器上,4k的批處理大小也是難以處理的。而且,在相同的批處理大小為256的情況下,端到端變體在內存和時間上仍然更昂貴,因為它向后傳播到q和k編碼器,而MoCo只向后傳播到q編碼器。

表2和表3表明,為了獲得良好的準確性,不需要大的訓練批處理。我們研究的改進只需要對MoCo v1進行幾行代碼更改,我們將公開代碼以方便將來的研究。

付費5元查看完整內容
北京阿比特科技有限公司