亚洲男人的天堂2018av,欧美草比,久久久久久免费视频精选,国色天香在线看免费,久久久久亚洲av成人片仓井空

當前計算機視覺中流行的骨干網絡,如視覺transformer (ViT)和ResNets,經過訓練可以從2D圖像中感知世界。為更有效地理解2D骨干中的3D結構先驗,本文提出Mask3D,在自監督預訓練中利用現有的大規模RGB-D數據,將這些3D先驗嵌入到2D學習的特征表示中.與需要3D重建或多視圖對應的傳統3D對比學習范式相比,所提出方法很簡單:通過屏蔽單個RGB- D幀中的RGB和深度補丁來制定前文本重建任務。Mask3D在將3D先驗嵌入到強大的2D ViT主干中特別有效,能對各種場景理解任務進行改進的表示學習,如語義分割、實例分割和目標檢測。實驗表明,Mask3D在ScanNet、NYUv2和Cityscapes圖像理解任務上明顯優于現有的自監督3D預訓練方法,在ScanNet圖像語義分割上比最先進的Pri3D提高了+6.5% mIoU。

//www.zhuanzhi.ai/paper/2cc5e9e67bcbea75082fac9489f2e2a4

付費5元查看完整內容

相關內容

本文提出一種自監督學習框架內的視覺語言表示學習方法,通過引入新的操作、損失和數據增強策略。首先,通過軟掩蔽圖像中與對應標題中的某個單詞最相關的區域,而不是完全刪除它們,為圖像文本匹配(image text matching, ITM)任務生成多樣化的特征。由于該框架只依賴于沒有細粒度注釋的圖像-標題對,通過使用多模態編碼器計算單詞條件視覺注意來識別每個單詞的相關區域。通過提出圖像-文本對比學習(ITC)目標的焦點損失,鼓勵模型更多地關注難的但多樣化的例子,這緩解了過擬合和偏差問題的固有局限性。通過挖掘各種示例,通過屏蔽文本和對圖像渲染失真,對自監督學習進行多模態數據增強。這三種創新的結合對學習預訓練模型是有效的,導致在多個視覺-語言下游任務上的出色表現。//arxiv.org/abs/2304.00719

付費5元查看完整內容

我們提出了提示分布學習,以有效地適應一個預訓練的視覺語言模型,以解決下游的識別任務。我們的方法不僅從一些樣本中學習低偏差提示,而且還捕獲不同提示的分布,以處理不同的視覺表示。這樣,我們提供了高質量的任務相關內容,便于識別。這種快速分布學習是通過一種學習提示的輸出嵌入而不是輸入嵌入的有效方法實現的。因此,我們可以使用高斯分布來有效地建模,并導出有效訓練的替代損失。在12個數據集上的大量實驗表明,我們的方法始終和顯著地優于現有的方法。例如,與人工制作的提示相比,每個類別有一個樣本,它的平均結果相對提高了9.1%。

//www.zhuanzhi.ai/paper/0c6359fedd7bfc3067c0c0ddaf8a29f4

付費5元查看完整內容

基于知識蒸餾的高效預訓練

Knowledge Distillation as Efficient Pre-training: Faster Convergence, Higher Data-efficiency, and Better Transferability

大規模的預訓練已被證明對廣泛的計算機視覺任務都十分關鍵,能夠帶來顯著的漲點;然而,隨著預訓練數據量的增大,私有數據的出現,模型結構的多樣化,將所有的模型結構都在大規模預訓練數據集上進行預訓練,變得昂貴、低效、不實際。

研究者們思考:是否一個已經在大量數據上預訓練好的模型已經提取了大量數據的知識,并且可以僅通過少部分預訓練數據,將其高效快速的傳遞給一個新的模型? 進而,研究者們提出通過知識蒸餾來實現高效模型預訓練。他們發現,傳統的知識蒸餾由于在分類的 logits 上進行蒸餾,而這些分類的 logits 并不會被利用到下游遷移任務中,因此并不適合于預訓練需要的特征學習。對此,研究者們提出一種基于無額外參數特征維度對齊的純特征蒸餾方法。

采用所提出的方法,僅使用 1/10 的預訓練數據和 1/5 的預訓練時間,就可以達到有監督預訓練的遷移效果(在圖像分類、語義分割、目標檢測任務上評估遷移效果)。

arXiv: //www.zhuanzhi.ai/paper/ff8fc62c3b2064a52d048d5d4b25fe54 Github:

付費5元查看完整內容

Affine Medical Image Registration with Coarse-to-Fine Vision Transformer Authors: Tony C. W. Mok, Albert C. S. Chung

仿射配準是綜合醫學圖像配準過程中不可缺少的環節。然而,關于快速、魯棒的仿射配準算法的研究卻很少。這些研究大多利用卷積神經網絡(convolutional neural network, CNNs)學習聯合仿射和非參數配準,而仿射子網絡的獨立性能研究較少。此外,現有的基于CNN的仿射配準方法要么關注輸入的局部不對齊,要么關注輸入的全局方向和位置來預測仿射變換矩陣,這些方法對空間初始化很敏感,除了訓練數據集之外,泛化能力有限。本文提出了一種快速、魯棒的基于學習的三維仿射醫學圖像配準算法——粗糙-精細視覺Transformer (C2FViT)。我們的方法自然地利用了卷積視覺轉換器的全局連接性和局部性,以及多分辨率策略來學習全局仿射配準。對該方法進行了三維腦圖譜配準和模板匹配歸一化的評價。綜合結果表明,我們的方法在保持基于學習方法的運行時間優勢的同時,在配準精度、魯棒性和通用性方面都優于現有的基于CNN的仿射配準方法。源代碼可以在//github.com/cwmok/C2FViT上找到。

付費5元查看完整內容

卷積神經網絡通過逐步探索上下文和語義特征在邊緣檢測方面取得了重大進展。然而,隨著感受野的擴大,局部細節逐漸被抑制。最近,視覺Transformer在捕獲遠程依賴方面表現出出色的能力。受此啟發,我們提出了一種新穎的基于Transformer的邊緣檢測器,邊緣檢測Transformer(EDTER)。通過同時利用完整的圖像上下文信息和詳細的局部線索來提取清晰明快的對象邊界和有意義的邊緣。EDTER 分兩個階段工作。在第一階段,全局Transformer編碼器用于在粗粒度圖像塊上捕獲遠程全局上下文。然后在第二階段,局部Transformer編碼器在細粒度補丁上工作以挖掘短程本地線索。每個Transformer編碼器后面都有一個精心設計的雙向多級聚合解碼器,以實現高分辨率特征。最后,全局上下文和局部線索由特征融合模塊組合并輸入決策頭進行邊緣預測。在 BSDS500、NYUDv2 和 Multicue 上進行的大量實驗證明了 EDTER 與最先進技術相比的優越性。

//www.zhuanzhi.ai/paper/caf1c942ec21ace11a0a80157fe4d35f

付費5元查看完整內容

視覺語言表征學習在很大程度上受益于圖像-文本的對比損失(例如InfoNCE損失)。這種對齊策略的成功是由于它能夠最大化圖像與匹配文本之間的互信息(MI)。然而,簡單地執行跨模態對齊(CMA)忽略了每個模態中的數據潛力,這可能導致表示的退化。例如,盡管基于CMA的模型能夠將圖像-文本對在嵌入空間中緊密地映射在一起,但它們不能確保來自相同模態的相似輸入保持在一起。當訓練前的數據有噪聲時,這個問題會變得更糟。在本文中,我們提出了利用跨模態和內模態自監督的三重對比學習(TCL)來進行視覺語言預訓練。除了CMA之外,TCL還引入了一個模態內對比目標,以在表示學習中提供互補的好處。為了利用來自圖像和文本輸入的局部和結構信息,TCL進一步最大化了圖像/文本局部區域和它們的全局摘要之間的平均MI。據我們所知,我們的工作是第一個考慮到局部結構信息的多模態表示學習。實驗評估表明,我們的方法在各種常見的下游視覺語言任務,如圖像-文本檢索和視覺問題回答上具有競爭力,達到了最新的技術水平。

//www.zhuanzhi.ai/paper/12af4807da28b56ef7ef66423f27cce9

付費5元查看完整內容

回答關于圖像的復雜問題是機器智能的一個雄心勃勃的目標,它需要對圖像、文本和常識的聯合理解,以及強大的推理能力。最近,多模態變換器在視覺常識推理(Visual Commonsense Reasoning, VCR)任務上取得了很大的進展,通過跨通道注意力層共同理解視覺對象和文本標記。然而,這些方法并沒有利用場景的豐富結構和對象之間的交互作用,而這些在回答復雜的常識問題時是必不可少的。我們提出了一個場景圖增強圖像-文本學習(SGEITL)框架,將視覺場景圖納入常識推理。為了利用場景圖結構,在模型結構層次上,我們提出了一種多跳圖轉換器來正則化各跳間的注意力交互。在預訓練方面,提出了一種場景感知的預訓練方法,利用視覺場景圖中提取的結構知識。此外,我們還介紹了一種使用文本注釋在弱監督方式下訓練和生成領域相關視覺場景圖的方法。在VCR和其他任務上的大量實驗表明,與最先進的方法相比,性能有顯著提高,并證明了所提出的每個組件的有效性。

//www.zhuanzhi.ai/paper/b1df219aafbecbaaf09c3a0b10f58df6

付費5元查看完整內容

預訓練已被證實能夠大大提升下游任務的性能。傳統方法中經常利用大規模的帶圖像標注分類數據集(如 ImageNet)進行模型監督預訓練,近年來自監督學習方法的出現,讓預訓練任務不再需要昂貴的人工標簽。然而,絕大多數方法都是針對圖像分類進行設計和優化的。但圖像級別的預測和區域級別 / 像素級別存在預測差異,因此這些預訓練模型在下游的密集預測任務上的性能可能不是最佳的。

基于此,來自阿德萊德大學、同濟大學、字節跳動的研究者設計了一種簡單且有效的密集自監督學習方法,不需要昂貴的密集人工標簽,就能在下游密集預測任務上實現出色的性能。目前該論文已被 CVPR 2021 接收。

//www.zhuanzhi.ai/paper/4b31c2807b7c37ca49ca8f7c43b4b7d4

該研究提出的新方法 DenseCL(Dense Contrastive Learning)通過考慮局部特征之間的對應關系,直接在輸入圖像的兩個視圖之間的像素(或區域)特征上優化成對的對比(不相似)損失來實現密集自監督學習。

兩種用于表征學習的對比學習范式的概念描述圖。

現有的自監督框架將同一張圖像的不同數據增強作為一對正樣本,利用剩余圖像的數據增強作為其負樣本,構建正負樣本對實現全局對比學習,這往往會忽略局部特征的聯系性與差異性。該研究提出的方法在此基礎上,將同一張圖像中最為相似的兩個像素(區域)特征作為一對正樣本,而將余下所有的像素(區域)特征作為其負樣本實現密集對比學習。

具體而言,該方法去掉了已有的自監督學習框架中的全局池化層,并將其全局映射層替換為密集映射層實現。在匹配策略的選擇上,研究者發現最大相似匹配和隨機相似匹配對最后的精度影響非常小。與基準方法 MoCo-v2[1] 相比,DenseCL 引入了可忽略的計算開銷(僅慢了不到 1%),但在遷移至下游密集任務(如目標檢測、語義分割)時,表現出了十分優異的性能。

付費5元查看完整內容

最近,自監督學習方法在計算機視覺領域獲得了越來越多的關注。在自然語言處理(NLP)中,自監督學習和transformer已經是選擇的方法。最近的文獻表明,transformers或某種協同監督(例如在教師網絡方面)進行預訓練時效果很好。這些監督的預訓練的視覺變換器在下游任務獲得了了非常好的結果,而只需要較小的模型改變。

在本研究中,我們探討了自監督學習在圖像/視覺變換器的預訓練,然后將其用于下游分類任務的優點。我們提出了自監督視覺變形器(SiT),并討論了幾種自監督訓練機制來獲得前置模型。SiT的架構靈活性允許我們將其用作自動編碼器,并無縫地處理多個自監督任務。我們表明,預訓練的SiT可以被微調用于小規模數據集的下游分類任務,這些數據集由幾千張而不是幾百萬張圖像組成。

在通用協議的標準數據集上對所提出的方法進行了評估。實驗結果證明了該方法的有效性和自監督學習的可行性。我們大大超過了現有的自監督學習方法。我們還觀察到,SiT對少樣本學習很好,也表明它通過簡單地在從SiT學習到的特征之上訓練線性分類器來學習有用的表示。預訓練、調優和評估代碼將在以下鏈接中提供: //github.com/Sara-Ahmed/SiT。

引言

最近的趨勢表明,自監督預訓練可以顯著提高下游任務[4]、[5]的表現性能。在語音識別[6]和計算機視覺應用[7]、[8]、[9]、[10]中也觀察到類似的趨勢。如BERT[4]、[5]所示,自監督預訓練,特別是結合transformers [11],是自然語言處理(NLP)的選擇模型。自監督學習的成功是以大量數據集和大容量模型為代價的,例如,基于NLP的變換器是根據數千億單詞組成的帶有數十億參數[5]的模型進行訓練的。最近在圖像分類中取得成功的transformers[1]引起了計算機視覺界的極大興趣。然而,視覺transformer的預訓練主要是針對非常大規模的有監督學習數據集進行研究,例如,由數億個標記樣本[1]組成的數據集。最近,在沒有外部數據[2]的情況下,視覺轉換器在imagenet上表現良好,但是,它們需要CNNs對等體的蒸餾方法和指導。簡而言之,利用大規模監督數據集進行預訓練是計算機視覺中的一種規范,用來訓練深度神經網絡以獲得更好的性能。然而,人工標注訓練數據是相當昂貴的,盡管在眾包創新方面取得了進展。為了解決這一限制,自監督學習方法[7],[9],[10],[12],[13],[14]已被用到從未標記數據構建具有語義意義的圖像表示。

自監督方法大致可以分為生成式和判別性方法。生成式方法[15],[16],[17]學習建模數據的分布。然而,數據建模通常在計算上是昂貴的,并且在所有場景中可能不是表示學習所必需的。另一方面,通常在對比學習框架[8]、[18]、[19]、[20]或使用文本前任務[21]、[22]、[23]中實現的判別方法,證明了在適當的計算需求下獲得更好的泛化表示的能力。

對比學習的主要重點是學習對同一圖像的不同增廣視圖不變的圖像嵌入,同時對不同的圖像進行區分。盡管對比學習方法取得了令人印象深刻的結果,但他們往往忽視了對語境表征的學習,對于這一學習,替代的前置任務,如基于重構的方法,可能更適合。近年來,文獻中提出了一系列新穎的前置任務,包括修復斑塊[24]、著色[21]、[25]、[26]、相對斑塊位置[21]0、拼圖解決[27]、[28]、交叉信道預測[29]、噪聲預測[30]、圖像旋轉預測[22]、斑點偽影預測[23]等。

在這項工作中,我們介紹了一個簡單的自監督學習框架,利用對比學習和前置方法的優勢。本研究的主要貢獻和發現總結如下:

  • 我們提出了一種新的視覺表示的自監督學習方法——自監督視覺Transformer(SiT)。

  • 我們賦予SiT體系結構一個解碼器,并證明,由于Transformer的內在特性,它基本上可以通過使用一個線性層來實現。這種基于Transformer的自動編碼器避免了通常在基于CNN的編碼器-解碼器架構中出現的對整個解碼器塊的需要。

  • 利用自編碼Transformer支持多任務學習的自然能力,我們開發了一個強大的自監督框架,共同優化重建(圖像修復)、旋轉分類和收縮損失。

  • 我們在不同的評估協議(包括線性評估、領域轉移和微調)下,在標準基準上展示了擬議框架的有效性。

  • 在不同的數據集中,我們比并發的最先進的結果表現更好,在很大的間隔達到+13.53%的改進。

付費5元查看完整內容

通過一個transformer編碼器-解碼器架構的目標檢測transformers (DETR)取得了與Faster R-CNN相匹配的性能。受預訓練transformer在自然語言處理中取得的巨大成功的啟發,我們提出了一種基于隨機查詢補丁檢測的無監督預訓練目標檢測任務。具體地說,我們從給定的圖像中隨機裁剪小塊,然后將它們作為查詢輸入解碼器。該模型經過預訓練,從原始圖像中檢測出這些查詢補丁。在預訓練,我們解決了兩個關鍵問題:多任務學習和多查詢定位。(1)為了權衡在前置任務中分類和定位的多任務學習,我們凍結CNN骨干,提出一個與patch檢測聯合優化的patch特征重構分支。(2)為實現多查詢定位,我們引入了單查詢補丁的UP-DETR ,并將其擴展為具有對象查詢洗牌和注意掩碼的多查詢補丁。在我們的實驗中,UP-DETR算法在PASCAL VOC和COCO數據集上具有更快的收斂速度和更高的精度,顯著提高了DETR算法的性能。代碼很快就會發布。

付費5元查看完整內容
北京阿比特科技有限公司