亚洲男人的天堂2018av,欧美草比,久久久久久免费视频精选,国色天香在线看免费,久久久久亚洲av成人片仓井空

最近,人們努力利用視覺transformer (ViT)來完成具有挑戰性的無監督域適應(UDA)任務。它們通常采用ViT中的交叉注意力來進行直接域對齊。然而,由于交叉注意力的性能高度依賴于目標樣本的偽標簽質量,當域差距較大時,交叉注意力的效果就會變差。本文從博弈論的角度解決這個問題,提出了PMTrans模型,將源域和目標域與中間域連接起來。提出了一個新的基于vit的模塊PatchMix,通過學習基于博弈論模型從兩個域采樣補丁,有效地建立了中間域,即概率分布。通過這種方式,它學會混合來自源域和目標域的塊以最大化交叉熵(CE),同時利用特征和標簽空間中的兩個半監督mixup損失來最小化它。將UDA的過程解釋為一個有三個參與者的最小最大CE游戲,包括特征提取器、分類器和PatchMix,以找到納什均衡。利用ViT的注意圖,根據每個塊的重要性重新加權每個塊的標簽,使其能夠獲得更具有領域區分性的特征表示。在四個基準數據集上進行了廣泛的實驗,結果表明,PMTrans在Office-Home上顯著優于基于ViT和基于CNN的SoTA方法,分別在Office31和DomainNet上提高了3.6%、1.4%和17.7%。https: / / vlis2022.github.io / cvpr23 / PMTrans。

付費5元查看完整內容

相關內容

擴散模型(DMs)在高質量圖像合成中顯示出巨大的潛力。然而,在制作復雜場景的圖像時,如何正確地描述圖像的全局結構和對象細節仍然是一個具有挑戰性的任務。在這篇論文中,我們提出了Frido,一個特征金字塔擴散模型執行多尺度粗-細去噪過程的圖像合成。我們的模型將輸入圖像分解為尺度相關的矢量量化特征,然后進行從粗到細的調制生成圖像輸出。在上述多尺度表示學習階段,可以進一步利用文本、場景圖或圖像布局等附加輸入條件。因此,Frido也可以用于條件或交叉模態圖像合成。我們在各種無條件和有條件的圖像生成任務上進行了廣泛的實驗,從文本到圖像合成,從布局到圖像,從場景到圖像,到標簽到圖像。更具體地說,我們在五個基準上獲得了最先進的FID得分,分別是COCO和OpenImages上的布局到圖像,COCO和Visual Genome上的場景到圖像,以及COCO上的標簽到圖像。

//www.zhuanzhi.ai/paper/d6197fd1315f12b3d3cd40944d4d9272

付費5元查看完整內容

卷積神經網絡(CNN)是基于深度學習的醫學圖像分析中最流行的架構,但其固有的歸納偏差和不充分的接受域仍然在功能上受到限制。為了解決這個問題而誕生的Transformer,由于其在捕獲遠程依賴關系方面的卓越能力,在自然語言處理和計算機視覺領域引起了爆炸性的關注。然而,最新的基于變壓器的醫學圖像分割方法在基于CNN的方法中直接將普通Transformer作為輔助模塊,由于Transformer中的patch劃分方法過于嚴格,導致了嚴重的細節丟失。為了解決這個問題,我們提出了C2FTrans,一種新穎的多尺度架構,將醫學圖像分割作為一個從粗到細的過程。C2FTrans主要由一個跨尺度的全局Transformer(CGT)和一個邊界感知的局部Transformer(BLT)組成,前者處理CNN中的局部上下文相似性,后者克服了Transformer中剛性patch劃分帶來的邊界不確定性。CGT在三個不同的小尺度特征映射之間構建全局依賴關系,以可接受的計算成本獲得豐富的全局語義特征;BLT在熵的指導下,自適應地在邊界周圍生成窗口,以降低基于大尺度特征映射的計算復雜度和細節損失。在三個公共數據集上的大量實驗結果表明,C2FTrans在參數更少、故障更低的情況下,相對于最先進的基于CNN和基于Transformer的方法具有更好的性能。我們相信,C2FTrans的設計將進一步啟發未來開發高效、輕量化的醫學圖像分割Transformer的工作。本文的源代碼在//github.com/xianlin7/C2FTrans上公開。

付費5元查看完整內容

我們提出了提示分布學習,以有效地適應一個預訓練的視覺語言模型,以解決下游的識別任務。我們的方法不僅從一些樣本中學習低偏差提示,而且還捕獲不同提示的分布,以處理不同的視覺表示。這樣,我們提供了高質量的任務相關內容,便于識別。這種快速分布學習是通過一種學習提示的輸出嵌入而不是輸入嵌入的有效方法實現的。因此,我們可以使用高斯分布來有效地建模,并導出有效訓練的替代損失。在12個數據集上的大量實驗表明,我們的方法始終和顯著地優于現有的方法。例如,與人工制作的提示相比,每個類別有一個樣本,它的平均結果相對提高了9.1%。

//www.zhuanzhi.ai/paper/0c6359fedd7bfc3067c0c0ddaf8a29f4

付費5元查看完整內容

在基于LiDAR的自動駕駛3D目標檢測任務中,檢測物體與場景大小的比例呈現出超過2D檢測的現象。因此,許多3D檢測器直接使用2D檢測器的常規方法,即在量化點云之后對特征圖進行下采樣。本文作者重新思考了這種固定思路對3D點云目標檢測的影響。實驗結果表明,下采樣方法不僅無法帶來優勢,還會不可避免地造成信息損失。為了解決這個問題,本文提出了一種Single-stride Sparse Transformer (SST)來保持網絡特征的空間尺寸。利用Transformer模型,SST不僅解決了已有方法中感受野不足的問題,還能夠配合點云的稀疏性以降低計算代價。SST在大規模的Waymo開放數據集上也取得了最先進的結果,且該方法對小物體(行人)檢測具有單步幅(Single-stride)的特點,在驗證集上可達到83.8 LEVEL_1AP。

//www.zhuanzhi.ai/paper/0b270cdff67bbfece13ceaff52494ca3

付費5元查看完整內容

Yann LeCun曾說“如果人工智能是一個蛋糕,則蛋糕的主要成分就是無監督學習”。這句話反應了無監督學習在深度學習領域扮演著重要的作用。當前普遍的方法集中在如何設計有效的代理任務來對無標注的輸入數據學習到好的視覺表征。在計算機視覺上,目前比較流行的直接有效的方法是對比學習,將訓練數據的每個實例當做單一的分類。基于這個實力判別,很多自監督方法在分類任務上得到了有效的提升。他們成功彌補了自監督方法和監督方法的代溝。然而,這項任務仍然具有挑戰:

a. 掩碼語言模型在自然語言領域得到了廣泛的應用。圖像是高維特征,多噪聲且相比于文本形式復雜。在視覺領域中,圖像的主要信息會被隨機分到不同的token中,如果這些token被隨機masked掉,將會導致很差的表現。這個隨機掩碼語言模型容易掩蓋圖像的關鍵區域的token,這樣會導致誤判且不適合直接應用于自監督視覺Transformers。

b. 很多自監督方法是利用全局特征學習圖像級別預測,對于像素級別預測優化不足。當前自監督學習方法也許對圖像分類任務過度擬合,對下游密集任務預測表現效果不好。

//www.zhuanzhi.ai/paper/51fc329856a3bcd21dfb8545d693e224

針對以上提出的問題,我們提出掩碼Transformer自監督學習方法,如下圖所示。MST創造性的引入了注意力特征圖引導掩碼策略并利用掩碼特征來恢復全局圖像特征任務。我們將介紹如何利用注意力特征引導掩碼策略幫助掩碼語言模型應用到視覺領域。最后我們將介紹網絡的結構和實驗細節。

付費5元查看完整內容

在半監督領域自適應問題的目標域數據中對每個類別賦予少量有標簽樣本可引導其余的無標簽目標域樣本的特征聚集在它們周圍。但是,如此經過訓練后的模型無法為目標域生成具有高度區分性的特征表示,因為訓練過程主要由來自源域的有標簽樣本主導。這就可能導致有標簽和無標簽的目標域樣本之間的特征缺乏連結以及目標域和源域樣本之間的特征進行錯位對齊。在本文中,作者們提出了一種新的被稱為跨域自適應聚類的算法來解決這個問題。為了同時實現不同領域間和同一領域內的自適應,我們首先引入了一個對抗性自適應聚類損失函數來對無標簽目標域樣本的特征進行分組聚類,并在源域和目標域之間以聚類簇的形式進行跨域特征對齊。另外,我們進一步將“Pseudo labeling”技術應用于目標域中無標簽樣本,并對具有較高的置信度的樣本賦予“偽標簽”。該技術擴充了目標域中每個類別的“有標簽樣本”的數量使得每個類別可以產生了更加魯棒、強大的聚類簇中心,從而促進對抗學習過程。我們在包括DomainNet、Office-Home和Office在內的基準數據集上進行的大量實驗,結果表明我們所提出的方法能夠在半監督域自適應中實現最優性能。

論文鏈接://www.zhuanzhi.ai/paper/bca546caa350082ff63382cc18636077

代碼鏈接:

付費5元查看完整內容

一種基于知識蒸餾的弱監督圖像文本匹配模型

Improving Weakly Supervised Visual Grounding by Contrastive Knowledge Distillation

本文由騰訊 AI Lab 主導完成。弱監督的圖像文本匹配旨在學習僅使用圖像句子的對應來得到細顆粒度的圖像區域和短語的對應. 因此,主要的挑戰在于訓練期間圖像區域和句子短語之間缺少匹配的數據。

為了應對這一挑戰,我們在訓練時利用了通用的物體檢測器知識蒸餾,并提出了利用對比學習來得到圖像和文本細顆粒度匹配的新方法。我們的方法在弱監督的視覺區域和短語匹配任務上超越了以前的方法。

//www.zhuanzhi.ai/paper/d59e9b614122852f5a78b38a14d43921

付費5元查看完整內容

跨模態檢索方法為來自多種模態的樣本建立了一個共同的表示空間,尤其是來自視覺和語言領域的樣本。對于圖像和它們的說明文字,對應的多樣性使得這項任務特別具有挑戰性。給定一個圖像(分別是一個標題),有多個同樣有意義的標題(分別是圖像)。在本文中,我們認為確定性函數不足以捕獲這種一對多對應。相反,我們提出使用概率交叉模態嵌入(PCME),來自不同模態的樣本在公共嵌入空間中表示為概率分布。由于諸如COCO這樣的通用基準測試在跨模態匹配時存在非詳盡注釋的問題,我們建議額外評估CUB數據集上的檢索,這是一個更小但更干凈的數據庫,其中所有可能的圖像標題對都被注釋。我們廣泛地ablate PCME,并證明它不僅提高了檢索性能,其確定性對等物,但也提供不確定性估計,使嵌入更可解釋。

//arxiv.org/abs/2011.11108

付費5元查看完整內容

基于深度學習的半監督學習(SSL)算法在醫學圖像分割方面取得了很有前途的結果,并可以通過利用未標記的數據減輕醫生昂貴的標注。然而,現有文獻中的大多數SSL算法都傾向于通過干擾網絡和/或數據來規約模型訓練。考慮到多/雙任務學習涉及到具有固有的預測擾動的各個級別的信息,我們在這項工作中提出了一個問題:我們能夠顯式地構建任務級別的正則化,而不是隱式地構建用于SSL的網絡和/或數據級別的擾動和轉換嗎?為了回答這個問題,我們首次提出了一個新的雙任務一致性半監督框架。具體地說,我們使用一個雙任務深度網絡來聯合預測一個像素級分割圖和一個幾何感知的目標集表示。通過可微任務轉換層將水平集表示轉換為近似分割映射。同時,我們在水平集導出的分割圖和直接預測的分割圖之間引入了一種雙任務一致性正則化,用于標記和未標記數據。在兩個公共數據集上的大量實驗表明,我們的方法可以通過合并未標記數據極大地提高性能。同時,我們的框架優于最先進的半監督醫學圖像分割方法。代碼可以在//github.com/Luoxd1996/DTC找到。

付費5元查看完整內容

基于卷積神經網絡的方法在語義分割方面取得了顯著的進展。然而,這些方法嚴重依賴于注釋數據,這是勞動密集型的。為了解決這一限制,使用從圖引擎生成的自動注釋數據來訓練分割模型。然而,從合成數據訓練出來的模型很難轉換成真實的圖像。為了解決這個問題,以前的工作已經考慮直接將模型從源數據調整到未標記的目標數據(以減少域間的差距)。盡管如此,這些技術并沒有考慮到目標數據本身之間的巨大分布差異(域內差異)。在這項工作中,我們提出了一種兩步自監督域適應方法來減少域間和域內的差距。首先,對模型進行域間自適應;在此基礎上,我們使用基于熵的排序函數將目標域分成簡單和困難的兩部分。最后,為了減小域內間隙,我們提出了一種自監督自適應技術。在大量基準數據集上的實驗結果突出了我們的方法相對于現有的最先進方法的有效性。

付費5元查看完整內容
北京阿比特科技有限公司