亚洲男人的天堂2018av,欧美草比,久久久久久免费视频精选,国色天香在线看免费,久久久久亚洲av成人片仓井空

**本文提出ODISE:基于開放詞匯擴散的全景分割,將預訓練的文本-圖像擴散和判別模型統一起來,以執行開放詞匯全景分割。**文本到圖像擴散模型已經顯示出了生成具有多種開放詞匯語言描述的高質量圖像的顯著能力。這表明它們的內部表示空間與現實世界中的開放概念高度相關。另一方面,像CLIP這樣的文本-圖像判別模型擅長將圖像分類為開放詞匯表標簽。本文建議利用這兩個模型的凍結表示來對實際環境中的任何類別進行全景分割。所提出方法在開放詞匯表全景任務和語義分割任務上都明顯優于之前的技術水平。特別是,在僅進行COCO訓練的情況下,所提出方法在ADE20K數據集上達到了23.4 PQ和30.0 mIoU,比之前的最先進水平有8.3 PQ和7.9 mIoU的絕對提升。項目頁面可以在這個https URL中找到。

//www.zhuanzhi.ai/paper/33848c7c700a2f8865607247b7663849

付費5元查看完整內容

相關內容

CVPR 2023大會將于 6 月 18 日至 22 日在溫哥華會議中心舉行。CVPR是IEEE Conference on Computer Vision and Pattern Recognition的縮寫,即IEEE國際計算機視覺與模式識別會議。該會議是由IEEE舉辦的計算機視覺和模式識別領域的頂級會議,會議的主要內容是計算機視覺與模式識別技術。 CVPR 2023 共收到 9155 份提交,比去年增加了 12%,創下新紀錄,今年接收了 2360 篇論文,接收率為 25.78%。作為對比,去年有 8100 多篇有效投稿,大會接收了 2067 篇,接收率為 25%。

視覺信息提取(VIE)在文檔智能領域中扮演著重要角色。通常,它可以分為兩個任務:語義實體識別(SER)和關系抽取(RE)。最近,針對文檔的預訓練模型在 VIE 方面取得了顯著進展,特別是在 SER 領域。然而,大多數現有模型以隱式方式學習幾何表示,這對 RE 任務來說被認為是不夠的,因為幾何信息對 RE 尤為關鍵。此外,我們發現限制 RE 性能的另一個因素在于預訓練階段與 RE 微調階段之間的目標差距。為了解決這些問題,我們在本文中提出了一種用于 VIE 的多模態框架,名為 GeoLayoutLM。GeoLayoutLM 在預訓練階段顯式地對幾何關系進行建模,我們稱之為幾何預訓練。幾何預訓練通過三個專門設計的與幾何相關的預訓練任務來實現。此外,我們精心設計了新穎的關系頭,這些關系頭通過幾何預訓練任務進行預訓練,并針對 RE 進行微調,以豐富和增強特征表示。根據對標準 VIE 基準的廣泛實驗,GeoLayoutLM 在 SER 任務中獲得了非常具有競爭力的分數,并在 RE 任務中顯著優于先前的最先進方法(例如,RE 在 FUNSD 上的 F1 分數從 80.35% 提高到 89.45%)。

//www.zhuanzhi.ai/paper/ae145d71d4b8a928e02dd161f0f851db

付費5元查看完整內容

最近,人們努力利用視覺transformer (ViT)來完成具有挑戰性的無監督域適應(UDA)任務。它們通常采用ViT中的交叉注意力來進行直接域對齊。然而,由于交叉注意力的性能高度依賴于目標樣本的偽標簽質量,當域差距較大時,交叉注意力的效果就會變差。本文從博弈論的角度解決這個問題,提出了PMTrans模型,將源域和目標域與中間域連接起來。提出了一個新的基于vit的模塊PatchMix,通過學習基于博弈論模型從兩個域采樣補丁,有效地建立了中間域,即概率分布。通過這種方式,它學會混合來自源域和目標域的塊以最大化交叉熵(CE),同時利用特征和標簽空間中的兩個半監督mixup損失來最小化它。將UDA的過程解釋為一個有三個參與者的最小最大CE游戲,包括特征提取器、分類器和PatchMix,以找到納什均衡。利用ViT的注意圖,根據每個塊的重要性重新加權每個塊的標簽,使其能夠獲得更具有領域區分性的特征表示。在四個基準數據集上進行了廣泛的實驗,結果表明,PMTrans在Office-Home上顯著優于基于ViT和基于CNN的SoTA方法,分別在Office31和DomainNet上提高了3.6%、1.4%和17.7%。https: / / vlis2022.github.io / cvpr23 / PMTrans。

付費5元查看完整內容

最近的工作表明,來自在線來源的非結構化文本(文檔)可以作為零樣本圖像分類的有用輔助信息。然而,這些方法需要訪問像維基百科這樣的高質量來源,并且僅限于單一來源的信息。在網絡規模的文本上訓練的大型語言模型(LLM)顯示出令人印象深刻的能力,可以將其所學的知識用于多種任務。本文提供了一種使用LLM為零樣本圖像分類模型提供文本監督的新視角。LLM提供了來自不同注釋器的一些文本描述作為示例。LLM以這些示例為條件,為每個類生成多個文本描述(稱為視圖)。所提出的模型I2MVFormer用這些類視圖學習多視圖語義嵌入,用于零樣本圖像分類。類的每個文本視圖都提供了補充信息,允許模型學習高度區分性的類嵌入。與基線模型相比,I2MVFormer更擅長使用LLM的多視圖文本監督。I2MVFormer在三個公共基準數據集上建立了一種新的無監督語義嵌入的零樣本圖像分類技術。

//www.zhuanzhi.ai/paper/bd64e48df69d1d0d94391b703ac2d14c

付費5元查看完整內容

我們提出了提示分布學習,以有效地適應一個預訓練的視覺語言模型,以解決下游的識別任務。我們的方法不僅從一些樣本中學習低偏差提示,而且還捕獲不同提示的分布,以處理不同的視覺表示。這樣,我們提供了高質量的任務相關內容,便于識別。這種快速分布學習是通過一種學習提示的輸出嵌入而不是輸入嵌入的有效方法實現的。因此,我們可以使用高斯分布來有效地建模,并導出有效訓練的替代損失。在12個數據集上的大量實驗表明,我們的方法始終和顯著地優于現有的方法。例如,與人工制作的提示相比,每個類別有一個樣本,它的平均結果相對提高了9.1%。

//www.zhuanzhi.ai/paper/0c6359fedd7bfc3067c0c0ddaf8a29f4

付費5元查看完整內容

我們介紹了一種具有挑戰性的條件GAN訓練方案,稱為開放集半監督圖像生成,其中訓練數據集由兩部分組成: (i) 標記數據和(ii)未標記數據,其樣本屬于標記數據類中的一個,即一個封閉集,以及不屬于任何標記數據類的樣本,即一個開放集。與現有的半監督圖像生成任務(未標記數據只包含封閉集樣本)不同,我們的任務更加一般化,允許出現開放集樣本,從而在實踐中降低了數據收集成本。由于熵正則化,在標記數據上訓練的分類器能夠將cGAN訓練的樣本明智重要性量化為置信度,允許我們使用未標記數據中的所有樣本。我們設計了OSSGAN,它根據未標記圖像是否屬于感興趣的類別,為鑒別器提供決策線索,在訓練過程中平滑地集成了標記數據和未標記數據。在Tiny ImageNet和ImageNet上的實驗結果表明,與有監督的BigGAN和半監督方法相比,有顯著的改進。我們的代碼可以在//github.com/raven38/OSSGAN上找到。

付費5元查看完整內容

最近關于3D語義分割的工作提出利用圖像和點云之間的協同作用,通過一個專用的網絡處理每個模態,并將學習到的2D特征投影到3D點上。合并大規模點云和圖像提出了幾個挑戰,如構建點和像素之間的映射,以及在多個視圖之間聚合特征。目前的方法需要網格重建或專門的傳感器來恢復遮擋,并使用啟發式選擇和聚集可用的圖像。相反,我們提出了一個端到端可訓練的多視圖聚合模型,利用3D點的觀看條件來合并在任意位置拍攝的圖像的特征。我們的方法可以結合標準的2D和3D網絡,在不需要著色、網格化或真實深度地圖的情況下,優于彩色點云和混合2D/3D網絡上運行的3D模型。我們在S3DIS (74.7 mIoU 6-Fold)和KITTI360 (58.3 mIoU)上設置了大規模室內外語義分割的最新技術。我們的流程可以訪問 https: //github.com/drprojects/DeepViewAgg,只需要原始3D掃描和一組圖像和姿勢。

付費5元查看完整內容

部分監督實例分割是一種通過學習有限的可見類別并使用帶注釋的遮罩將對象從新的不可見類別中分割出來的任務,從而消除了繁重的注釋負擔。解決這一問題的關鍵是建立一個有效的類不可知掩碼分割模型。與以往只在可見類別上學習此類模型的方法不同,在本文中,我們提出了一種新的方法,名為ContrastMask,它在統一的像素級對比學習框架下,對可見和不可見類別學習掩碼分割模型。這個框架,帶注釋的可見類別的遮罩和不可見類別的偽遮罩作為對比學習的前提,來自掩膜區域(前景)的特征被拉到一起,并與來自背景的特征進行對比,反之亦然。通過該框架,大大提高了前景和背景的特征識別能力,便于學習與類別無關的遮罩分割模型。在COCO數據集上的詳盡實驗證明了我們的方法的優越性,它優于以前的技術水平。

//www.zhuanzhi.ai/paper/53d464cd084b1713b9d2377fb1ea5703

付費5元查看完整內容

Paper鏈接: //www.zhuanzhi.ai/paper/1a015a77210f145df93ca7e92bcf63f8 Project Page: 代碼鏈接:

實例分割(instance segmentation)已經被以 Mask R-CNN 為代表的“先檢測后分割”的框架主導了多年,之前涌現的單階段實例分割算法也依然需要遍歷圖片中的每一個位置(feature grids)來預測實例分割掩碼(instance masks),因此他們都需要一些額外的組件(如檢測框或/和NMS)來區分不同實例或清理相同實例的掩碼。

我們希望實例分割的推理過程可以像語義分割那樣簡單: 由一組卷積核(convolutional kernels) 生成一組 mask,每一個 mask 至多只分割圖片中的一個物體,且不同的 kernel 負責不同物體的 mask 生成。這樣就可以不借助任何額外的組件來完成實例分割任務(box-free and NMS-free),并且在提高推理效率的同時實現端到端的訓練優化,同時也自然地統一了語義、實例乃至全景分割任務的解決范式。

我們提出 K-Net 來作為這個思路的一種探索,在全景分割(COCO-panoptic,test-dev set, 55.2 PQ)和語義分割(ADE20K val set,54.3 mIoU)上取得了新的 state-of-the-art 結果,在相同的實例分割精度下模型的推理速度比 Cascade Mask R-CNN 快 60-90% 。

付費5元查看完整內容
北京阿比特科技有限公司