亚洲男人的天堂2018av,欧美草比,久久久久久免费视频精选,国色天香在线看免费,久久久久亚洲av成人片仓井空

現代語義分割增量學習方法通常基于密集標注來學習新的類別。盡管取得了很好的結果,但逐像素標記是昂貴和耗時的。弱增量語義分割學習(WILSS)是一項新穎而吸引人的任務,旨在從廉價且廣泛可用的圖像級標簽中學習分割出新的類別。盡管效果相當,但圖像級標簽無法提供定位每個分割的細節,這限制了WILSS的性能。這啟發我們思考如何改進和有效利用給定圖像級標簽的新類的監督,同時避免忘記舊類。本文提出一種新的數據高效的WILSS框架FMWISS。本文提出基于預訓練的協同分割,以提取互補的基礎模型的知識,以生成密集的偽標簽。用師生架構進一步優化了有噪聲的偽掩碼,其中插件式教師用提出的密集對比損失進行了優化。提出了基于內存的復制粘貼增強,以改善舊類的災難性遺忘問題。在Pascal VOC和COCO數據集上的實驗結果表明,FMWISS在15-5 VOC的數據集上取得了70.7%和73.3%的性能提升,分別比當前最好的方法提升了3.4%和6.1%。 //antoyang.github.io/vid2seq.html

付費5元查看完整內容

相關內容

CVPR 2023大會將于 6 月 18 日至 22 日在溫哥華會議中心舉行。CVPR是IEEE Conference on Computer Vision and Pattern Recognition的縮寫,即IEEE國際計算機視覺與模式識別會議。該會議是由IEEE舉辦的計算機視覺和模式識別領域的頂級會議,會議的主要內容是計算機視覺與模式識別技術。 CVPR 2023 共收到 9155 份提交,比去年增加了 12%,創下新紀錄,今年接收了 2360 篇論文,接收率為 25.78%。作為對比,去年有 8100 多篇有效投稿,大會接收了 2067 篇,接收率為 25%。

Modern incremental learning for semantic segmentation methods usually learn new categories based on dense annotations. Although achieve promising results, pixel-by-pixel labeling is costly and time-consuming. Weakly incremental learning for semantic segmentation (WILSS) is a novel and attractive task, which aims at learning to segment new classes from cheap and widely available image-level labels. Despite the comparable results, the image-level labels can not provide details to locate each segment, which limits the performance of WILSS. This inspires us to think how to improve and effectively utilize the supervision of new classes given image-level labels while avoiding forgetting old ones. In this work, we propose a novel and data-efficient framework for WILSS, named FMWISS. Specifically, we propose pre-training based co-segmentation to distill the knowledge of complementary foundation models for generating dense pseudo labels. We further optimize the noisy pseudo masks with a teacher-student architecture, where a plug-in teacher is optimized with a proposed dense contrastive loss. Moreover, we introduce memory-based copy-paste augmentation to improve the catastrophic forgetting problem of old classes. Extensive experiments on Pascal VOC and COCO datasets demonstrate the superior performance of our framework, e.g., FMWISS achieves 70.7% and 73.3% in the 15-5 VOC setting, outperforming the state-of-the-art method by 3.4% and 6.1%, respectively.

動態神經網絡是深度學習領域的新興研究課題。通過自適應推理,動態模型可以達到顯著的精度和計算效率。然而,由于沒有合適的動態結構和現有的目標檢測標準,設計一個強大的動態檢測器是具有挑戰性的。為解決這些困難,本文提出一種用于目標檢測的動態框架DynamicDet。首先,根據目標檢測任務的性質精心設計了一個動態架構;然后,我們設計了一個自適應路由器來分析多尺度信息并自動確定推理路由。本文還提出了一種新的優化策略,給出了一種基于檢測損失的動態檢測器優化準則。最后,提出了一種可變速度的推理策略,有助于只用一個動態檢測器實現大范圍的精度-速度權衡。在COCO基準上進行的廣泛實驗表明,所提出的DynamicDet實現了新的最先進的精度-速度權衡。例如,在相當的精度下,動態檢測器Dy-YOLOv7-W6的推理速度比YOLOv7-E6提高12%,比YOLOv7-D6提高17%,比YOLOv7-E6E提高39%。代碼可以在https: //github.com/VDIGPKU/DynamicDet上獲得。

付費5元查看完整內容

度量和緩解合成(源)數據與真實場景(目標)數據之間的差異是領域自適應語義分割的核心問題。近年來,已有工作通過在源域引入深度信息來增強幾何和語義知識遷移,但僅基于二維估計深度無法提取物體的位置和形狀等內在三維信息。本文提出一種新的幾何感知域適應網絡(GANDA),利用更緊湊的3D幾何點云表示來縮小域差距。首先,利用源域的輔助深度監督獲取目標域的深度預測,實現結構-紋理解纏;除了深度估計,顯式利用RGB-D圖像生成的點云上的3D拓撲結構,以進一步在目標域中進行坐標顏色解纏和偽標簽細化。此外,為了改進目標域上的二維分類器,我們進行了源域到目標域的域不變幾何自適應,統一了兩個域上的二維語義和三維幾何分割結果。請注意,我們的GANDA在任何現有UDA框架中都是即插即用的。定性和定量的實驗結果表明,該模型在GTA5→Cityscapes和SYNTHIA→Cityscapes數據集上的性能均優于目前的先進水平。

//www.zhuanzhi.ai/paper/e213cce10ef9b5c4515fa8924aa8fd44

付費5元查看完整內容

我們提出了提示分布學習,以有效地適應一個預訓練的視覺語言模型,以解決下游的識別任務。我們的方法不僅從一些樣本中學習低偏差提示,而且還捕獲不同提示的分布,以處理不同的視覺表示。這樣,我們提供了高質量的任務相關內容,便于識別。這種快速分布學習是通過一種學習提示的輸出嵌入而不是輸入嵌入的有效方法實現的。因此,我們可以使用高斯分布來有效地建模,并導出有效訓練的替代損失。在12個數據集上的大量實驗表明,我們的方法始終和顯著地優于現有的方法。例如,與人工制作的提示相比,每個類別有一個樣本,它的平均結果相對提高了9.1%。

//www.zhuanzhi.ai/paper/0c6359fedd7bfc3067c0c0ddaf8a29f4

付費5元查看完整內容

半監督對象檢測(Semi-supervised object detection, SSOD)的目的是在大量未標記數據的幫助下,方便對象檢測器的訓練和部署。雖然已經提出了各種基于自訓練和一致性正則化的SSOD方法,但大多數都是基于錨的檢測器,忽略了在許多實際應用中對無錨檢測器的要求更高的事實。在本文中,我們打算彌補這一差距,并提出了一種基于密集學習(DSL)的無錨SSOD算法。具體來說,我們通過引入一些新技術來實現這一目標,包括用于分配多層次和精確的密集像素級偽標簽的自適應過濾策略,用于生成穩定和精確的偽標簽的聚合教師,并在尺度和洗牌塊之間引入不確定性-一致性-正則化項,以提高檢測器的泛化能力。在MS-COCO和PASCAL-VOC上進行了大量實驗,結果表明,我們提出的DSL方法記錄了最先進的SSOD性能,大大超過了現有方法。

//www.zhuanzhi.ai/paper/1af41e315bfa76b66bf7b771a9c069ed

付費5元查看完整內容

對于圖像分割,目前的標準是通過線性超平面在歐幾里德輸出嵌入空間中進行像素級優化和推理。**在這項工作中,我們表明雙曲流形為圖像分割提供了一個有價值的替代方案,并提出了一個易于處理的公式,層次像素級分類在雙曲空間。**雙曲圖像分割為分割開辟了新的可能性和實際的好處,如自由不確定性估計和邊界信息,零標簽泛化,提高了低維輸出嵌入的性能。

付費5元查看完整內容

目標檢測在過去的十年中取得了長足的進步。然而,利用少樣本檢測新類仍然具有挑戰性,因為在低數據環境下的深度學習通常會導致特征空間的退化。現有的研究都采用了整體的微調范式來解決這個問題,即首先對模型進行大量樣本的所有基類的預訓練,然后用它來學習新的類特征空間。盡管如此,這種范式仍然是不完美的。在微調過程中,一個新類可能會隱式地利用多個基類的知識來構造其特征空間,導致特征空間分散,違反類間的可分離性。為了克服這些障礙,我們提出了一種兩步微調的框架,即關聯與識別的少樣本目標檢測(FADI),該框架采用兩步整合的方法為每個新類建立判別特征空間。1) 在關聯步驟中,與隱式利用多個基類不同,我們通過顯式模擬一個特定的基類特征空間來構造一個緊湊的新類特征空間。具體來說,我們根據每個新類的語義相似度將它們與基類關聯起來。之后,新類的特征空間可以很容易地模仿相關基類的經過良好訓練的特征空間。2)在判別步驟中,為了保證新類和相關基類之間的可分離性,我們對基類和新類的分類分支進行解糾纏。為了進一步擴大各類別間的可分性,引入了一個集合化的保證金損失。在Pascal VOC和MS-COCO數據集上的大量實驗表明,FADI實現了新的SOTA性能,在任何鏡頭/分割中顯著提高了18.7的基線。值得注意的是,這種優勢是在極少的場景中體現出來的。

//www.zhuanzhi.ai/paper/06746cf005b934af3f2ed505ace8f91d

付費5元查看完整內容

通過一個transformer編碼器-解碼器架構的目標檢測transformers (DETR)取得了與Faster R-CNN相匹配的性能。受預訓練transformer在自然語言處理中取得的巨大成功的啟發,我們提出了一種基于隨機查詢補丁檢測的無監督預訓練目標檢測任務。具體地說,我們從給定的圖像中隨機裁剪小塊,然后將它們作為查詢輸入解碼器。該模型經過預訓練,從原始圖像中檢測出這些查詢補丁。在預訓練,我們解決了兩個關鍵問題:多任務學習和多查詢定位。(1)為了權衡在前置任務中分類和定位的多任務學習,我們凍結CNN骨干,提出一個與patch檢測聯合優化的patch特征重構分支。(2)為實現多查詢定位,我們引入了單查詢補丁的UP-DETR ,并將其擴展為具有對象查詢洗牌和注意掩碼的多查詢補丁。在我們的實驗中,UP-DETR算法在PASCAL VOC和COCO數據集上具有更快的收斂速度和更高的精度,顯著提高了DETR算法的性能。代碼很快就會發布。

付費5元查看完整內容

在本文中,我們提出了一種用于語義分割的無監督域自適應算法,該算法的目標是利用有標記的合成數據來分割無標記的真實數據。UDA語義分割的主要問題在于縮小真實圖像與合成圖像之間的域差距。為了解決這個問題,我們將重點放在將圖像中的信息分離為內容和樣式。在這里,只有內容具有進行語義分割的線索,而風格造成了領域差距。因此,即使在使用合成數據進行學習時,也可以將圖像中的內容和風格進行精確的分離,起到監督真實數據的作用。為了充分利用這種效果,我們提出采用零損失模式。盡管我們在實域上很好地提取了用于語義分割的內容,但在語義分類器中仍然存在類別不平衡的問題。我們通過將尾部類的內容從合成域轉移到實域來解決這個問題。實驗結果表明,該方法在兩種主要的神經網絡環境下都取得了最先進的語義分割性能。

付費5元查看完整內容
北京阿比特科技有限公司