亚洲男人的天堂2018av,欧美草比,久久久久久免费视频精选,国色天香在线看免费,久久久久亚洲av成人片仓井空

動態神經網絡是深度學習領域的新興研究課題。通過自適應推理,動態模型可以達到顯著的精度和計算效率。然而,由于沒有合適的動態結構和現有的目標檢測標準,設計一個強大的動態檢測器是具有挑戰性的。為解決這些困難,本文提出一種用于目標檢測的動態框架DynamicDet。首先,根據目標檢測任務的性質精心設計了一個動態架構;然后,我們設計了一個自適應路由器來分析多尺度信息并自動確定推理路由。本文還提出了一種新的優化策略,給出了一種基于檢測損失的動態檢測器優化準則。最后,提出了一種可變速度的推理策略,有助于只用一個動態檢測器實現大范圍的精度-速度權衡。在COCO基準上進行的廣泛實驗表明,所提出的DynamicDet實現了新的最先進的精度-速度權衡。例如,在相當的精度下,動態檢測器Dy-YOLOv7-W6的推理速度比YOLOv7-E6提高12%,比YOLOv7-D6提高17%,比YOLOv7-E6E提高39%。代碼可以在https: //github.com/VDIGPKU/DynamicDet上獲得。

付費5元查看完整內容

相關內容

CVPR 2023大會將于 6 月 18 日至 22 日在溫哥華會議中心舉行。CVPR是IEEE Conference on Computer Vision and Pattern Recognition的縮寫,即IEEE國際計算機視覺與模式識別會議。該會議是由IEEE舉辦的計算機視覺和模式識別領域的頂級會議,會議的主要內容是計算機視覺與模式識別技術。 CVPR 2023 共收到 9155 份提交,比去年增加了 12%,創下新紀錄,今年接收了 2360 篇論文,接收率為 25.78%。作為對比,去年有 8100 多篇有效投稿,大會接收了 2067 篇,接收率為 25%。

神經架構搜索(NAS)是最近提出的一種自動設計網絡架構的方法。NAS不是手動設計網絡架構,而是以數據驅動的方式自動找到最佳架構。盡管NAS取得了令人印象深刻的進展,但在實踐中仍遠未被廣泛采用為架構設計的通用范式。本文旨在開發有原則的NAS方法,可以自動化神經網絡的設計,并盡可能減少人工在架構調優方面的工作。為了實現這一目標,我們專注于開發更好的搜索算法和搜索空間,這兩者對NAS的性能都很重要。

在搜索算法方面,首先提出了一種基于貝葉斯優化(BO)的高效NAS框架;本文提出一種方法來學習網絡體系結構域上的嵌入空間,使得為體系結構域定義一個核函數成為可能,這是將BO應用于NAS的必要組件。提出了一種鄰域感知的NAS公式,以提高NAS發現的體系結構的泛化性。所提出的公式具有足夠的通用性,適用于各種搜索算法,包括基于采樣的算法和基于梯度的算法。

對于搜索空間,本文首先將NAS擴展到發現卷積細胞以外的注意力細胞。本文提出一種時空注意力單元的搜索空間,以注意力操作為主要構建塊。所發現的注意力單元不僅優于人工設計的注意力單元,而且在不同模態、骨干或數據集上表現出很強的泛化能力。基于committee的模型(集合或級聯)是高效模型的一個被忽視的設計空間。從現成的預訓練模型中簡單地構建committee,可以匹配或超過最先進模型的精度,同時大大提高了效率。最后,通過對不同基于激光雷達的三維目標檢測算法的比較,指出了成本控制的重要性。其次,如果允許使用類似的延遲,一個通常被認為已經顯著超過的簡單基線在Waymo開放數據集上的性能幾乎可以與最先進方法的性能相匹配。

//www.ri.cmu.edu/publications/search-algorithms-and-search-spaces-for-neural-architecture-search/

付費5元查看完整內容

近年來,transformer和多層感知器(MLP)架構在各種視覺任務中取得了令人印象深刻的成果。然而,如何有效地將這些運算符組合在一起,形成高性能的混合視覺架構仍然是一個挑戰。在這項工作中,我們通過提出一種新的統一架構搜索方法來研究卷積、transformer和MLP的可學習組合。我們的方法包含兩個關鍵設計來實現對高性能網絡的搜索。首先,我們以統一的形式對不同的可搜索運算符進行建模,從而使這些運算符可以用相同的一組配置參數來表征。這樣,整體搜索空間的大小大大降低,總搜索成本變得可以承受。其次,我們提出了上下文感知下采樣模塊(DSMs),以減輕不同類型操作之間的差距。我們提出的DSM能夠更好地適應不同類型運算符的特征,這對于識別高性能混合架構非常重要。最后,我們將可配置算子和DSM集成到一個統一的搜索空間中,并使用基于強化學習的搜索算法進行搜索,以充分探索這些算子的最優組合。為此,我們搜索了一個基線網絡,并將其擴大,得到了一個名為UniNets的模型家族,它比以前的ConvNets和transformer取得了更好的精度和效率。特別地,我們的UniNet-B5在ImageNet上實現了84.9%的top-1準確率,比efficient - net - b7和BoTNet-T7分別減少了44%和55%的失敗。通過在ImageNet-21K上進行預訓練,我們的UniNet-B6達到87.4%,性能優于Swin-L,失敗次數減少51%,參數減少41%。代碼可以在//github.com/Sense-X/UniNet上找到。

付費5元查看完整內容

論文標題:UniVIP: A Unified Framework for Self-Supervised Visual Pre-training

論文鏈接://arxiv.org/abs/2203.06965 作者單位:中國科學院自動化研究所 & 商湯科技 & 南洋理工大學

自監督學習 (SSL) 有望利用大量未標記的數據。然而,流行的 SSL 方法的成功僅限于像 ImageNet 中的單中心對象圖像,并且忽略了場景和實例之間的相關性,以及場景中實例的語義差異。為了解決上述問題,我們提出了統一自監督視覺預訓練(UniVIP),這是一種新穎的自監督框架,用于在單中心對象或非標志性數據集上學習通用視覺表示。該框架考慮了三個層次的表示學習:1)場景-場景的相似性,2)場景-實例的相關性,3)實例的判別。在學習過程中,我們采用最優傳輸算法來自動測量實例的區分度。大量實驗表明,在非標志性 COCO 上預訓練的 UniVIP 在圖像分類、半監督學習、對象檢測和分割等各種下游任務上實現了最先進的傳輸性能。此外,我們的方法還可以利用 ImageNet 等單中心對象數據集,并且在線性探測中使用相同的預訓練 epoch 時比 BYOL 高 2.5%,并且在 COCO 數據集上超越了當前的自監督對象檢測方法,證明了它的普遍性和潛在性能。

付費5元查看完整內容

實例分割(instance segmentation)已經被以 Mask R-CNN 為代表的“先檢測后分割”的框架主導了多年,之前涌現的單階段實例分割算法也依然需要遍歷圖片中的每一個位置(feature grids)來預測實例分割掩碼(instance masks),因此它們都需要一些額外的組件(如檢測框或/和NMS)來區分不同實例或清理相同實例的掩碼。

我們希望實例分割的推理過程可以像語義分割那樣簡單:由一組卷積核(convolutional kernels) 生成一組 mask,每一個 mask 至多只分割圖片中的一個物體,且不同的 kernel 負責不同物體的 mask 生成。這樣就可以不借助任何額外的組件來完成實例分割任務(box-free and NMS-free),并且在提高推理效率的同時實現端到端的訓練優化,同時也自然地統一了語義、實例乃至全景分割任務的解決范式。

我們提出 K-Net 來作為這個思路的一種探索,在全景分割(COCO-panoptic,test-dev set, 55.2 PQ)和語義分割(ADE20K val set,54.3 mIoU)上取得了新的 state-of-the-art 結果,在相同的實例分割精度下模型的推理速度比 Cascade Mask R-CNN 快 60-90% 。

付費5元查看完整內容

由于數據有限甚至不均衡,半監督語義分割在某些類別上的性能往往較差,例如在cityscape數據集中顯示長尾標簽分布的尾類。現有的方法幾乎都忽視了這個問題,并對類別一視同仁。一些流行的方法,如一致性正則化或偽標簽,甚至可能會損害對表現不佳類別的學習,這些類別的預測或偽標簽可能太不準確,無法指導對未標記數據的學習。本文針對這一問題,提出了一種新的半監督語義分割框架——自適應均衡學習(adaptive equalization learning, AEL)。AEL自適應地平衡了訓練好的和表現不好的類別,在訓練期間用一個信心庫動態跟蹤類別的表現。信心庫被用作向表現不佳的類別傾斜訓練的指標,具體體現在三種策略中: 1) 自適應的Copy-Paste和CutMix數據增強方法,使表現不佳的類別有更多的機會被復制或刪除; 2) 自適應數據采樣方法,鼓勵對表現不佳類別的像素進行采樣; 3) 采用一種簡單而有效的加權方法來減輕偽標記帶來的訓練噪聲。在實驗上,在不同的數據劃分協議下,AEL在Cityscapes和Pascal VOC基準測試上的表現大大優于最先進的方法。

代碼可在//github.com/hzhupku/SemiSeg-AEL上找到。

付費5元查看完整內容

通過一個transformer編碼器-解碼器架構的目標檢測transformers (DETR)取得了與Faster R-CNN相匹配的性能。受預訓練transformer在自然語言處理中取得的巨大成功的啟發,我們提出了一種基于隨機查詢補丁檢測的無監督預訓練目標檢測任務。具體地說,我們從給定的圖像中隨機裁剪小塊,然后將它們作為查詢輸入解碼器。該模型經過預訓練,從原始圖像中檢測出這些查詢補丁。在預訓練,我們解決了兩個關鍵問題:多任務學習和多查詢定位。(1)為了權衡在前置任務中分類和定位的多任務學習,我們凍結CNN骨干,提出一個與patch檢測聯合優化的patch特征重構分支。(2)為實現多查詢定位,我們引入了單查詢補丁的UP-DETR ,并將其擴展為具有對象查詢洗牌和注意掩碼的多查詢補丁。在我們的實驗中,UP-DETR算法在PASCAL VOC和COCO數據集上具有更快的收斂速度和更高的精度,顯著提高了DETR算法的性能。代碼很快就會發布。

付費5元查看完整內容

圖卷積網絡(GCN)在許多應用中越來越受歡迎,但在大型圖數據集上的訓練仍然是出了名的困難。它們需要從它們的鄰居遞歸地計算節點表示。當前的GCN訓練算法要么計算成本高,隨層數呈指數增長,要么加載整個圖和節點嵌入時占用大量內存。提出了一種高效的GCN (L-GCN)分層訓練框架,將訓練過程中的特征集合和特征轉換分離出來,大大降低了訓練的時間復雜度和記憶復雜度。我們在圖同構框架下對L-GCN進行了理論分析,結果表明,在較溫和的條件下,L-GCN與代價較高的傳統訓練算法具有同樣強大的GCNs性能。我們進一步提出了L^2-GCN,它為每一層學習一個控制器,可以自動調整L-GCN中每一層的訓練時間。實驗表明,L-GCN至少比目前的水平快一個數量級,內存使用的一致性不依賴于數據集的大小,同時保持了可比較的預測性能。通過學習控制器,L^2-GCN可以進一步減少一半的訓練時間。我們的代碼在這個https URL中可用。

付費5元查看完整內容
北京阿比特科技有限公司