亚洲男人的天堂2018av,欧美草比,久久久久久免费视频精选,国色天香在线看免费,久久久久亚洲av成人片仓井空

在基于LiDAR的自動駕駛3D目標檢測任務中,檢測物體與場景大小的比例呈現出超過2D檢測的現象。因此,許多3D檢測器直接使用2D檢測器的常規方法,即在量化點云之后對特征圖進行下采樣。本文作者重新思考了這種固定思路對3D點云目標檢測的影響。實驗結果表明,下采樣方法不僅無法帶來優勢,還會不可避免地造成信息損失。為了解決這個問題,本文提出了一種Single-stride Sparse Transformer (SST)來保持網絡特征的空間尺寸。利用Transformer模型,SST不僅解決了已有方法中感受野不足的問題,還能夠配合點云的稀疏性以降低計算代價。SST在大規模的Waymo開放數據集上也取得了最先進的結果,且該方法對小物體(行人)檢測具有單步幅(Single-stride)的特點,在驗證集上可達到83.8 LEVEL_1AP。

//www.zhuanzhi.ai/paper/0b270cdff67bbfece13ceaff52494ca3

付費5元查看完整內容

相關內容

CVPR 2022 將于2022年 6 月 21-24 日在美國的新奧爾良舉行。CVPR是IEEE Conference on Computer Vision and Pattern Recognition的縮寫,即IEEE國際計算機視覺與模式識別會議。該會議是由IEEE舉辦的計算機視覺和模式識別領域的頂級會議,會議的主要內容是計算機視覺與模式識別技術。

知識薈萃

精品入門和進階教程、論文和代碼整理等

更多

查看相關VIP內容、論文、資訊等

在自動駕駛中,激光雷達點云和RGB圖像是兩種主要的具有互補線索的三維目標檢測數據模式。然而,由于模態內之間存在很大的差異,很難充分利用它們。為了解決這個問題,我們提出了一個新的框架,即用于多模態三維物體檢測(CAT-Det)的對比增強Transformer(contrast Augmented Transformer)。具體來說,CAT-Det采用雙流結構,由點前(PT)分支、圖像前(IT)分支和交叉模態轉換器(CMT)模塊組成。PT、IT和CMT共同編碼內模態和跨模態的長程上下文來表示一個對象,從而充分挖掘多模態信息進行檢測。此外,我們提出了一種有效的單向多模態數據增強(OMDA)方法,通過在點和對象層面上進行層次對比學習,僅通過增強點云就可以顯著提高精度,而無需復雜地生成兩種模式的成對樣本。在KITTI基準上的大量實驗表明,CAT-Det達到了最新的技術水平,凸顯了其有效性。

//www.zhuanzhi.ai/paper/cdc9f14be76be206c2dfa2c11871e4d7

付費5元查看完整內容

Embracing Single Stride 3D Object Detector with Sparse Transformer

Lue Fan, Ziqi Pang, Tianyuan Zhang, Yu-Xiong Wang, Hang Zhao, Feng Wang, Naiyan Wang, Zhaoxiang Zhang

在自動駕駛場景中,相比于整個場景的尺度,單個物體的尺度通常很小。下圖展示了COCO數據集和Waymo數據集上物體相對尺度的分布情況:

COCO和Waymo上物體相對尺度分布

這一特性往往被基于Pillar或者體素的檢測器所忽略,它們通常借用了成熟的2D多尺度檢測器的結構。基于這一考量,本文探索了單步長(無降采樣)的檢測器結構。如果簡單地將卷積網絡提升為單步長網絡,會取得一定的性能提升,但是會帶來感受野不足的問題以及巨大的計算量。為了得到一個高效高性能的單步長檢測器,我們借用了當前流行的swin transformer的結構,舍棄了其多尺度的結構并且針對點云數據的特點將其稀疏化,我們將其命名為單步長稀疏Transformer(Single-stride Sparse Transformer, SST)。我們在當前最大的3D檢測數據集Waymo Open Dataset上做了詳盡的實驗,從各個方面探討了SST的特性,并取得了SoTA的性能,特別是在小物體上比之前的方法有了顯著的提升(達到了83.8的Level 1 AP)。代碼已開源在:

//github.com/wuhuikai/DeepGuidedFilter

Sparse Attention結構設計

付費5元查看完整內容

本文研究了卷積神經網絡(CNN)和視覺語言預訓練Transformer(VLPT)的聯合學習,旨在從數百萬個圖像-文本對中學習跨模態對齊。當前大多數文章都是先抽取出圖像中的顯著性區域,再將其與文字一一對齊。由于基于區域的視覺特征通常代表圖像的一部分,因此現有的視覺語言模型要充分理解配對自然語言的語義是一項挑戰。由于基于區域的視覺特征通常代表圖像的一部分,現有的視覺語言模型很難完全理解成對自然語言的語義。本文提出SOHO“開箱即看”的概念,將完整的圖像為輸入,以一種端到端的方式學習視覺語言表達。SOHO不需要邊界框標注,這使得推理速度比基于區域的方法快10倍。特別地,SOHO學會了通過視覺詞典(VD)來提取全面而緊湊的圖像特征,這有助于跨模態理解。大量的實驗結果也驗證了本文SOHO的有效性。

//www.zhuanzhi.ai/paper/a8c52c4b641c0a5bc840a955b6258b39

付費5元查看完整內容

最近提出的DETR,以消除在目標檢測中許多手工設計的組件的需要,同時顯示良好的性能。但由于Transformer注意模塊在處理圖像特征圖時的局限性,導致收斂速度慢,特征空間分辨率有限。為了減輕這些問題,我們提出了可變形的DETR,其注意力模塊只關注參考點周圍的一小組關鍵采樣點。可變形的DETR比DETR(特別是在小物體上)可以獲得更好的性能,訓練周期少10個。在COCO數據集上的大量實驗證明了我們的方法的有效性。

付費5元查看完整內容
北京阿比特科技有限公司