在自動駕駛中,激光雷達點云和RGB圖像是兩種主要的具有互補線索的三維目標檢測數據模式。然而,由于模態內之間存在很大的差異,很難充分利用它們。為了解決這個問題,我們提出了一個新的框架,即用于多模態三維物體檢測(CAT-Det)的對比增強Transformer(contrast Augmented Transformer)。具體來說,CAT-Det采用雙流結構,由點前(PT)分支、圖像前(IT)分支和交叉模態轉換器(CMT)模塊組成。PT、IT和CMT共同編碼內模態和跨模態的長程上下文來表示一個對象,從而充分挖掘多模態信息進行檢測。此外,我們提出了一種有效的單向多模態數據增強(OMDA)方法,通過在點和對象層面上進行層次對比學習,僅通過增強點云就可以顯著提高精度,而無需復雜地生成兩種模式的成對樣本。在KITTI基準上的大量實驗表明,CAT-Det達到了最新的技術水平,凸顯了其有效性。
//www.zhuanzhi.ai/paper/cdc9f14be76be206c2dfa2c11871e4d7
自監督視頻表示方法主要關注視頻中時間屬性的表示。然而,靜態屬性與非靜態屬性的作用卻很少被探索:靜態特征在整個視頻中都保持著相似,它能夠預測視頻級別的動作類。表示時間變化屬性的非平穩特征對于涉及更細粒度的時間理解(如動作分割)的下游任務更有利。我們認為用單一的表示來捕獲兩種類型的特征是次優的,并提出通過對長和短視圖的對比學習,即長視頻序列及其短子序列,將表示空間分解為平穩和非平穩特征。靜止特征在短期和長期視圖之間共享,而非靜止特征聚合短期視圖以匹配相應的長期視圖。為了驗證我們的方法,我們證明了我們的固定特征在動作識別下游任務上工作得特別好,而我們的非固定特征在動作分割上表現得更好。此外,我們分析了學習的表征,發現平穩特征捕獲更多的時間穩定的靜態屬性,而非平穩特征包含更多的時間變化的屬性。
通過一個transformer編碼器-解碼器架構的目標檢測transformers (DETR)取得了與Faster R-CNN相匹配的性能。受預訓練transformer在自然語言處理中取得的巨大成功的啟發,我們提出了一種基于隨機查詢補丁檢測的無監督預訓練目標檢測任務。具體地說,我們從給定的圖像中隨機裁剪小塊,然后將它們作為查詢輸入解碼器。該模型經過預訓練,從原始圖像中檢測出這些查詢補丁。在預訓練,我們解決了兩個關鍵問題:多任務學習和多查詢定位。(1)為了權衡在前置任務中分類和定位的多任務學習,我們凍結CNN骨干,提出一個與patch檢測聯合優化的patch特征重構分支。(2)為實現多查詢定位,我們引入了單查詢補丁的UP-DETR ,并將其擴展為具有對象查詢洗牌和注意掩碼的多查詢補丁。在我們的實驗中,UP-DETR算法在PASCAL VOC和COCO數據集上具有更快的收斂速度和更高的精度,顯著提高了DETR算法的性能。代碼很快就會發布。
題目: Context-Transformer: Tackling Object Confusion for Few-Shot Detection
摘要:
小樣本目標檢測是一個具有挑戰性但又很現實的場景,只有少數帶注釋的訓練圖像可用于訓練檢測器。處理這個問題的一個流行的方法是遷移學習,對在源域基準上預先訓練的檢測器進行微調。然而,由于訓練樣本的數據多樣性較低,這種轉移的檢測器往往不能識別目標域中的新對象。為了解決這一問題,我們提出了一個新穎的上下文轉換器:一個簡潔的深層傳輸框架。具體來說,Context-Transformer可以有效地利用源域對象知識作為指導,并自動地從目標域中的少量訓練圖像中挖掘上下文。然后,自適應地整合這些相關線索,增強檢測器的識別能力,以減少在小樣本場景下的目標混淆。此外,上下文轉換器靈活地嵌入到流行的ssd風格的檢測器中,這使得它成為端到端小樣本學習的即插即用模塊。最后,我們評估了上下文轉換器對小樣本檢測和增量小樣本檢測的挑戰性設置。實驗結果表明,我們的框架比目前最先進的方法有更好的性能。