基于激光雷達的傳感技術驅動著目前的自動駕駛汽車。盡管進展迅速,但目前的激光雷達傳感器在分辨率和成本方面仍落后于傳統彩色相機20年。對于自動駕駛來說,這意味著靠近傳感器的大物體很容易被看到,但遠處或小物體只包含一兩個測量。這是一個問題,尤其是當這些物體被證明是駕駛危險的時候。另一方面,這些相同的物體在機載RGB傳感器中清晰可見。在這項工作中,我們提出了無縫融合RGB傳感器到基于激光雷達的3D識別的方法。我們的方法采用一組二維檢測來生成密集的三維虛擬點,以增強稀疏的三維點云。這些虛擬點自然地集成到任何標準的基于激光雷達的3D探測器以及常規激光雷達測量。由此產生的多模態檢測器簡單而有效。在大規模nuScenes數據集上的實驗結果表明,我們的框架通過顯著的6.6 mAP改善了一個強大的中心點基線,并優于其他融合方法。代碼和更多可視化信息可以在//tianweiy.github.io/mvp/上找到
目標檢測在過去的十年中取得了長足的進步。然而,利用少樣本檢測新類仍然具有挑戰性,因為在低數據環境下的深度學習通常會導致特征空間的退化。現有的研究都采用了整體的微調范式來解決這個問題,即首先對模型進行大量樣本的所有基類的預訓練,然后用它來學習新的類特征空間。盡管如此,這種范式仍然是不完美的。在微調過程中,一個新類可能會隱式地利用多個基類的知識來構造其特征空間,導致特征空間分散,違反類間的可分離性。為了克服這些障礙,我們提出了一種兩步微調的框架,即關聯與識別的少樣本目標檢測(FADI),該框架采用兩步整合的方法為每個新類建立判別特征空間。1) 在關聯步驟中,與隱式利用多個基類不同,我們通過顯式模擬一個特定的基類特征空間來構造一個緊湊的新類特征空間。具體來說,我們根據每個新類的語義相似度將它們與基類關聯起來。之后,新類的特征空間可以很容易地模仿相關基類的經過良好訓練的特征空間。2)在判別步驟中,為了保證新類和相關基類之間的可分離性,我們對基類和新類的分類分支進行解糾纏。為了進一步擴大各類別間的可分性,引入了一個集合化的保證金損失。在Pascal VOC和MS-COCO數據集上的大量實驗表明,FADI實現了新的SOTA性能,在任何鏡頭/分割中顯著提高了18.7的基線。值得注意的是,這種優勢是在極少的場景中體現出來的。
由于數據有限甚至不均衡,半監督語義分割在某些類別上的性能往往較差,例如在cityscape數據集中顯示長尾標簽分布的尾類。現有的方法幾乎都忽視了這個問題,并對類別一視同仁。一些流行的方法,如一致性正則化或偽標簽,甚至可能會損害對表現不佳類別的學習,這些類別的預測或偽標簽可能太不準確,無法指導對未標記數據的學習。本文針對這一問題,提出了一種新的半監督語義分割框架——自適應均衡學習(adaptive equalization learning, AEL)。AEL自適應地平衡了訓練好的和表現不好的類別,在訓練期間用一個信心庫動態跟蹤類別的表現。信心庫被用作向表現不佳的類別傾斜訓練的指標,具體體現在三種策略中: 1) 自適應的Copy-Paste和CutMix數據增強方法,使表現不佳的類別有更多的機會被復制或刪除; 2) 自適應數據采樣方法,鼓勵對表現不佳類別的像素進行采樣; 3) 采用一種簡單而有效的加權方法來減輕偽標記帶來的訓練噪聲。在實驗上,在不同的數據劃分協議下,AEL在Cityscapes和Pascal VOC基準測試上的表現大大優于最先進的方法。
說明黑盒神經網絡的一個主要方法是特征歸因,即識別輸入特征對網絡預測的重要性。特征的預測信息最近被提出作為度量其重要性的代理。到目前為止,通過在網絡中設置一個信息瓶頸,只能識別出潛在特征的預測信息。本文提出了一種在輸入域中具有預測信息的特征識別方法。該方法可對輸入特征信息進行細粒度識別,且與網絡結構無關。我們方法的核心思想是利用輸入上的瓶頸,只讓與預測潛在特征相關的輸入特征通過。通過主流特征歸因評價實驗,我們將該方法與幾種特征歸因方法進行了比較。代碼是公開可用的。
我們提出了一種新的方法來解開一組給定的觀察結果背后的變異的生成因素。我們想法是建立在可以顯式地建模為子流形乘積的數據空間的(未知的)低維流形。這種解糾纏的定義提出了一種新的弱監督算法,用于恢復數據背后的未知解釋因素。在訓練時,我們的算法只需要成對的非i.i.d.數據樣本,它們的元素共享至少一個,可能是多維的,產生變異的因素。我們不需要知道這些變換的性質,也不需要對每個子空間的性質做任何限制性的假設。我們的方法易于實現,并可以成功地應用于不同類型的數據(從圖像到三維表面)進行任意轉換。除了標準的合成基準外,我們還展示了我們在挑戰現實應用方面的方法,在現實應用中,我們可以與目前的技術水平想匹配。