被錄用論文之一為“Uncertainty-aware Joint Salient Object and Camouflaged Object Detection”,是CVPR口頭報告,第一作者為研二學生李艾軒,由我校、澳大利亞國立大學以及瑞士洛桑聯邦理工大學合作完成。該論文圍繞視覺顯著性物體檢測與偽裝性物體檢測任務的相互對立與學習展開,提出了基于不確定性感知的顯著性物體檢測和偽裝物體檢測的聯合學習網絡,建模網絡預測的置信度,并通過深入挖掘兩任務間的相關性,利用顯著性物體和偽裝物體的矛盾對立屬性,使相互對立的顯著性物體檢測與偽裝物體檢測任務相互幫助。
盡管主動學習在圖像識別方面取得了長足的進步,但仍然缺乏一種專門適用于目標檢測的示例級的主動學習方法。在本文中,我們提出了多示例主動目標檢測(MI-AOD),通過觀察示例級的不確定性來選擇信息量最大的圖像用于檢測器的訓練。MI-AOD定義了示例不確定性學習模塊,該模塊利用在已標注集上訓練的兩個對抗性示例分類器的差異來預測未標注集的示例不確定性。MI-AOD將未標注的圖像視為示例包,并將圖像中的特征錨視為示例,并通過以多示例學習(MIL)方式對示例重加權的方法來估計圖像的不確定性。反復進行示例不確定性的學習和重加權有助于抑制噪聲高的示例,來縮小示例不確定性和圖像級不確定性之間的差距。實驗證明,MI-AOD為示例級的主動學習設置了堅實的基線。在常用的目標檢測數據集上,MI-AOD和最新方法相比具有明顯的優勢,尤其是在已標注集很小的情況下。
代碼地址為//github.com/yuantn/MI-AOD
我們提出了一種新的群組協作學習框架(GCoNet),該框架能夠實時(16ms)檢測共同顯著對象,通過同時基于兩個必要標準挖掘群組層面的共識表示:1)組內部的緊密性,利用我們的組親和模塊捕捉共同顯著對象內在的共享屬性,從而更好地制定共同顯著對象之間的一致性;2)組間可分離性,通過引入我們新的組協作模塊,有效地抑制了噪聲對象對輸出的影響。為了在沒有額外計算開銷的情況下學習更好的嵌入空間,我們明確地使用了輔助分類監督。在三個具有挑戰性的數據上,即CoCA、CoSOD3k和Cosal2015上進行的大量實驗表明,我們的簡單GCoNet優于10個最新模型,并實現了新的最先進水平。我們展示了本文在一些重要的下游計算機視覺應用上的新技術貢獻,包括內容感知的共同分割,基于共同定位的自動縮略圖等。
我們提出了自監督幾何感知(SGP),這是第一個學習特征描述符進行對應匹配的通用框架,不需要任何真實的幾何模型標簽(例如,相機姿態,剛性轉換)。我們的第一個貢獻是將幾何感知形式化為一個優化問題,在給定大量視覺測量數據(如圖像、點云)的基礎上,聯合優化特征描述符和幾何模型。在這個優化公式下,我們展示了視覺領域的兩個重要的研究流,即魯棒模型擬合和深度特征學習,對應著優化未知變量的一個塊,同時固定另一個塊。這種分析自然引出了我們的第二個貢獻——SGP算法,它執行交替最小化來解決聯合優化。SGP迭代地執行兩個元算法:一個教師對已知的學習特征進行魯棒模型擬合以生成幾何偽標簽,一個學生在偽標簽的嘈雜監督下進行深度特征學習。作為第三個貢獻,我們將SGP應用于大規模真實數據集上的兩個感知問題,即MegaDepth上的相對相機姿態估計和3DMatch上的點云配準。我們證明,SGP達到了最先進的性能,與使用真實標簽訓練的受監督的模型相當。
人類有一種辨別環境中未知物體的本能。當最終獲得相應的知識時,對這些未知實例的內在好奇心有助于了解它們。這激勵我們提出一種新穎的計算機視覺問題稱:“開放世界目標檢測”,在一個模型的任務是:1) 識別的對象沒有被介紹,成為“未知”,沒有明確的監督,和 2)增量學習這些識別未知類別。本文提出了一種基于對比聚類和基于能量的未知識別的開放世界目標檢測方案。我們的實驗評價和消融研究分析了ORE 在實現開放世界目標的有效性。作為一個有趣的副產品,我們發現識別和描述未知實例有助于減少增量對象檢測設置中的混亂,在增量對象檢測設置中,我們實現了最先進的性能,而不需要額外的方法努力。我們希望我們的工作將吸引對這一新確定的關鍵研究方向的進一步研究。
面向對象的映射對于場景理解非常重要,因為它們共同捕獲幾何和語義,允許對對象進行單獨的實例化和有意義的推理。我們介紹了FroDO,這是一種從RGB視頻中精確重建物體實例的方法,它以一種由粗到細的方式推斷出物體的位置、姿態和形狀。FroDO的關鍵是將對象形狀嵌入到一個新的學習空間中,允許在稀疏點云和稠密DeepSDF解碼之間進行無縫切換。給定一個局部的RGB幀的輸入序列,FroDO首先聚合2D檢測,為每個對象實例化一個分類感知的3D包圍框。在利用稀疏和稠密形狀表示進一步優化形狀和姿態之前,使用編碼器網絡對形狀代碼進行回歸。優化使用多視圖幾何,光度和剪影損失。我們對真實世界的數據集進行評估,包括Pix3D、Redwood-OS和ScanNet,用于單視圖、多視圖和多對象重建。