近年來,自適應目標檢測的研究取得了令人矚目的成果。盡管對抗性自適應極大地增強了特征表示的可遷移性,但對目標檢測器的特征鑒別能力的研究卻很少。此外,由于目標的復雜組合和域之間的場景布局的差異,在對抗性適應中,可遷移性和可辨別性可能會產生矛盾。本文提出了一種層級可遷移性校準網絡(HTCN),該網絡通過對特征表示的可遷移性進行分級(局部區域/圖像/實例)校準來協調可遷移性和可識別性。該模型由三部分組成:(1)輸入插值加權對抗性訓練(iwati),通過重新加權插值后的圖像級特征,增強了全局識別力;(2)上下文感知實例級對齊(context -aware Instance-Level Alignment, CILA)模塊,該模塊通過捕獲實例級特征與實例級特征對齊的全局上下文信息之間的潛在互補效應,增強了局部識別能力;(3)校準局部可遷移性的局部特征掩碼,為后續判別模式對齊提供語義指導。實驗結果表明,在基準數據集上,HTCN的性能明顯優于最先進的方法。
題目: Continual Learning of Object Instances
摘要: 我們建議實例持續學習——一種將持續學習的概念應用于區分相同對象類別的實例的任務的方法。我們特別關注car對象,并通過度量學習逐步學會區分car實例與其他實例。我們從評估當前的技術開始我們的論文。在現有的方法中,災難性遺忘是顯而易見的,我們提出了兩個補救措施。首先,通過歸一化交叉熵對度量學習進行正則化。其次,我們使用合成數據傳輸來擴充現有的模型。我們在三個大型數據集上進行了大量的實驗,使用了兩種不同的體系結構,采用了五種不同的持續學習方法,結果表明,標準化的交叉熵和合成轉移可以減少現有技術中的遺忘。
主題: Exploring Categorical Regularization for Domain Adaptive Object Detection
摘要: 在本文中,我們解決了域自適應對象檢測問題,其中主要挑戰在于源域和目標域之間的顯著域間隙。先前的工作試圖使圖像級別和實例級別的轉換明確對齊,以最終將域差異最小化。但是,它們仍然忽略了跨域匹配關鍵圖像區域和重要實例,這將嚴重影響域偏移緩解。在這項工作中,我們提出了一個簡單但有效的分類正則化框架來緩解此問題。它可以作為即插即用組件應用于一系列領域自適應快速R-CNN方法,這些方法在處理領域自適應檢測方面非常重要。具體地,通過將??圖像級多標簽分類器集成到檢測主干上,由于分類方式的定位能力較弱,我們可以獲得與分類信息相對應的稀疏但至關重要的圖像區域。同時,在實例級別,我們利用圖像級別預測(通過分類器)和實例級別預測(通過檢測頭)之間的分類一致性作為規則化因子,以自動尋找目標域的硬對齊實例。各種域移位方案的大量實驗表明,與原始的域自適應快速R-CNN檢測器相比,我們的方法獲得了顯著的性能提升。此外,定性的可視化和分析可以證明我們的方法參加針對領域適應的關鍵區域/實例的能力。
主題: Weakly-Supervised Salient Object Detection via Scribble Annotations
摘要: 與費力的逐像素密集標記相比,這種方法更容易通過涂抹來標記數據,僅花費1-2秒即可標記一張圖像。然而,尚未有人探索使用可劃線標簽來學習顯著物體檢測。在本文中,我們提出了一種弱監督的顯著物體檢測模型,以從此類注釋中學習顯著性。為此,我們首先使用亂碼對現有的大型顯著物體檢測數據集進行重新標記,即S-DUTS數據集。由于對象的結構和詳細信息不能通過亂寫識別,因此直接訓練帶有亂寫的標簽將導致邊界位置局限性的顯著性圖。為了緩解這個問題,我們提出了一個輔助的邊緣檢測任務來明確地定位對象邊緣,并提出了門控結構感知損失以將約束置于要恢復的結構范圍上。此外,我們設計了一種涂鴉增強方案來迭代地整合我們的涂鴉注釋,然后將其作為監督來學習高質量的顯著性圖。我們提出了一種新的度量標準,稱為顯著性結構測量,用于測量預測顯著性圖的結構對齊方式,這與人類的感知更加一致。在六個基準數據集上進行的大量實驗表明,我們的方法不僅優于現有的弱監督/無監督方法,而且與幾種完全監督的最新模型相提并論。
題目: Context-Transformer: Tackling Object Confusion for Few-Shot Detection
摘要:
小樣本目標檢測是一個具有挑戰性但又很現實的場景,只有少數帶注釋的訓練圖像可用于訓練檢測器。處理這個問題的一個流行的方法是遷移學習,對在源域基準上預先訓練的檢測器進行微調。然而,由于訓練樣本的數據多樣性較低,這種轉移的檢測器往往不能識別目標域中的新對象。為了解決這一問題,我們提出了一個新穎的上下文轉換器:一個簡潔的深層傳輸框架。具體來說,Context-Transformer可以有效地利用源域對象知識作為指導,并自動地從目標域中的少量訓練圖像中挖掘上下文。然后,自適應地整合這些相關線索,增強檢測器的識別能力,以減少在小樣本場景下的目標混淆。此外,上下文轉換器靈活地嵌入到流行的ssd風格的檢測器中,這使得它成為端到端小樣本學習的即插即用模塊。最后,我們評估了上下文轉換器對小樣本檢測和增量小樣本檢測的挑戰性設置。實驗結果表明,我們的框架比目前最先進的方法有更好的性能。
論文主題: Recent Advances in Deep Learning for Object Detection
論文摘要: 目標檢測是計算機視覺中的基本視覺識別問題,并且在過去的幾十年中已得到廣泛研究。目標檢測指的是在給定圖像中找到具有精確定位的特定目標,并為每個目標分配一個對應的類標簽。由于基于深度學習的圖像分類取得了巨大的成功,因此近年來已經積極研究了使用深度學習的對象檢測技術。在本文中,我們對深度學習中視覺對象檢測的最新進展進行了全面的調查。通過復習文獻中最近的大量相關工作,我們系統地分析了現有的目標檢測框架并將調查分為三個主要部分:(i)檢測組件,(ii)學習策略(iii)應用程序和基準。在調查中,我們詳細介紹了影響檢測性能的各種因素,例如檢測器體系結構,功能學習,建議生成,采樣策略等。最后,我們討論了一些未來的方向,以促進和刺激未來的視覺對象檢測研究。與深度學習。
We introduce and tackle the problem of zero-shot object detection (ZSD), which aims to detect object classes which are not observed during training. We work with a challenging set of object classes, not restricting ourselves to similar and/or fine-grained categories cf. prior works on zero-shot classification. We follow a principled approach by first adapting visual-semantic embeddings for ZSD. We then discuss the problems associated with selecting a background class and motivate two background-aware approaches for learning robust detectors. One of these models uses a fixed background class and the other is based on iterative latent assignments. We also outline the challenge associated with using a limited number of training classes and propose a solution based on dense sampling of the semantic label space using auxiliary data with a large number of categories. We propose novel splits of two standard detection datasets - MSCOCO and VisualGenome and discuss extensive empirical results to highlight the benefits of the proposed methods. We provide useful insights into the algorithm and conclude by posing some open questions to encourage further research.