主題: Learning Video Object Segmentation from Unlabeled Videos
摘要:
我們提出了一種新的視頻對象分割方法(VOS),解決了從未標記的視頻中學習對象模式的問題,而現有的方法大多依賴于大量的帶注釋的數據。我們引入了一個統一的無監督/弱監督學習框架,稱為MuG,它全面地捕捉了VOS在多個粒度上的內在特性。我們的方法可以幫助提高對VOS中可視模式的理解,并顯著減少注釋負擔。經過精心設計的體系結構和強大的表示學習能力,我們的學習模型可以應用于各種VOS設置,包括對象級零鏡頭VOS、實例級零鏡頭VOS和單鏡頭VOS。實驗表明,在這些設置下,有良好的性能,以及利用無標記數據進一步提高分割精度的潛力。
目標分割和目標跟蹤是計算機視覺領域的基礎研究領域。這兩個主題很難處理一些常見的挑戰,如遮擋、變形、運動模糊、縮放變化等。前者包含異構對象、交互對象、邊緣模糊性和形狀復雜性;后者在處理快速運動、不可見和實時處理方面存在困難。結合視頻目標分割和跟蹤兩個問題,可以克服各自的困難,提高視頻目標的性能。VOST可廣泛應用于視頻摘要、高清視頻壓縮、人機交互、無人駕駛汽車等實際應用中。本綜述旨在提供最先進的VOST方法的全面回顧,將這些方法分類為不同的類別,并確定新的趨勢。首先,我們將VOST方法大致分為視頻對象分割(VOS)和基于分割的對象跟蹤(SOT)。根據分割和跟蹤機制,將每個類別進一步劃分為不同的類型。在此基礎上,給出了各時間節點的代表性VOS和SOT方法。其次,對不同方法的技術特點進行了詳細的討論和概述。第三,總結了相關視頻數據集的特點,并給出了各種評價指標。最后,我們指出了一系列有趣的工作,并得出了自己的結論。
題目: Continual Learning of Object Instances
摘要: 我們建議實例持續學習——一種將持續學習的概念應用于區分相同對象類別的實例的任務的方法。我們特別關注car對象,并通過度量學習逐步學會區分car實例與其他實例。我們從評估當前的技術開始我們的論文。在現有的方法中,災難性遺忘是顯而易見的,我們提出了兩個補救措施。首先,通過歸一化交叉熵對度量學習進行正則化。其次,我們使用合成數據傳輸來擴充現有的模型。我們在三個大型數據集上進行了大量的實驗,使用了兩種不同的體系結構,采用了五種不同的持續學習方法,結果表明,標準化的交叉熵和合成轉移可以減少現有技術中的遺忘。
題目: Self-Supervised Viewpoint Learning From Image Collections
簡介:
訓練深度神經網絡以估計對象的視點需要標記大型訓練數據集。但是,手動標記視點非常困難,容易出錯且耗時。另一方面,從互聯網(例如汽車或人臉)上挖掘許多未分類的物體類別圖像相對容易。我們試圖回答這樣的研究問題:是否可以僅通過自我監督將這種未標記的野外圖像集合成功地用于訓練一般對象類別的視點估計網絡。這里的自我監督是指網絡具有的唯一真正的監督信號是輸入圖像本身。我們提出了一種新穎的學習框架,該框架結合了“綜合分析”范式,利用生成網絡以視點感知的方式重構圖像,并具有對稱性和對抗性約束,以成功地監督我們的視點估計網絡。我們表明,對于人臉,汽車,公共汽車和火車等幾個對象類別,我們的方法在完全監督方法上具有競爭性。我們的工作為自我監督的觀點學習開辟了進一步的研究,并為其提供了堅實的基礎。
主題: Weakly-Supervised Salient Object Detection via Scribble Annotations
摘要: 與費力的逐像素密集標記相比,這種方法更容易通過涂抹來標記數據,僅花費1-2秒即可標記一張圖像。然而,尚未有人探索使用可劃線標簽來學習顯著物體檢測。在本文中,我們提出了一種弱監督的顯著物體檢測模型,以從此類注釋中學習顯著性。為此,我們首先使用亂碼對現有的大型顯著物體檢測數據集進行重新標記,即S-DUTS數據集。由于對象的結構和詳細信息不能通過亂寫識別,因此直接訓練帶有亂寫的標簽將導致邊界位置局限性的顯著性圖。為了緩解這個問題,我們提出了一個輔助的邊緣檢測任務來明確地定位對象邊緣,并提出了門控結構感知損失以將約束置于要恢復的結構范圍上。此外,我們設計了一種涂鴉增強方案來迭代地整合我們的涂鴉注釋,然后將其作為監督來學習高質量的顯著性圖。我們提出了一種新的度量標準,稱為顯著性結構測量,用于測量預測顯著性圖的結構對齊方式,這與人類的感知更加一致。在六個基準數據集上進行的大量實驗表明,我們的方法不僅優于現有的弱監督/無監督方法,而且與幾種完全監督的最新模型相提并論。
主題: Semi-Supervised StyleGAN for Disentanglement Learning
摘要: 解纏學習是獲得解纏表示和可控生成的關鍵。目前的解纏方法面臨著一些固有的局限性:難以獲得高分辨率圖像,主要是學習解纏表示,以及由于無監督設置而無法識別。為了緩解這些限制,我們設計了基于StyleGAN(Karras等人,2019)的新架構和損失函數,用于半監督高分辨率解糾纏學習。我們創建了兩個復雜的高分辨率合成數據集用于系統測試。我們研究了有限監督的影響,發現僅使用0.25%~2.5%的標記數據就足以對合成數據集和真實數據集進行良好的分離。我們提出了新的量化發電機可控性的指標,并觀察到分離表示學習和可控發電之間可能存在一個關鍵的權衡。我們還考慮了語義細粒度的圖像編輯,以實現對看不見的圖像更好的泛化。
題目: Self-supervised learning for audio-visual speaker diarization
摘要:
主講人二值化是一種尋找特定主講人語音片段的技術,在視頻會議、人機交互系統等以人為中心的應用中得到了廣泛的應用。在這篇論文中,我們提出一種自監督的音視頻同步學習方法來解決說話人的二值化問題,而不需要大量的標注工作。我們通過引入兩個新的損失函數:動態三重損失和多項式損失來改進前面的方法。我們在一個真實的人機交互系統上進行了測試,結果表明我們的最佳模型獲得了顯著的+8%的f1分數,并降低了二值化的錯誤率。最后,我們介紹了一種新的大規模的音視頻語料庫,以填補漢語音視頻數據集的空白。
題目: Automatically Discovering and Learning New Visual Categories with Ranking Statistics
摘要:
我們解決了在一個圖像集合中發現新的類的問題,給出了其它類的標記示例。這種設置類似于半監督學習,但難度要大得多,因為新課程沒有帶標簽的例子。因此,挑戰在于如何利用標記圖像中包含的信息來學習通用的聚類模型,并使用后者來識別未標記數據中的新類。在這項工作中,我們通過結合三個想法來解決這個問題:
論文主題: Recent Advances in Deep Learning for Object Detection
論文摘要: 目標檢測是計算機視覺中的基本視覺識別問題,并且在過去的幾十年中已得到廣泛研究。目標檢測指的是在給定圖像中找到具有精確定位的特定目標,并為每個目標分配一個對應的類標簽。由于基于深度學習的圖像分類取得了巨大的成功,因此近年來已經積極研究了使用深度學習的對象檢測技術。在本文中,我們對深度學習中視覺對象檢測的最新進展進行了全面的調查。通過復習文獻中最近的大量相關工作,我們系統地分析了現有的目標檢測框架并將調查分為三個主要部分:(i)檢測組件,(ii)學習策略(iii)應用程序和基準。在調查中,我們詳細介紹了影響檢測性能的各種因素,例如檢測器體系結構,功能學習,建議生成,采樣策略等。最后,我們討論了一些未來的方向,以促進和刺激未來的視覺對象檢測研究。與深度學習。