弱監督目標檢測(WSOD)和定位(WSOL),即使用圖像級標簽檢測圖像中包含邊界框的多個或單個實例,是CV領域中長期存在且具有挑戰性的任務。隨著深度神經網絡在目標檢測中的成功,WSOD和WSOL都受到了前所未有的關注。在深度學習時代,已有數百種WSOD和WSOL方法和大量技術被提出。為此,本文將WSOL視為WSOD的一個子任務,并對近年來WSOD的成就進行了全面的綜述。具體來說,我們首先描述了WSOD的制定和設置,包括產生的背景、面臨的挑戰、基本框架。同時,總結和分析了提高檢測性能的各種先進技術和訓練技巧。然后,介紹了目前廣泛使用的WSOD數據集和評價指標。最后,討論了WSOD的未來發展方向。我們相信這些總結可以為今后的WSOD和WSOL研究鋪平道路。
引言
目標檢測[2]是一項基礎的、具有挑戰性的任務,旨在定位和分類圖像中的對象實例。對象定位是使用邊界框(一個與軸對齊的矩形緊緊包圍對象)在圖像中搜索盡可能多的對象的空間位置和范圍[3],[4]。對象分類是評估圖像中給定一組對象類中是否存在對象。目標檢測作為計算機視覺最基本的任務之一,是許多高級應用不可或缺的技術,如機器人視覺[5]、人臉識別[6]、圖像檢索[7]、[8]、增強現實[9]、自動駕駛[10]、變化檢測[11]等。隨著卷積神經網絡在視覺識別領域[12]-[14]的發展,以及大規模數據集[4]、[15]的發布,當今最先進的目標檢測器在全監督設置下可以達到近乎完美的性能,即全監督目標檢測(FSOD)[16] -[21]。然而,這些完全監督的對象檢測方法存在兩個不可避免的局限性:1)大量實例注釋難以獲取,而且需要大量的人工。2)在標注這些數據時,可能會無意中引入標注噪聲。
為了避免上述問題,社區開始在弱監督設置下解決對象檢測問題,即弱監督對象檢測(WSOD)。與完全監督的設置不同(參見圖1 (a)), WSOD的目的是檢測只有圖像級標簽的實例(例如,實例在整個圖像中的類別)。同時,WSOD也可以從網絡上的大規模數據集中獲益,如Facebook和Twitter。另一個類似的任務是弱監督對象定位(WSOL),它只檢測圖像中的一個實例。由于WSOD和WSOL分別檢測多個實例和單個實例,所以我們認為WSOL是WSOD的一個子任務。在接下來的文章中,我們使用WSOD來表示WSOD和WSOL。
在本文中,我們回顧了所有典型的WSOD方法,并對WSOD的最新進展進行了全面的綜述(參見圖2)。在第二部分,我們介紹了背景、主要挑戰和基本框架。在第三部分中,我們根據WSOD的發展時間表,詳細介紹了幾種現代經典方法。然后,對主要挑戰的所有先進技術和技巧進行了深入分析。在第8節中,我們將演示WSOD的所有流行基準和標準評估指標。在第9節中,我們簡要地討論了未來的方向。
在本文中,我們總結了大量的深度學習 WSOD方法,并給出了大量的解決方案來解決上述挑戰。綜上所述,本文的主要內容如下:
摘要
視頻分割,即將視頻幀分割成多個片段或對象,在電影的視覺效果輔助、自動駕駛中的場景理解、視頻會議中的虛擬背景創建等廣泛的實際應用中起著至關重要的作用。最近,由于計算機視覺中的連接主義的復興,出現了大量基于深度學習的方法,這些方法致力于視頻分割,并提供了引人注目的性能。本文通過對視頻中未知類別的一般目標分割和視頻語義分割這兩項研究的任務設置、背景概念、感知需求、發展歷史和主要挑戰的介紹,全面回顧了這兩項研究的基本方向。我們還提供了一個詳細的概述的代表性文獻的方法和數據集。此外,我們在基準數據集上提出了評測方法的量化性能比較。最后,指出了該領域尚未解決的問題,并提出了進一步研究的機會。
引言
視頻分割是機器視覺中一個基本的、具有挑戰性的問題,它是識別視頻場景中具有特定特征屬性或語義值的目標集。由于其在廣泛應用領域(如自動駕駛、機器人技術、自動監控、社交媒體、增強現實、電影產業、視頻會議等)中的重要作用,它長期以來一直受到計算機視覺和圖形界的廣泛關注和積極研究。
視頻分割在過去已經被用來解決各種傳統的計算機視覺和機器學習技術,包括手工特征(例如,顏色,直方圖統計,光流等),啟發式先驗知識(例如,視覺注意力機制[1],運動邊界[2]等),低/中級視覺表示(例如,超級體素[3]、軌跡[4]、對象proposal [5]等),以及經典的機器學習模型(如聚類算法[6]、圖模型[7]、隨機漫步[8]、支持向量機[9]、隨機決策森林[10]、馬爾可夫隨機場[11]、條件隨機場[12]等)。近年來,隨著深度神經網絡的蓬勃發展,特別是全卷積網絡(FCN)[13]的發展,視頻分割取得了顯著的進展。這些基于深度學習的視頻分割算法在準確性和有時甚至效率方面大大超過了其他老方法,并繼續提高技術水平。
隨著這一領域的快速發展,出現了大量的新文獻。然而,現有的綜述大多是過時的(發表在現代深度學習時代之前)[14]、[15],而且往往視野狹窄,即只關注前/背景視頻分割[16]、[17]。該領域的不斷變化和技術發展的快節奏給啟動帶來了困難。因此,由于視頻分割設置的多樣性和概念的模糊性,進行全面深入的綜述是非常困難和費時的,但非常有必要和幫助。
為此,我們首先系統地介紹了視頻分割的最新進展,從任務制定到分類,從算法到數據集,從尚未解決的問題到未來的研究方向。它涵蓋了幾個關鍵方面,包括任務類別(前景/背景分離vs語義分割),處理模式(即自動、半自動和交互式),學習范式(即監督、無監督和弱監督),以及澄清混淆的術語(如背景減法、運動分割,等等)。我們希望這項綜述可以為感興趣的研究者提供一個全面的回顧,并促進對提出的開放問題的研究。
本文主要研究了視頻分割的兩個主要分支,即視頻對象分割(圖1(a-e))和視頻語義分割(圖1(f-h))的最新進展,并進一步劃分為八個子領域。雖然我們將重點局限于基于深度學習的視頻分割解決方案,但在這個快速發展的領域仍有數百篇論文發表,因此不太可能(幸運的是,也沒有必要)對它們全部進行調研。相反,我們選擇在著名期刊和會議上發表的有影響力的論文。因此,我們將引入一些非深度學習的視頻分割模型和其他領域的相關文獻,如視頻對象檢測和視覺跟蹤,以提供必要的背景。
本文的研究進展如下。§2給出了分類學、術語、研究歷史和相關研究領域的簡要背景。§3和§4分別回顧了深度學習算法和視頻分割數據集方面的代表性工作。§5進行性能評估和分析。此外,§6指出了一系列開放式問題和方向。最后,在§7中給出了結論。
論文標題://www.zhuanzhi.ai/paper/73cf9736c65be0102766f210e8693513
論文鏈接:
作者單位:中國人民大學
26頁綜述,共計99篇參考文獻!本文對基于圖像(單目/立體)、點云、多模態融合的3D目標檢測技術進行全面調研,內容包括傳感器、基礎知識和最經典和最先進的檢測方法及其優缺點。
自動駕駛被認為是保護人類免受嚴重碰撞的最有希望的補救措施之一。為此,3D目標檢測作為此類感知系統的核心基礎,尤其是在路徑規劃、運動預測、碰撞避免等方面。通常,立體或單目圖像與相應的3D點云已經是3D物體的標準布局檢測,其中點云越來越普遍,提供準確的深度信息。盡管已有努力,但點云上的3D目標檢測仍處于起步階段,因為點云本質上的高度稀疏性和不規則性,相機視圖和 LiDAR 鳥瞰視圖之間的錯位視圖,用于模態協同,遠距離的遮擋和尺度變化,最近,3D對象檢測取得了重大進展,正在研究大量文獻以解決這一視覺任務。因此,我們全面回顧了該領域的最新進展,涵蓋了所有主要主題,包括傳感器、基礎知識和最近最先進的檢測方法及其優缺點。此外,我們引入了指標并提供了對流行公共數據集的定量比較。在對所調查的工作進行深入分析后,將明智地確定未來工作的途徑。最后,我們總結了這篇論文。
目標檢測一直以來都是計算機視覺領域的研究熱點之一,其任務是返回給定圖像中的單個或多個特定目 標的類別與矩形包圍框坐標.隨著神經網絡研究的飛速進展,R-CNN 檢測器的誕生標志著目標檢測正式進入深度學習時代,速度和精度相較于傳統算法均有了極大的提升.但是,目標檢測的尺度問題對于深度學習算法而言也始終是 一個難題,即檢測器對于尺度極大或極小目標的檢測精度會顯著下降,因此,近年來有不少學者在研究如何才能更好 地實現多尺度目標檢測.雖然已有一系列的綜述文章從算法流程、網絡結構、訓練方式和數據集等方面對基于深度 學習的目標檢測算法進行了總結與分析,但對多尺度目標檢測的歸納和整理卻鮮有人涉足.因此,首先對基于深度學 習的目標檢測的兩個主要算法流派的奠基過程進行了回顧,包括以 R-CNN 系列為代表的兩階段算法和以 YOLO、 SSD 為代表的一階段算法;然后,以多尺度目標檢測的實現為核心,重點詮釋了圖像金字塔、構建網絡內的特征金字 塔等典型策略;最后,對多尺度目標檢測的現狀進行總結,并針對未來的研究方向進行展望。
//www.jos.org.cn/jos/ch/reader/create_pdf.aspx?file_no=6166&journal_id=jos
目標檢測是對圖像或視頻中的物體進行分類和定位的任務。近年來,由于其廣泛的應用而倍受關注。本文概述了基于深度學習的目標檢測器的最新發展。還提供了用于檢測的基準數據集和評估指標的簡要概述,以及用于識別任務的一些著名的主干架構。它還涵蓋了邊緣設備上使用的當代輕量級分類模型。最后,我們在多個指標上比較了這些體系結構的性能。
人工神經網絡在解決特定剛性任務的分類問題時,通過不同訓練階段的廣義學習行為獲取知識。由此產生的網絡類似于一個靜態的知識實體,努力擴展這種知識而不針對最初的任務,從而導致災難性的遺忘。
持續學習將這種范式轉變為可以在不同任務上持續積累知識的網絡,而不需要從頭開始再訓練。我們關注任務增量分類,即任務按順序到達,并由清晰的邊界劃分。我們的主要貢獻包括:
(1) 對持續學習技術的分類和廣泛的概述;
(2) 一個持續學習器穩定性-可塑性權衡的新框架;
(3) 對11種最先進的持續學習方法和4條基準進行綜合實驗比較。
考慮到微型Imagenet和大規模不平衡的非自然主義者以及一系列識別數據集,我們以經驗的方式在三個基準上仔細檢查方法的優缺點。我們研究了模型容量、權重衰減和衰減正則化的影響,以及任務呈現的順序,并從所需內存、計算時間和存儲空間等方面定性比較了各種方法。
//www.zhuanzhi.ai/paper/c90f25024b2c2364ce63299b4dc4677f
引言
近年來,據報道,機器學習模型在個人任務上表現出甚至超過人類水平的表現,如雅達利游戲[1]或物體識別[2]。雖然這些結果令人印象深刻,但它們是在靜態模型無法適應其行為的情況下獲得的。因此,這需要在每次有新數據可用時重新啟動訓練過程。在我們的動態世界中,這種做法對于數據流來說很快就變得難以處理,或者可能由于存儲限制或隱私問題而只能暫時可用。這就需要不斷適應和不斷學習的系統。人類的認知就是這樣一個系統的例證,它具有順序學習概念的傾向。通過觀察例子來重新審視舊的概念可能會發生,但對保存這些知識來說并不是必要的,而且盡管人類可能會逐漸忘記舊的信息,但完全丟失以前的知識很少被證明是[3]。相比之下,人工神經網絡則不能以這種方式學習:在學習新概念時,它們會遭遇對舊概念的災難性遺忘。為了規避這一問題,人工神經網絡的研究主要集中在靜態任務上,通常通過重組數據來確保i.i.d.條件,并通過在多個時期重新訪問訓練數據來大幅提高性能。
持續學習研究從無窮無盡的數據流中學習的問題,其目標是逐步擴展已獲得的知識,并將其用于未來[4]的學習。數據可以來自于變化的輸入域(例如,不同的成像條件),也可以與不同的任務相關聯(例如,細粒度的分類問題)。持續學習也被稱為終身學習[18]0,[18]1,[18]2,[18]3,[18]5,[18]4,順序學習[10],[11],[12]或增量學習[13],[14],[15],[16],[17],[18],[19]。主要的標準是學習過程的順序性質,只有一小部分輸入數據來自一個或幾個任務,一次可用。主要的挑戰是在不發生災難性遺忘的情況下進行學習:當添加新的任務或域時,之前學習的任務或域的性能不會隨著時間的推移而顯著下降。這是神經網絡中一個更普遍的問題[20]的直接結果,即穩定性-可塑性困境,可塑性指的是整合新知識的能力,以及在編碼時保持原有知識的穩定性。這是一個具有挑戰性的問題,不斷學習的進展使得現實世界的應用開始出現[21]、[22]、[23]。
為了集中注意力,我們用兩種方式限制了我們的研究范圍。首先,我們只考慮任務增量設置,其中數據按順序分批到達,一個批對應一個任務,例如要學習的一組新類別。換句話說,我們假設對于一個給定的任務,所有的數據都可以同時用于離線訓練。這使得對所有訓練數據進行多個時期的學習成為可能,反復洗刷以確保i.i.d.的條件。重要的是,無法訪問以前或將來任務的數據。在此設置中優化新任務將導致災難性的遺忘,舊任務的性能將顯著下降,除非采取特殊措施。這些措施在不同情況下的有效性,正是本文所要探討的。此外,任務增量學習將范圍限制為一個多頭配置,每個任務都有一個獨占的輸出層或頭。這與所有任務共享一個頭的更有挑戰性的類增量設置相反。這在學習中引入了額外的干擾,增加了可供選擇的輸出節點的數量。相反,我們假設已知一個給定的樣本屬于哪個任務。
其次,我們只關注分類問題,因為分類可以說是人工神經網絡最既定的任務之一,使用相對簡單、標準和易于理解的網絡體系結構具有良好的性能。第2節對設置進行了更詳細的描述,第7節討論了處理更一般設置的開放問題。
人臉檢測是許多人臉識別和人臉分析系統的關鍵第一步。早期的人臉檢測方法主要是基于從局部圖像區域手工提取特征的基礎上構建分類器,如Haar級聯和梯度定向直方圖。然而,這些方法還不夠強大,無法對來自不受控制環境的圖像實現高精度。
隨著2012年深度神經網絡在圖像分類方面的突破性工作,人臉檢測的范式發生了巨大的轉變。受計算機視覺中深度學習的快速發展的啟發,在過去的幾年里,許多基于深度學習的框架被提出用于人臉檢測,在準確性方面取得了顯著的提高。
在這項工作中,我們提供了一些最具代表性的基于深度學習的人臉檢測方法的詳細概述,將它們分成幾個主要類別,并展示了它們的核心架構設計和流行基準上的精度。我們還描述了一些最流行的人臉檢測數據集。最后,我們討論了當前該領域存在的一些問題,并對未來的研究提出了建議。
自監督學習由于能夠避免標注大規模數據集的成本而受到歡迎。它能夠采用自定義的偽標簽作為監督,并將學習到的表示用于幾個下游任務。具體來說,對比學習最近已成為計算機視覺、自然語言處理(NLP)等領域的自主監督學習方法的主要組成部分。它的目的是將同一個樣本的增廣版本嵌入到一起,同時試圖將不同樣本中的嵌入推開。這篇論文提供了一個廣泛的自我監督的方法綜述,遵循對比的方法。本研究解釋了在對比學習設置中常用的借口任務,以及到目前為止提出的不同架構。接下來,我們將對圖像分類、目標檢測和動作識別等多個下游任務的不同方法進行性能比較。最后,我們總結了目前方法的局限性和需要進一步的技術和未來方向取得實質性進展。
概述:
隨著深度學習技術的發展,它已成為目前大多數智能系統的核心組件之一。深度神經網絡(DNNs)能夠從現有的大量數據中學習豐富的模式,這使得它在大多數計算機視覺(CV)任務(如圖像分類、目標檢測、圖像分割、動作識別)以及自然語言處理(NLP)任務(如句子分類、語言模型、機器翻譯等)中成為一種引人注目的方法。然而,由于手工標注數百萬個數據樣本的工作量很大,從標記數據中學習特征的監督方法已經幾乎達到了飽和。這是因為大多數現代計算機視覺系統(受監督的)都試圖通過查找大型數據集中數據點及其各自注釋之間的模式來學習某種形式的圖像表示。像GRAD-CAM[1]這樣的工作提出了一種技術,可以為模型所做的決策提供可視化的解釋,從而使決策更加透明和可解釋。
傳統的監督學習方法很大程度上依賴于可用的帶注釋的訓練數據的數量。盡管有大量的可用數據,但缺乏注解促使研究人員尋找替代方法來利用它們。這就是自監督方法在推動深度學習的進程中發揮重要作用的地方,它不需要昂貴的標注,也不需要學習數據本身提供監督的特征表示。
監督學習不僅依賴昂貴的注釋,而且還會遇到泛化錯誤、虛假的相關性和對抗攻擊[2]等問題。最近,自監督學習方法集成了生成和對比方法,這些方法能夠利用未標記的數據來學習潛在的表示。一種流行的方法是提出各種各樣的代理任務,利用偽標簽來幫助學習特征。諸如圖像inpainting、灰度圖像著色、拼圖游戲、超分辨率、視頻幀預測、視聽對應等任務已被證明是學習良好表示的有效方法。
生成式模型在2014年引入生成對抗網絡(GANs)[3]后得到普及。這項工作后來成為許多成功架構的基礎,如CycleGAN[4]、StyleGAN[5]、PixelRNN[6]、Text2Image[7]、DiscoGAN [8]等。這些方法激發了更多的研究人員轉向使用無標簽數據在自監督的設置下訓練深度學習模型。盡管取得了成功,研究人員開始意識到基于GAN的方法的一些并發癥。它們很難訓練,主要有兩個原因: (a)不收斂——模型參數發散很多,很少收斂; (b)鑒別器太過成功,導致生成網絡無法產生類似真實的假信號,導致學習無法繼續。此外,生成器和判別器之間需要適當的同步,以防止判別器收斂和生成器發散。
目標檢測的任務是從圖像中精確且高效地識別、定位出大量預定義類別的物體實例。隨著深度學習的廣泛應用,目標檢測的精確度和效率都得到了較大提升,但基于深度學習的目標檢測仍面臨改進與優化主流目標檢測算法的性能、提高小目標物體檢測精度、實現多類別物體檢測、輕量化檢測模型等關鍵技術的挑戰。針對上述挑戰,本文在廣泛文獻調研的基礎上,從雙階段、單階段目標檢測算法的改進與結合的角度分析了改進與優化主流目標檢測算法的方法,從骨干網絡、增加視覺感受野、特征融合、級聯卷積神經網絡和模型的訓練方式的角度分析了提升小目標檢測精度的方法,從訓練方式和網絡結構的角度分析了用于多類別物體檢測的方法,從網絡結構的角度分析了用于輕量化檢測模型的方法。此外,對目標檢測的通用數據集進行了詳細介紹,從4個方面對該領域代表性算法的性能表現進行了對比分析,對目標檢測中待解決的問題與未來研究方向做出預測和展望。目標檢測研究是計算機視覺和模式識別中備受青睞的熱點,仍然有更多高精度和高效的算法相繼提出,未來將朝著更多的研究方向發展。
論文主題: Recent Advances in Deep Learning for Object Detection
論文摘要: 目標檢測是計算機視覺中的基本視覺識別問題,并且在過去的幾十年中已得到廣泛研究。目標檢測指的是在給定圖像中找到具有精確定位的特定目標,并為每個目標分配一個對應的類標簽。由于基于深度學習的圖像分類取得了巨大的成功,因此近年來已經積極研究了使用深度學習的對象檢測技術。在本文中,我們對深度學習中視覺對象檢測的最新進展進行了全面的調查。通過復習文獻中最近的大量相關工作,我們系統地分析了現有的目標檢測框架并將調查分為三個主要部分:(i)檢測組件,(ii)學習策略(iii)應用程序和基準。在調查中,我們詳細介紹了影響檢測性能的各種因素,例如檢測器體系結構,功能學習,建議生成,采樣策略等。最后,我們討論了一些未來的方向,以促進和刺激未來的視覺對象檢測研究。與深度學習。