人臉檢測是許多人臉識別和人臉分析系統的關鍵第一步。早期的人臉檢測方法主要是基于從局部圖像區域手工提取特征的基礎上構建分類器,如Haar級聯和梯度定向直方圖。然而,這些方法還不夠強大,無法對來自不受控制環境的圖像實現高精度。
隨著2012年深度神經網絡在圖像分類方面的突破性工作,人臉檢測的范式發生了巨大的轉變。受計算機視覺中深度學習的快速發展的啟發,在過去的幾年里,許多基于深度學習的框架被提出用于人臉檢測,在準確性方面取得了顯著的提高。
在這項工作中,我們提供了一些最具代表性的基于深度學習的人臉檢測方法的詳細概述,將它們分成幾個主要類別,并展示了它們的核心架構設計和流行基準上的精度。我們還描述了一些最流行的人臉檢測數據集。最后,我們討論了當前該領域存在的一些問題,并對未來的研究提出了建議。
弱監督目標檢測(WSOD)和定位(WSOL),即使用圖像級標簽檢測圖像中包含邊界框的多個或單個實例,是CV領域中長期存在且具有挑戰性的任務。隨著深度神經網絡在目標檢測中的成功,WSOD和WSOL都受到了前所未有的關注。在深度學習時代,已有數百種WSOD和WSOL方法和大量技術被提出。為此,本文將WSOL視為WSOD的一個子任務,并對近年來WSOD的成就進行了全面的綜述。具體來說,我們首先描述了WSOD的制定和設置,包括產生的背景、面臨的挑戰、基本框架。同時,總結和分析了提高檢測性能的各種先進技術和訓練技巧。然后,介紹了目前廣泛使用的WSOD數據集和評價指標。最后,討論了WSOD的未來發展方向。我們相信這些總結可以為今后的WSOD和WSOL研究鋪平道路。
引言
目標檢測[2]是一項基礎的、具有挑戰性的任務,旨在定位和分類圖像中的對象實例。對象定位是使用邊界框(一個與軸對齊的矩形緊緊包圍對象)在圖像中搜索盡可能多的對象的空間位置和范圍[3],[4]。對象分類是評估圖像中給定一組對象類中是否存在對象。目標檢測作為計算機視覺最基本的任務之一,是許多高級應用不可或缺的技術,如機器人視覺[5]、人臉識別[6]、圖像檢索[7]、[8]、增強現實[9]、自動駕駛[10]、變化檢測[11]等。隨著卷積神經網絡在視覺識別領域[12]-[14]的發展,以及大規模數據集[4]、[15]的發布,當今最先進的目標檢測器在全監督設置下可以達到近乎完美的性能,即全監督目標檢測(FSOD)[16] -[21]。然而,這些完全監督的對象檢測方法存在兩個不可避免的局限性:1)大量實例注釋難以獲取,而且需要大量的人工。2)在標注這些數據時,可能會無意中引入標注噪聲。
為了避免上述問題,社區開始在弱監督設置下解決對象檢測問題,即弱監督對象檢測(WSOD)。與完全監督的設置不同(參見圖1 (a)), WSOD的目的是檢測只有圖像級標簽的實例(例如,實例在整個圖像中的類別)。同時,WSOD也可以從網絡上的大規模數據集中獲益,如Facebook和Twitter。另一個類似的任務是弱監督對象定位(WSOL),它只檢測圖像中的一個實例。由于WSOD和WSOL分別檢測多個實例和單個實例,所以我們認為WSOL是WSOD的一個子任務。在接下來的文章中,我們使用WSOD來表示WSOD和WSOL。
在本文中,我們回顧了所有典型的WSOD方法,并對WSOD的最新進展進行了全面的綜述(參見圖2)。在第二部分,我們介紹了背景、主要挑戰和基本框架。在第三部分中,我們根據WSOD的發展時間表,詳細介紹了幾種現代經典方法。然后,對主要挑戰的所有先進技術和技巧進行了深入分析。在第8節中,我們將演示WSOD的所有流行基準和標準評估指標。在第9節中,我們簡要地討論了未來的方向。
在本文中,我們總結了大量的深度學習 WSOD方法,并給出了大量的解決方案來解決上述挑戰。綜上所述,本文的主要內容如下:
目標檢測是對圖像或視頻中的物體進行分類和定位的任務。近年來,由于其廣泛的應用而倍受關注。本文概述了基于深度學習的目標檢測器的最新發展。還提供了用于檢測的基準數據集和評估指標的簡要概述,以及用于識別任務的一些著名的主干架構。它還涵蓋了邊緣設備上使用的當代輕量級分類模型。最后,我們在多個指標上比較了這些體系結構的性能。
自監督學習由于能夠避免標注大規模數據集的成本而受到歡迎。它能夠采用自定義的偽標簽作為監督,并將學習到的表示用于幾個下游任務。具體來說,對比學習最近已成為計算機視覺、自然語言處理(NLP)等領域的自主監督學習方法的主要組成部分。它的目的是將同一個樣本的增廣版本嵌入到一起,同時試圖將不同樣本中的嵌入推開。這篇論文提供了一個廣泛的自我監督的方法綜述,遵循對比的方法。本研究解釋了在對比學習設置中常用的借口任務,以及到目前為止提出的不同架構。接下來,我們將對圖像分類、目標檢測和動作識別等多個下游任務的不同方法進行性能比較。最后,我們總結了目前方法的局限性和需要進一步的技術和未來方向取得實質性進展。
概述:
隨著深度學習技術的發展,它已成為目前大多數智能系統的核心組件之一。深度神經網絡(DNNs)能夠從現有的大量數據中學習豐富的模式,這使得它在大多數計算機視覺(CV)任務(如圖像分類、目標檢測、圖像分割、動作識別)以及自然語言處理(NLP)任務(如句子分類、語言模型、機器翻譯等)中成為一種引人注目的方法。然而,由于手工標注數百萬個數據樣本的工作量很大,從標記數據中學習特征的監督方法已經幾乎達到了飽和。這是因為大多數現代計算機視覺系統(受監督的)都試圖通過查找大型數據集中數據點及其各自注釋之間的模式來學習某種形式的圖像表示。像GRAD-CAM[1]這樣的工作提出了一種技術,可以為模型所做的決策提供可視化的解釋,從而使決策更加透明和可解釋。
傳統的監督學習方法很大程度上依賴于可用的帶注釋的訓練數據的數量。盡管有大量的可用數據,但缺乏注解促使研究人員尋找替代方法來利用它們。這就是自監督方法在推動深度學習的進程中發揮重要作用的地方,它不需要昂貴的標注,也不需要學習數據本身提供監督的特征表示。
監督學習不僅依賴昂貴的注釋,而且還會遇到泛化錯誤、虛假的相關性和對抗攻擊[2]等問題。最近,自監督學習方法集成了生成和對比方法,這些方法能夠利用未標記的數據來學習潛在的表示。一種流行的方法是提出各種各樣的代理任務,利用偽標簽來幫助學習特征。諸如圖像inpainting、灰度圖像著色、拼圖游戲、超分辨率、視頻幀預測、視聽對應等任務已被證明是學習良好表示的有效方法。
生成式模型在2014年引入生成對抗網絡(GANs)[3]后得到普及。這項工作后來成為許多成功架構的基礎,如CycleGAN[4]、StyleGAN[5]、PixelRNN[6]、Text2Image[7]、DiscoGAN [8]等。這些方法激發了更多的研究人員轉向使用無標簽數據在自監督的設置下訓練深度學習模型。盡管取得了成功,研究人員開始意識到基于GAN的方法的一些并發癥。它們很難訓練,主要有兩個原因: (a)不收斂——模型參數發散很多,很少收斂; (b)鑒別器太過成功,導致生成網絡無法產生類似真實的假信號,導致學習無法繼續。此外,生成器和判別器之間需要適當的同步,以防止判別器收斂和生成器發散。
The Elements of End-to-end Deep Face Recognition: A Survey of Recent Advances
人臉識別是計算機視覺領域中最基本、最長期存在的研究課題之一。隨著深度卷積神經網絡和大規模數據集的發展,深度人臉識別取得了顯著的進展,并在實際應用中得到了廣泛的應用。以自然圖像或視頻幀作為輸入,端到端深度人臉識別系統輸出人臉特征進行識別。為了實現這一目標,整個系統通常由三個關鍵要素構建:人臉檢測、人臉預處理和人臉表示。人臉檢測在圖像或幀中定位人臉。然后,對人臉進行預處理,將人臉標定為標準視圖,并將其裁剪為標準化像素大小。最后,在人臉表示階段,從預處理后的人臉中提取識別特征進行識別。深度卷積神經網絡滿足了這三個要素。摘要隨著深度學習技術的蓬勃發展,端到端深度人臉識別技術的能力得到了極大的提高,本文對端到端深度人臉識別技術中各個方面的最新進展進行了綜述。首先,我們介紹端到端深度人臉識別的概述,如前所述,它包括人臉檢測、人臉預處理和人臉表示。然后,我們分別回顧了基于深度學習的每個元素的進展,包括許多方面,如最新的算法設計、評估指標、數據集、性能比較、存在的挑戰和未來的研究方向。我們希望這一調查可以為我們更好地理解端到端人臉識別的大圖和更系統的探索帶來有益的想法。
視頻中的異常檢測是一個研究了十多年的問題。這一領域因其廣泛的適用性而引起了研究者的興趣。正因為如此,多年來出現了一系列廣泛的方法,這些方法從基于統計的方法到基于機器學習的方法。在這一領域已經進行了大量的綜述,但本文著重介紹了使用深度學習進行異常檢測領域的最新進展。深度學習已成功應用于人工智能的許多領域,如計算機視覺、自然語言處理等。然而,這項調查關注的是深度學習是如何改進的,并為視頻異常檢測領域提供了更多的見解。本文針對不同的深度學習方法提供了一個分類。此外,還討論了常用的數據集以及常用的評價指標。然后,對最近的研究方法進行了綜合討論,以提供未來研究的方向和可能的領域。
深度學習利用多個處理層來學習具有多個層次特征的數據表示。自2014年以來,隨著Deepface和DeepID方法的突破,這一新興技術已經重塑了人臉識別的研究領域。從那時起,深度人臉識別(FR)技術,利用層次結構學習區分的人臉表示,已經極大地提高了最先進的性能,并培養了許多成功的現實世界的應用。在這篇論文中,我們提供了一個全面深度學習人臉識別綜述。首先,我們總結了在快速發展的深度FR方法中提出的不同的網絡結構和損耗函數。其次,相關的人臉處理方法被分為兩個類:“一對多增強”和“多對一歸一化”。然后,對常用的模型訓練和評價數據庫進行了總結和比較。第三,對跨因素場景、異質場景、多媒體場景和行業場景進行了深入分析。最后,指出了現有方法的潛在不足和未來的發展方向。
隨著web技術的發展,多模態或多視圖數據已經成為大數據的主要流,每個模態/視圖編碼數據對象的單個屬性。不同的模態往往是相輔相成的。這就引起了人們對融合多模態特征空間來綜合表征數據對象的研究。大多數現有的先進技術集中于如何融合來自多模態空間的能量或信息,以提供比單一模態的同行更優越的性能。最近,深度神經網絡展示了一種強大的架構,可以很好地捕捉高維多媒體數據的非線性分布,對多模態數據自然也是如此。大量的實證研究證明了深多模態方法的優勢,從本質上深化了多模態深特征空間的融合。在這篇文章中,我們提供了從淺到深空間的多模態數據分析領域的現有狀態的實質性概述。在整個調查過程中,我們進一步指出,該領域的關鍵要素是多模式空間的協作、對抗性競爭和融合。最后,我們就這一領域未來的一些方向分享我們的觀點。
自動駕駛一直是人工智能應用中最活躍的領域。幾乎在同一時間,深度學習的幾位先驅取得了突破,其中三位(也被稱為深度學習之父)Hinton、Bengio和LeCun獲得了2019年ACM圖靈獎。這是一項關于采用深度學習方法的自動駕駛技術的綜述。我們研究了自動駕駛系統的主要領域,如感知、地圖和定位、預測、規劃和控制、仿真、V2X和安全等。由于篇幅有限,我們將重點分析幾個關鍵領域,即感知中的二維/三維物體檢測、攝像機深度估計、數據、特征和任務級的多傳感器融合、車輛行駛和行人軌跡的行為建模和預測。
智能視頻監控(IVS)是當前計算機視覺和機器學習領域的一個活躍研究領域,為監控操作員和取證視頻調查者提供了有用的工具。人的再識別(PReID)是IVS中最關鍵的問題之一,它包括識別一個人是否已經通過網絡中的攝像機被觀察到。PReID的解決方案有無數的應用,包括檢索顯示感興趣的個體的視頻序列,甚至在多個攝像機視圖上進行行人跟蹤。文獻中已經提出了不同的技術來提高PReID的性能,最近研究人員利用了深度神經網絡(DNNs),因為它在類似的視覺問題上具有令人信服的性能,而且在測試時執行速度也很快。鑒于再識別解決方案的重要性和廣泛的應用范圍,我們的目標是討論在該領域開展的工作,并提出一項最先進的DNN模型用于這項任務的調查。我們提供了每個模型的描述以及它們在一組基準數據集上的評估。最后,我們對這些模型進行了詳細的比較,并討論了它們的局限性,為今后的研究提供了指導。
論文主題: Recent Advances in Deep Learning for Object Detection
論文摘要: 目標檢測是計算機視覺中的基本視覺識別問題,并且在過去的幾十年中已得到廣泛研究。目標檢測指的是在給定圖像中找到具有精確定位的特定目標,并為每個目標分配一個對應的類標簽。由于基于深度學習的圖像分類取得了巨大的成功,因此近年來已經積極研究了使用深度學習的對象檢測技術。在本文中,我們對深度學習中視覺對象檢測的最新進展進行了全面的調查。通過復習文獻中最近的大量相關工作,我們系統地分析了現有的目標檢測框架并將調查分為三個主要部分:(i)檢測組件,(ii)學習策略(iii)應用程序和基準。在調查中,我們詳細介紹了影響檢測性能的各種因素,例如檢測器體系結構,功能學習,建議生成,采樣策略等。最后,我們討論了一些未來的方向,以促進和刺激未來的視覺對象檢測研究。與深度學習。