The Elements of End-to-end Deep Face Recognition: A Survey of Recent Advances
人臉識別是計算機視覺領域中最基本、最長期存在的研究課題之一。隨著深度卷積神經網絡和大規模數據集的發展,深度人臉識別取得了顯著的進展,并在實際應用中得到了廣泛的應用。以自然圖像或視頻幀作為輸入,端到端深度人臉識別系統輸出人臉特征進行識別。為了實現這一目標,整個系統通常由三個關鍵要素構建:人臉檢測、人臉預處理和人臉表示。人臉檢測在圖像或幀中定位人臉。然后,對人臉進行預處理,將人臉標定為標準視圖,并將其裁剪為標準化像素大小。最后,在人臉表示階段,從預處理后的人臉中提取識別特征進行識別。深度卷積神經網絡滿足了這三個要素。摘要隨著深度學習技術的蓬勃發展,端到端深度人臉識別技術的能力得到了極大的提高,本文對端到端深度人臉識別技術中各個方面的最新進展進行了綜述。首先,我們介紹端到端深度人臉識別的概述,如前所述,它包括人臉檢測、人臉預處理和人臉表示。然后,我們分別回顧了基于深度學習的每個元素的進展,包括許多方面,如最新的算法設計、評估指標、數據集、性能比較、存在的挑戰和未來的研究方向。我們希望這一調查可以為我們更好地理解端到端人臉識別的大圖和更系統的探索帶來有益的想法。
深度學習算法已經在圖像分類方面取得了最先進的性能,甚至被用于安全關鍵應用,如生物識別系統和自動駕駛汽車。最近的研究表明,這些算法甚至可以超越人類的能力,很容易受到對抗性例子的攻擊。在計算機視覺中,與之相對的例子是惡意優化算法為欺騙分類器而產生的含有細微擾動的圖像。為了緩解這些漏洞,文獻中不斷提出了許多對策。然而,設計一種有效的防御機制已被證明是一項困難的任務,因為許多方法已經證明對自適應攻擊者無效。因此,這篇自包含的論文旨在為所有的讀者提供一篇關于圖像分類中對抗性機器學習的最新研究進展的綜述。本文介紹了新的對抗性攻擊和防御的分類方法,并討論了對抗性實例的存在性。此外,與現有的調查相比,它還提供了相關的指導,研究人員在設計和評估防御時應該考慮到這些指導。最后,在文獻綜述的基礎上,對未來的研究方向進行了展望。
當前的深度學習研究以基準評價為主。如果一種方法在專門的測試集上有良好的經驗表現,那么它就被認為是有利的。這種心態無縫地反映在持續學習的重現領域,在這里研究的是持續到達的基準數據集。核心挑戰是如何保護之前獲得的表示,以免由于迭代參數更新而出現災難性地遺忘的情況。然而,各個方法的比較是與現實應用程序隔離的,通常通過監視累積的測試集性能來判斷。封閉世界的假設仍然占主導地位。假設在部署過程中,一個模型保證會遇到來自與用于訓練的相同分布的數據。這帶來了一個巨大的挑戰,因為眾所周知,神經網絡會對未知的實例提供過于自信的錯誤預測,并在數據損壞的情況下崩潰。在這個工作我們認為值得注意的教訓來自開放數據集識別,識別的統計偏差以外的數據觀測數據集,和相鄰的主動學習領域,數據增量查詢等預期的性能收益最大化,這些常常在深度學習的時代被忽略。基于這些遺忘的教訓,我們提出了一個統一的觀點,以搭建持續學習,主動學習和開放集識別在深度神經網絡的橋梁。我們的結果表明,這不僅有利于每個個體范式,而且突出了在一個共同框架中的自然協同作用。我們從經驗上證明了在減輕災難性遺忘、主動學習中查詢數據、選擇任務順序等方面的改進,同時在以前提出的方法失敗的地方展示了強大的開放世界應用。
//www.zhuanzhi.ai/paper/e5bee7a1e93a93ef97e1c
概述:
隨著實用機器學習系統的不斷成熟,社區發現了對持續學習[1]、[2]的興趣。與廣泛練習的孤立學習不同,在孤立學習中,系統的算法訓練階段被限制在一個基于先前收集的i.i.d數據集的單一階段,持續學習需要利用隨著時間的推移而到來的數據的學習過程。盡管這種范式已經在許多機器學習系統中找到了各種應用,回顧一下最近關于終身機器學習[3]的書,深度學習的出現似乎已經將當前研究的焦點轉向了一種稱為“災難性推理”或“災難性遺忘”的現象[4],[5],正如最近的評論[6],[7],[8],[9]和對深度持續學習[8],[10],[11]的實證調查所表明的那樣。后者是機器學習模型的一個特殊效應,機器學習模型貪婪地根據給定的數據群更新參數,比如神經網絡迭代地更新其權值,使用隨機梯度估計。當包括導致數據分布發生任何變化的不斷到達的數據時,學習到的表示集被單向引導,以接近系統當前公開的數據實例上的任何任務的解決方案。自然的結果是取代以前學到的表征,導致突然忘記以前獲得的信息。
盡管目前的研究主要集中在通過專門機制的設計來緩解持續深度學習中的這種遺忘,但我們認為,一種非常不同形式的災難性遺忘的風險正在增長,即忘記從過去的文獻中吸取教訓的危險。盡管在連續的訓練中保留神經網絡表示的努力值得稱贊,但除了只捕獲災難性遺忘[12]的度量之外,我們還高度關注了實際的需求和權衡,例如包括內存占用、計算成本、數據存儲成本、任務序列長度和訓練迭代次數等。如果在部署[14]、[15]、[16]期間遇到看不見的未知數據或小故障,那么大多數當前系統會立即崩潰,這幾乎可以被視為誤導。封閉世界的假設似乎無所不在,即認為模型始終只會遇到與訓練過程中遇到的數據分布相同的數據,這在真實的開放世界中是非常不現實的,因為在開放世界中,數據可以根據不同的程度變化,而這些變化是不現實的,無法捕獲到訓練集中,或者用戶能夠幾乎任意地向系統輸入預測信息。盡管當神經網絡遇到不可見的、未知的數據實例時,不可避免地會產生完全沒有意義的預測,這是眾所周知的事實,已經被暴露了幾十年了,但是當前的努力是為了通過不斷學習來規避這一挑戰。選擇例外嘗試解決識別不可見的和未知的示例、拒絕荒謬的預測或將它們放在一邊供以后使用的任務,通常總結在開放集識別的傘下。然而,大多數現有的深度連續學習系統仍然是黑盒,不幸的是,對于未知數據的錯誤預測、數據集的異常值或常見的圖像損壞[16],這些系統并沒有表現出理想的魯棒性。
除了目前的基準測試實踐仍然局限于封閉的世界之外,另一個不幸的趨勢是對創建的持續學習數據集的本質缺乏理解。持續生成模型(如[17]的作者的工作,[18],[19],[20],[21],[22]),以及類增量持續學習的大部分工作(如[12]中給出的工作,[23],[24],[25],[26],[27],[28])一般調查sequentialized版本的經過時間考驗的視覺分類基準如MNIST [29], CIFAR[30]或ImageNet[31],單獨的類只是分成分離集和序列所示。為了在基準中保持可比性,關于任務排序的影響或任務之間重疊的影響的問題通常會被忽略。值得注意的是,從鄰近領域的主動機器學習(半監督學習的一種特殊形式)中吸取的經驗教訓,似乎并沒有整合到現代的連續學習實踐中。在主動學習中,目標是學會在讓系統自己查詢接下來要包含哪些數據的挑戰下,逐步地找到與任務解決方案最接近的方法。因此,它可以被視為緩解災難性遺忘的對抗劑。當前的持續學習忙于維護在每個步驟中獲得的信息,而不是無休止地積累所有的數據,而主動學習則關注于識別合適的數據以納入增量訓練系統的補充問題。盡管在主動學習方面的早期開創性工作已經迅速識別出了通過使用啟發式[32]、[33]、[34]所面臨的強大應用的挑戰和陷阱,但后者在深度學習[35]、[36]、[37]、[38]的時代再次占據主導地位,這些挑戰將再次面臨。
在這項工作中,我們第一次努力建立一個原則性和鞏固的深度持續學習、主動學習和在開放的世界中學習的觀點。我們首先單獨回顧每一個主題,然后繼續找出在現代深度學習中似乎較少受到關注的以前學到的教訓。我們將繼續爭論,這些看似獨立的主題不僅從另一個角度受益,而且應該結合起來看待。在這個意義上,我們建議將當前的持續學習實踐擴展到一個更廣泛的視角,將持續學習作為一個總括性術語,自然地包含并建立在先前的主動學習和開放集識別工作之上。本文的主要目的并不是引入新的技術或提倡一種特定的方法作為通用的解決方案,而是對最近提出的神經網絡[39]和[40]中基于變分貝葉斯推理的方法進行了改進和擴展,以說明一種走向全面框架的可能選擇。重要的是,它作為論證的基礎,努力闡明生成建模作為深度學習系統關鍵組成部分的必要性。我們強調了在這篇論文中發展的觀點的重要性,通過實證證明,概述了未來研究的含義和有前景的方向。
深度學習利用多個處理層來學習具有多個層次特征的數據表示。自2014年以來,隨著Deepface和DeepID方法的突破,這一新興技術已經重塑了人臉識別的研究領域。從那時起,深度人臉識別(FR)技術,利用層次結構學習區分的人臉表示,已經極大地提高了最先進的性能,并培養了許多成功的現實世界的應用。在這篇論文中,我們提供了一個全面深度學習人臉識別綜述。首先,我們總結了在快速發展的深度FR方法中提出的不同的網絡結構和損耗函數。其次,相關的人臉處理方法被分為兩個類:“一對多增強”和“多對一歸一化”。然后,對常用的模型訓練和評價數據庫進行了總結和比較。第三,對跨因素場景、異質場景、多媒體場景和行業場景進行了深入分析。最后,指出了現有方法的潛在不足和未來的發展方向。
多模態表示學習旨在縮小不同模態之間的異質性差距,在利用普遍存在的多模態數據方面起著不可或缺的作用。基于深度學習的多模態表示學習由于具有強大的多層次抽象表示能力,近年來受到了廣泛的關注。在本文中,我們提供了一個全面的深度多模態表示學習的綜述論文。為了便于討論如何縮小異質性差距,根據不同模態集成的底層結構,我們將深度多模態表示學習方法分為三種框架:聯合表示、協調表示和編解碼。此外,我們回顧了該領域的一些典型模型,從傳統模型到新開發的技術。本文強調在新開發的技術的關鍵問題,如encoder-decoder模型,生成對抗的網絡,和注意力機制學習的角度來看,多通道表示,我們所知,從來沒有審核之前,即使他們已經成為當代研究的主要焦點。對于每個框架或模型,我們將討論其基本結構、學習目標、應用場景、關鍵問題、優缺點,以使新研究者和有經驗的研究者都能從中受益。最后,提出了今后工作的一些重要方向。
隨著web技術的發展,多模態或多視圖數據已經成為大數據的主要流,每個模態/視圖編碼數據對象的單個屬性。不同的模態往往是相輔相成的。這就引起了人們對融合多模態特征空間來綜合表征數據對象的研究。大多數現有的先進技術集中于如何融合來自多模態空間的能量或信息,以提供比單一模態的同行更優越的性能。最近,深度神經網絡展示了一種強大的架構,可以很好地捕捉高維多媒體數據的非線性分布,對多模態數據自然也是如此。大量的實證研究證明了深多模態方法的優勢,從本質上深化了多模態深特征空間的融合。在這篇文章中,我們提供了從淺到深空間的多模態數據分析領域的現有狀態的實質性概述。在整個調查過程中,我們進一步指出,該領域的關鍵要素是多模式空間的協作、對抗性競爭和融合。最后,我們就這一領域未來的一些方向分享我們的觀點。
由于計算和存儲效率的提高,哈希被廣泛應用于大規模數據庫檢索中的近似近鄰搜索。深度哈希技術是一種利用卷積神經網絡結構來挖掘和提取圖像語義信息或特征的技術,近年來受到越來越多的關注。在這個綜述中,我們對幾種圖像檢索的深度監督哈希方法進行了評估,總結出深度監督哈希方法的三個主要不同方向。最后提出了幾點意見。此外,為了突破現有哈希方法的瓶頸,我提出了一種影子周期性哈希(SRH)方法作為嘗試。具體來說,我設計了一個CNN架構來提取圖像的語義特征,并設計了一個loss function來鼓勵相似的圖像投影接近。為此,我提出了一個概念: CNN輸出的影子。在優化的過程中,CNN的輸出和它的shadow互相引導,盡可能的達到最優解。在數據集CIFAR-10上的實驗表明,該算法具有良好的性能。
對自然圖像中的文本進行檢測和識別是計算機視覺領域的兩個主要問題,在體育視頻分析、自動駕駛、工業自動化等領域都有廣泛的應用。他們面臨著共同的具有挑戰性的問題,即文本如何表示和受幾種環境條件的影響的因素。當前最先進的場景文本檢測和/或識別方法利用了深度學習體系結構的進步,并取得了在處理多分辨率和多方向文本時基準數據集的卓越準確性。然而,仍然有幾個挑戰影響自然圖像中的文本,導致現有的方法表現不佳,因為這些模型不能泛化到看不見的數據和不足的標記數據。因此,不同于以往的綜述,這個綜述的目標如下: 首先,提供讀者不僅回顧最近場景文字檢測和識別方法,但也用一個統一的評估框架來呈現廣泛開展實驗的結果, 評估pre-trained模型選擇的方法上具有挑戰性的情況下,這些技術適用于相同的評估標準。其次,識別在自然圖像中檢測或識別文本存在的幾個挑戰,即平面內旋轉、多方向和多分辨率文本、透視失真、光照反射、部分遮擋、復雜字體和特殊字符。最后,本文還提出了這一領域的潛在研究方向,以解決場景文本檢測和識別技術仍面臨的一些挑戰。
智能視頻監控(IVS)是當前計算機視覺和機器學習領域的一個活躍研究領域,為監控操作員和取證視頻調查者提供了有用的工具。人的再識別(PReID)是IVS中最關鍵的問題之一,它包括識別一個人是否已經通過網絡中的攝像機被觀察到。PReID的解決方案有無數的應用,包括檢索顯示感興趣的個體的視頻序列,甚至在多個攝像機視圖上進行行人跟蹤。文獻中已經提出了不同的技術來提高PReID的性能,最近研究人員利用了深度神經網絡(DNNs),因為它在類似的視覺問題上具有令人信服的性能,而且在測試時執行速度也很快。鑒于再識別解決方案的重要性和廣泛的應用范圍,我們的目標是討論在該領域開展的工作,并提出一項最先進的DNN模型用于這項任務的調查。我們提供了每個模型的描述以及它們在一組基準數據集上的評估。最后,我們對這些模型進行了詳細的比較,并討論了它們的局限性,為今后的研究提供了指導。
模態是指事物發生或存在的方式,如文字、語言、聲音、圖形等。多模態學習是指學習多個模態中各個模態的信息,并且實現各個模態的信息的交流和轉換。多模態深度學習是指建立可以完成多模態學習任務的神經網絡模型。多模態學習的普遍性和深度學習的熱度賦予了多模態深度學習鮮活的生命力和發展潛力。旨在多模態深度學習的發展前期,總結當前的多模態深度學習,發現在不同的多模態組合和學習目標下,多模態深度學習實現過程中的共有問題,并對共有問題進行分類,敘述解決各類問題的方法。具體來說,從涉及自然語言、視覺、聽覺的多模態學習中考慮了語言翻譯、事件探測、信息描述、情緒識別、聲音識別和合成,以及多媒體檢索等方面研究,將多模態深度學習實現過程中的共有問題分為模態表示、模態傳譯、模態融合和模態對齊四類,并對各問題進行子分類和論述,同時列舉了為解決各問題產生的神經網絡模型。最后論述了實際多模態系統,多模態深度學習研究中常用的數據集和評判標準,并展望了多模態深度學習的發展趨勢。
論文主題: Recent Advances in Deep Learning for Object Detection
論文摘要: 目標檢測是計算機視覺中的基本視覺識別問題,并且在過去的幾十年中已得到廣泛研究。目標檢測指的是在給定圖像中找到具有精確定位的特定目標,并為每個目標分配一個對應的類標簽。由于基于深度學習的圖像分類取得了巨大的成功,因此近年來已經積極研究了使用深度學習的對象檢測技術。在本文中,我們對深度學習中視覺對象檢測的最新進展進行了全面的調查。通過復習文獻中最近的大量相關工作,我們系統地分析了現有的目標檢測框架并將調查分為三個主要部分:(i)檢測組件,(ii)學習策略(iii)應用程序和基準。在調查中,我們詳細介紹了影響檢測性能的各種因素,例如檢測器體系結構,功能學習,建議生成,采樣策略等。最后,我們討論了一些未來的方向,以促進和刺激未來的視覺對象檢測研究。與深度學習。