隨著人臉表情識別任務逐漸從實驗室受控環境轉移至具有挑戰性的真實世界環境,在深度學習技術的迅猛發展下,深度神經網絡能夠學習出具有判別能力的特征,逐漸應用于自動人臉表情識別任務。目前的深度人臉表情識別系統致力于解決以下兩個問題:1)由于缺乏足量訓練數據導致的過擬合問題;2)真實世界環境下其他與表情無關因素變量(例如光照、頭部姿態和身份特征)帶來的干擾問題。本文首先對近十年深度人臉表情識別方法的研究現狀以及相關人臉表情數據庫的發展進行概括。然后,將目前基于深度學習的人臉表情識別方法分為兩類:靜態人臉表情識別和動態人臉表情識別,并對這兩類方法分別進行介紹和綜述。針對目前領域內先進的深度表情識別算法,對其在常見表情數據庫上的性能進行了對比并詳細分析了各類算法的優缺點。最后本文對該領域的未來研究方向和機遇挑戰進行了總結和展望:考慮到表情本質上是面部肌肉運動的動態活動,基于動態序列的深度表情識別網絡往往能夠取得比靜態表情識別網絡更好的識別效果。此外,結合其他表情模型如面部動作單元模型以及其他多媒體模態,如音頻模態和人體生理信息能夠將表情識別拓展到更具有實際應用價值的場景。
內容簡介:考慮到不同類別的表情之間存在著相似性,本文認為人臉表情信息由不同表情之間的共享信息與每個表情的特定信息組成,提出了一種基于特征解構與重構學習的人臉表情識別方法。具體地,首先使用特征分解網絡將基本特征分解為一系列能夠感知面部動作的潛在特征,這些潛在特征有效地建模了表情中的共享信息。然后,特征重構網絡分別對這一系列潛在特征向量進行特征內部和特征之間的相關性建模,從而學習表情的特有信息。實驗結果表明該方法在三個室內數據集(包括 CK+、 MMI 和 OuluCASIA)和兩個室外數據集(包括 RAFDB 和 SFEW)上都有優越的性能表現。
摘要: 人臉識別是生物特征識別領域的一項關鍵技術,長期以來得到研究者的廣泛關注。視頻人臉識別任務特指從一段視頻中提取出人臉的關鍵信息,從而完成身份識別。相較于基于圖像的人臉識別任務來說,視頻數據中的人臉變化模式更為多樣且視頻幀之間存在較大差異,如何從冗長而復雜的視頻中抽取到人臉的關鍵特征成為當前的研究重點。以視頻人臉識別技術為研究對象,首先介紹了該技術的研究價值和存在的挑戰;接著對當前研究工作的發展脈絡進行了系統的梳理,依據建模方式將傳統基于圖像集合建模的方法分為線性子空間建模、仿射子空間建模、非線性流形建模、統計建模四大類,同時對深度學習背景下基于圖像融合的方法進行了介紹;另外對現有視頻人臉識別數據集進行分類整理并簡要介紹了常用的評價指標;最后分別采用灰度特征和深度特征在YTC數據集及IJB-A數據集上對代表性工作進行評測。實驗結果表明:神經網絡可以從大規模數據中提取到魯棒的視頻幀特征,從而帶來識別性能的大幅提升,而有效的視頻數據建模能夠挖掘出人臉潛在的變化模式,從視頻序列包含的大量樣本中找到更具判別力的關鍵信息,排除噪聲樣本的干擾,因此基于視頻的人臉識別具有廣泛的通用性和實用價值。
視覺目標跟蹤指在一個視頻序列中,給定第一幀目標區域,在后續幀中自動匹配到該目標區域的任務。通常來說,由于場景遮擋、光照變化、物體本身形變等復雜因素,目標與場景的表觀會發生劇烈的變化,這使得跟蹤任務本身面臨極大的挑戰。在過去的十年中,隨著深度學習在計算機視覺領域的廣泛應用,目標跟蹤領域也迅速發展,研究人員提出了一系列優秀算法。鑒于該領域處于快速發展的階段,文中對視覺目標跟蹤研究進行了綜述,內容主要包括跟蹤的基本框架改進、目標表示改進、空間上下文改進、時序上下文改進、數據集和評價指標改進等;另外,還綜合分析了這些改進方法各自的優缺點,并提出了可能的未來的研究趨勢。
//www.jsjkx.com/CN/article/openArticlePDF.jsp?id=19761
目標跟蹤是計算機視覺領域的一項經典研究課題,目的 是在給定第一幀初始目標邊界框的情況下,在后續視頻序列 中準確定位目標(見圖1).隨著高性能移動設備與高配置攝 像機的爆炸式增長,以及新一代5G 網絡的逐步應用,人們對 自動視頻分析的需求日益增長.自動視頻分析中有3個關鍵 步驟:自動檢測感興趣的運動物體、逐幀跟蹤這些物體、通過 分析物體的軌跡來進行行為識別.目標跟蹤作為其中的一項 重要技術,引起了相關學者的極大關注[1G2].然而,視覺目標 跟蹤是一項極具挑戰性的任務,因為有一系列不同的問題需 要在單個跟蹤算法中解決.例如,跟蹤算法能很好地處理光 照變化,但是難以應對因相機角度變化而帶來的物體表觀的變化;跟蹤算法擅長準確預測物體運動,但是難以跟蹤快速彈 跳的物體;跟蹤算法能對外觀做出詳細假設,但是不能處理有 關節的物體.
目標跟蹤領域涌現出了大批經典算法[3G21],具體如圖2所示. 本文分4個階段對目標跟蹤的發展進行綜述,即早期的目標 跟蹤探索階段、稀疏表示階段、相關濾波階段和孿生網絡階 段,主 要 介 紹 的 跟 蹤 算 法 包 括 Histogram [3],Ensemble [4], IVT [5],MIL [6],L1Tracker [7],TLD [8],MOSSE [9],Struck [10], ASLA [11],CT [12],CSK (KCF)[13],CN [14],STC [15],CF2 [16]ECO [17],SiamFC [18],SiamRPN [19],ATOM [20],SiamRCNN [21]等. 本文詳細梳理了最近幾年目標跟蹤領域的相關工作,并 將其分為了五大類:數據集和評價標準的改進、目標跟蹤基本 框架改進、目標表示的改進、空間上下文方面的改進和時序上 下文方面的改進.對上述5類工作分別進行介紹和分析之后 得出本文的結論,并提出未來目標跟蹤領域可能的發展趨勢.
摘要: 圖像修復是計算機視覺領域中極具挑戰性的研究課題。近年來,深度學習技術的發展推動了圖像修復性能的顯著提升,使得圖像修復這一傳統課題再次引起了學者們的廣泛關注。文章致力于綜述圖像修復研究的關鍵技術。由于深度學習技術在解決“大面積缺失圖像修復”問題時具有重要作用并帶來了深遠影響,文中在簡要介紹傳統圖像修復方法的基礎上,重點介紹了基于深度學習的修復模型,主要包括模型分類、優缺點對比、適用范圍和在常用數據集上的性能對比等,最后對圖像修復潛在的研究方向和發展動態進行了分析和展望。
摘要: 行人重識別是近年來計算機視覺領域的熱點問題, 經過多年的發展, 基于可見光圖像的一般行人重識別技術已經趨近成熟. 然而, 目前的研究多基于一個相對理想的假設, 即行人圖像都是在光照充足的條件下拍攝的高分辨率圖像. 因此雖然大多數的研究都能取得較為滿意的效果, 但在實際環境中并不適用. 多源數據行人重識別即利用多種行人信息進行行人匹配的問題. 除了需要解決一般行人重識別所面臨的問題外, 多源數據行人重識別技術還需要解決不同類型行人信息與一般行人圖片相互匹配時的差異問題, 如低分辨率圖像、紅外圖像、深度圖像、文本信息和素描圖像等. 因此, 與一般行人重識別方法相比, 多源數據行人重識別研究更具實用性, 同時也更具有挑戰性. 本文首先介紹了一般行人重識別的發展現狀和所面臨的問題, 然后比較了多源數據行人重識別與一般行人重識別的區別, 并根據不同數據類型總結了5 類多源數據行人重識別問題, 分別從方法、數據集兩個方面對現有工作做了歸納和分析. 與一般行人重識別技術相比, 多源數據行人重識別的優點是可以充分利用各類數據學習跨模態和類型的特征轉換. 最后, 本文討論了多源數據行人重識別未來的發展.
//www.aas.net.cn/cn/article/doi/10.16383/j.aas.c190278
行人再識別的主要任務是利用計算機視覺對特定行人進行跨視域匹配和檢索。相比于傳統算法,由數據驅 動的深度學習方法所提取的特征更能表征行人之間的區分性。對行人再識別的背景及研究歷史、主要面臨的挑 戰、主要方法、數據集及評價指標進行了梳理和總結。主要從特征表達、局部特征、生成對抗網絡三個方面對行人 再識別的算法進行分析,列舉了行人再識別9個常用數據集、3個評價標準和14種典型方法在 Market1501數據集 上取得的準確率,最后對行人再識別的未來研究方向進行展望。
摘要 : 零樣本圖像分類指訓練集和測試集在數據的類別上沒有交集的情況下進行圖像分類 . 該技術 是解決類別標簽缺失問題的一種有效手段 , 因此受到了日益廣泛的關注 . 自提出此問題至今 , 零樣本 圖像分類的研究已經大致有十年時間 . 本文系統地對過去十年中零樣本圖像分類技術的研究進展進行 了綜述 , 主要包括以下 4 個方面 . 首先介紹零樣本圖像分類技術的研究意義及其應用價值 , 然后重點 總結和歸納零樣本圖像分類的發展過程和研究現狀 , 接下來介紹常用的數據集和評價準則 , 以及與零 樣本學習相關的技術的區別和聯系 , 最后分析有待深入研究的熱點與難點問題 , 并對未來的發展趨勢 進行了展望 .
關鍵詞: 零樣本圖像分類 , 屬性 , 詞向量 , 跨模態映射 , 領域適應學習