許多自然場景圖像中都包含著豐富的文本,他們對于場景理解有著重要的作用。隨著移動互聯網技術的飛速發展,許多新的應用場景都需要利用這些文本信息,例如招牌識別和自動駕駛等。因此,自然場景文本的分析與處理也越來越成為計算機視覺領域的研究熱點之一,該任務主要包括文本檢測與識別。傳統的文本檢測和識別方法依賴于人工設計的特征和規則,且模型設計復雜、效率低、泛化性能差。近年來隨著深度學習的發展,自然場景文本檢測、自然場景文本識別以及端到端的自然場景文本檢測與識別都取得了突破性的進展,其性能和效率都得到了顯著提高。本文介紹了該領域相關的研究背景,對近幾年基于深度學習的自然場景文本檢測、識別以及端到端自然場景文本檢測與識別的方法進行整理分類、歸納和總結,闡述了各類方法的基本思想和優缺點。并針對隸屬于不同類別下的方法,進一步論述和分析這些主要模型的算法流程、適用場景和他們的技術發展路線。此外還列舉說明了一些主流公開數據集,并對比了各個模型方法在代表性數據集上的性能情況。最后本文總結了目前不同場景數據下的自然場景文本檢測、識別以及端到端自然場景文本檢測與識別算法的局限性以及未來的挑戰和發展趨勢。
//www.cjig.cn/jig/ch/reader/view_abstract.aspx?flag=2&file_no=2023&journal_id=jig
小目標檢測一直是目標檢測領域中的熱點和難點,其主要挑戰是小目標像素少,難以提取有效的特征信息.近年來,隨著深度學習理論和技術的快速發展,基于深度學習的小目標檢測取得了較大進展,研究者從網絡結構、訓練策略、數據處理等方面入手,提出了一系列用于提高小目標檢測性能的方法.該文對基于深度學習的小目標檢測方法進行詳細綜述,按照方法原理將現有的小目標檢測方法分為基于多尺度預測、基于數據增強技術、基于提高特征分辨率、基于上下文信息,以及基于新的主干網絡和訓練策略等5類方法,全面分析總結基于深度學習的小目標檢測方法的研究現狀和最新進展,對比分析這些方法的特點和性能,并介紹常用的小目標檢測數據集.在總體梳理小目標檢測方法的研究進展的基礎上,對未來的研究方向進行展望.
行人檢測技術在智能交通系統,智能安防監控等領域表現出了極高的應用價值,已經成為計算機視覺領域的重要研究方向之一。得益于深度學習的飛速發展,基于深度卷積神經網絡的通用目標檢測模型被不斷擴展應用到行人檢測領域,并取得了良好的性能。但是由于行人目標內在的特殊性、復雜性,特別是考慮到復雜場景下的行人遮擋、尺度變化等問題,深度學習方法也面臨著嚴峻的挑戰。本文針對上述問題,以基于深度學習的行人檢測技術為研究對象,在充分調研文獻的基礎上,分別從基于錨點框、基于無錨點框以及通用技術改進(例如損失函數,非極大值抑制等)三個角度,對各類行人檢測算法進行細分,并選取具有代表性的方法進行詳細介紹和對比分析。此外,本文對行人檢測的通用數據集進行了詳細的介紹,對該領域先進算法的性能進行了對比分析,對行人檢測中待解決的問題與未來的研究方向做出預測和展望。
//www.cjig.cn/jig/ch/reader/view_abstract.aspx?flag=2&file_no=2020&journal_id=jig
摘要: 目標檢測技術是光學遙感圖像理解的基礎問題, 具有重要的應用價值. 本文對遙感圖像目標檢測算法發展進行了梳理和分析. 首先闡述了遙感圖像目標檢測的特點和挑戰; 之后系統總結了典型的檢測方法, 包括早期的基于手工設計特征的算法和現階段基于深度學習的方法, 對于深度學習方法首先介紹了典型的目標檢測模型, 進而針對遙感圖像本身的難點詳細梳理了優化改進方案; 接著介紹了常用的檢測數據集, 并對現有方法的性能進行比較; 最后對現階段問題進行總結并對未來發展趨勢進行展望.
傳統圖像修復算法在修復區域涉及復雜非重復結構(如面部)時,不能準確捕捉到高級語義。近三年來基于深度學習的方法被應用于圖像修復中,其修復結果的結構相似性較傳統方法提高了10%以上。首先闡述了面部修復技術的研究發展歷程,主要介紹了基于深度學習的面部修復算法,將其分為無監督和有監督兩大類方法,在每一類中重點對近年來涌現的各種面部修復算法進行分析和總結;然后歸納了當前主流的六類圖像數據集,以及算法性能評價指標;最后討論了面部修復技術的未來研究方向。
目標檢測的任務是從圖像中精確且高效地識別、定位出大量預定義類別的物體實例。隨著深度學習的廣泛應用,目標檢測的精確度和效率都得到了較大提升,但基于深度學習的目標檢測仍面臨改進與優化主流目標檢測算法的性能、提高小目標物體檢測精度、實現多類別物體檢測、輕量化檢測模型等關鍵技術的挑戰。針對上述挑戰,本文在廣泛文獻調研的基礎上,從雙階段、單階段目標檢測算法的改進與結合的角度分析了改進與優化主流目標檢測算法的方法,從骨干網絡、增加視覺感受野、特征融合、級聯卷積神經網絡和模型的訓練方式的角度分析了提升小目標檢測精度的方法,從訓練方式和網絡結構的角度分析了用于多類別物體檢測的方法,從網絡結構的角度分析了用于輕量化檢測模型的方法。此外,對目標檢測的通用數據集進行了詳細介紹,從4個方面對該領域代表性算法的性能表現進行了對比分析,對目標檢測中待解決的問題與未來研究方向做出預測和展望。目標檢測研究是計算機視覺和模式識別中備受青睞的熱點,仍然有更多高精度和高效的算法相繼提出,未來將朝著更多的研究方向發展。
簡介: 目標檢測作為機器視覺中重要任務之一,是人工智能體系中一個具有重要研究價值的技術分支. 對于卷積神經網絡框架、 anchor-based模型和anchor-free模型三個主流的目標檢測模型進行梳理. 首先,綜述了主流卷積神 經網絡框架的網絡結構、優缺點以及相關的改進方法;其次從one-stage和two-stage兩個分支對anchor-based類模型進行深入分析, 總結了不同目標檢測方法的研究進展; 從早期探索、關鍵點和密集預測三部分分析anchor-free類模型. 最后對該領域的未來發展趨勢進行了思考與展望.
摘要:近年來,基于深度學習的表面缺陷檢測技術廣泛應用在各種工業場景中.本文對近年來基于深度學習的表面缺陷檢測方法進行了梳理,根據數據標簽的不同將其分為全監督學習模型方法、無監督學習模型方法和其他方法三大類,并對各種典型方法進一步細分歸類和對比分析,總結了每種方法的優缺點和應用場景.本文探討了表面缺陷檢測中三個關鍵問題,介紹了工業表面缺陷常用數據集.最后,對表面缺陷檢測的未來發展趨勢進行了展望.
題目: 基于深度學習的主題模型研究
摘要: 主題模型作為一個發展二十余年的研究問題,一直是篇章級別文本語義理解的重要工具.主題模型善于從一組文檔中抽取出若干組關鍵詞來表達該文檔集的核心思想,因而也為文本分類、信息檢索、自動摘要、文本生成、情感分析等其他文本分析任務提供重要支撐.雖然基于三層貝葉斯網絡的傳統概率主題模型在過去十余年已被充分研究,但隨著深度學習技術在自然語言處理領域的廣泛應用,結合深度學習思想與方法的主題模型煥發出新的生機.研究如何整合深度學習的先進技術,構建更加準確高效的文本生成模型成為基于深度學習主題建模的主要任務.本文首先概述并對比了傳統主題模型中四個經典的概率主題模型與兩個稀疏約束的主題模型.接著對近幾年基于深度學習的主題模型研究進展進行綜述,分析其與傳統模型的聯系、區別與優勢,并對其中的主要研究方向和進展進行歸納、分析與比較.此外,本文還介紹了主題模型常用公開數據集及評測指標.最后,總結了主題模型現有技術的特點,并分析與展望了基于深度學習的主題模型的未來發展趨勢。
摘要: 手語識別涉及計算機視覺、模式識別、人機交互等領域,具有重要的研究意義與應用價值。深度學習技術的蓬勃發展為更加精準、實時的手語識別帶來了新的機遇。該文綜述了近年來基于深度學習的手語識別技術,從孤立詞與連續語句兩個分支展開詳細的算法闡述與分析。孤立詞識別技術劃分為基于卷積神經網絡(CNN)、3維卷積神經網絡(3D-CNN)和循環神經網絡(RNN) 3種架構的方法;連續語句識別所用模型復雜度更高,通常需要輔助某種長時時序建模算法,按其主體結構分為雙向長短時記憶網絡模型、3維卷積網絡模型和混合模型。歸納總結了目前國內外常用手語數據集,探討了手語識別技術的研究挑戰與發展趨勢,高精度前提下的魯棒性和實用化仍有待于推進。
目標檢測的任務是從圖像中精確且高效地識別、定位出大量預定義類別的物體實例。隨著深度學習的廣泛應用,目標檢測的精確度和效率都得到了較大提升,但基于深度學習的目標檢測仍面臨改進與優化主流目標檢測算法的性能、提高小目標物體檢測精度、實現多類別物體檢測、輕量化檢測模型等關鍵技術的挑戰。針對上述挑戰,本文在廣泛文獻調研的基礎上,從雙階段、單階段目標檢測算法的改進與結合的角度分析了改進與優化主流目標檢測算法的方法,從骨干網絡、增加視覺感受野、特征融合、級聯卷積神經網絡和模型的訓練方式的角度分析了提升小目標檢測精度的方法,從訓練方式和網絡結構的角度分析了用于多類別物體檢測的方法,從網絡結構的角度分析了用于輕量化檢測模型的方法。此外,對目標檢測的通用數據集進行了詳細介紹,從4個方面對該領域代表性算法的性能表現進行了對比分析,對目標檢測中待解決的問題與未來研究方向做出預測和展望。目標檢測研究是計算機視覺和模式識別中備受青睞的熱點,仍然有更多高精度和高效的算法相繼提出,未來將朝著更多的研究方向發展。