在計算機視覺領域中,語義分割是場景解析和行為識別的關鍵任務,基于深度卷積神經網絡的圖像語義分割方法已經取得突破性進展。語義分割的任務是對圖像中的每一個像素分配所屬的類別標簽,屬于像素級的圖像理解。目標檢測僅定位目標的邊界框,而語義分割需要分割出圖像中的目標。本文首先分析和描述了語義分割領域存在的困難和挑戰,介紹了語義分割算法性能評價的常用數據集和客觀評測指標。然后,歸納和總結了現階段主流的基于深度卷積神經網絡的圖像語義分割方法的國內外研究現狀,依據網絡訓練是否需要像素級的標注圖像,將現有方法分為基于監督學習的語義分割和基于弱監督學習的語義分割兩類,詳細闡述并分析這兩類方法各自的優勢和不足。本文在PASCAL VOC(pattern analysis, statistical modelling and computational learning visual object classes)2012數據集上比較了部分監督學習和弱監督學習的語義分割模型,并給出了監督學習模型和弱監督學習模型中的最優方法,以及對應的MIoU(mean intersection-over-union)。最后,指出了圖像語義分割領域未來可能的熱點方向。
//www.cjig.cn/jig/ch/reader/view_abstract.aspx?file_no=20200601&flag=1
摘要 隨著深度學習算法在圖像分割領域的成功應用,在圖像實例分割方向上涌現出一大批優秀的算法架構.這些架構在分割效果、運行速度等方面都超越了傳統方法.本文圍繞圖像實例分割技術的最新研究進展,對現階段經典網絡架構和前沿網絡架構進行梳理總結,結合常用數據集和權威評價指標對各個架構的分割效果進行比較和分析.最后,對目前圖像實例分割技術面臨的挑戰以及可能的發展趨勢進行了展望.
對流體圖像序列進行運動分析一直是流體力學、醫學和計算機視覺等領域的重要研究課題。從圖像對中提取的密集精確的速度矢量場能夠為許多領域提供有價值的信息,基于光流法的流體運動估計技術因其獨特的優勢成為一個有前途的方向。光流法可以獲得具有較高分辨率的密集速度矢量場,在小尺度精細結構的測量上有所改進,彌補了基于相關分析法的粒子圖像測速技術的不足。此外,光流方法還可以方便的引入各種物理約束,獲得較為符合流體運動特性的運動估計結果。為了全面反映基于光流法的流體運動估計算法的研究進展,本文在廣泛調研相關文獻的基礎上,對國內外具有代表性的論文進行了系統闡述。首先介紹了光流法的基本原理,然后將現有算法按照要解決的突出問題進行分類:結合流體力學知識的能量最小化函數,提高對光照變化的魯棒性,大位移估計和消除異常值。對每類方法,從問題解決過程的角度予以介紹,分析了各類突出問題中現有算法的特點和局限性。最后,總結分析了流體運動估計技術當前面臨的問題和挑戰,并對未來基于光流法的運動估計算法的研究方向和研究重點進行了展望。
//www.cjig.cn/jig/ch/reader/view_abstract.aspx?file_no=20210209&flag=1
自動駕駛車輛的本質是輪式移動機器人,是一個集模式識別、環境感知、規劃決策和智能控制等功能于一體的綜合系統。人工智能和機器學習領域的進步極大推動了自動駕駛技術的發展。當前主流的機器學習方法分為:監督學習、非監督學習和強化學習3種。強化學習方法更適用于復雜交通場景下自動駕駛系統決策和控制的智能處理,有利于提高自動駕駛的舒適性和安全性。深度學習和強化學習相結合產生的深度強化學習方法成為機器學習領域中的熱門研究方向。首先對自動駕駛技術、強化學習方法以及自動駕駛控制架構進行簡要介紹,并闡述了強化學習方法的基本原理和研究現狀。隨后重點闡述了強化學習方法在自動駕駛控制領域的研究歷史和現狀,并結合北京聯合大學智能車研究團隊的研究和測試工作介紹了典型的基于強化學習的自動駕駛控制技術應用,討論了深度強化學習的潛力。最后提出了強化學習方法在自動駕駛控制領域研究和應用時遇到的困難和挑戰,包括真實環境下自動駕駛安全性、多智能體強化學習和符合人類駕駛特性的獎勵函數設計等。研究有助于深入了解強化學習方法在自動駕駛控制方面的優勢和局限性,在應用中也可作為自動駕駛控制系統的設計參考。
//www.cjig.cn/jig/ch/reader/view_abstract.aspx?file_no=20210103&flag=1
圖像質量評價一直是圖像處理和計算機視覺領域的一個基礎問題,圖像質量評價模型也廣泛應用于圖像/視頻編碼、超分辨率重建和圖像/視頻視覺質量增強等相關領域。圖像質量評價主要包括全參考圖像質量評價、半參考圖像質量評價和無參考圖像質量評價。全參考圖像質量評價和半參考圖像質量評價分別指預測圖像質量時參考信息完全可用和部分可用,而無參考圖像質量評價是指預測圖像質量時參考信息不可用。雖然全參考和半參考圖像質量評價模型較為可靠,但在計算過程中必須依賴參考信息,使得應用場景極為受限。無參考圖像質量評價模型因不需要依賴參考信息而有較強的適用性,一直都是圖像質量評價領域研究的熱點。本文主要概述2012—2020年國內外公開發表的無參考圖像質量評價模型,根據模型訓練過程中是否需要用到主觀分數,將無參考圖像質量評價模型分為有監督學習和無監督學習的無參考圖像質量評價模型。同時,每類模型分成基于傳統機器學習算法的模型和基于深度學習算法的模型。對基于傳統機器學習算法的模型,重點介紹相應的特征提取策略及思想;對基于深度學習算法的模型,重點介紹設計思路。此外,本文介紹了圖像質量評價在新媒體數據中的研究工作及圖像質量評價的應用。最后對介紹的無參考圖像質量評價模型進行總結,并指出未來可能的發展方向。
//www.cjig.cn/jig/ch/reader/view_abstract.aspx?file_no=20210203&flag=1
單幅圖像超分辨率重建是計算機視覺領域上的一個重要問題, 在安防視頻監控、飛機航拍以及衛星遙感等方面具有重要的研究意義和應用價值. 近年來, 深度學習在圖像分類、檢測、識別等諸多領域中取得了突破性進展, 也推動著圖像超分辨率重建技術的發展. 本文首先介紹單幅圖像超分辨率重建的常用公共圖像數據集; 然后重點闡述基于深度學習的單幅圖像超分辨率重建方向的創新與進展; 最后討論了單幅圖像超分辨率重建方向上存在的困難和挑戰, 并對未來的發展趨勢進行了思考與展望.
摘要 近年來,跨模態研究吸引了越來越多學者的關注,尤其是連接視覺和語言的相關課題。該文針對跨視覺和語言模態研究中的核心任務——圖像描述生成,進行文獻綜述。該文從基于視覺的文本生成框架、基于視覺的文本生成研究中的關鍵問題、圖像描述生成模型的性能評價和圖像描述生成模型的主要發展過程四個方面對相關文獻進行介紹和總結。最后,該文給出了幾個未來的重點研究方向,包括跨視覺和語言模態的特征對齊、自動化評價指標的設計以及多樣化圖像描述生成。
為了解圖像分割領域的研究現狀,對圖像分割方法進行了系統性梳理,首先按照基于閾值、邊緣、區域、聚類、圖論及特定理論等6類方法介紹傳統圖像分割方法;然后介紹基于深度學習的分割方法,并探討了幾種常用的分割網絡模型,包括全卷積網絡(full convolutional network,FCN)、金字塔場景解析網絡(pyramid scene parsing network,PSPNet)、DeepLab、Mask R-CNN;最后在圖像分割的常用數據集上對同類方法進行了性能比較和分析。
摘要: 目標檢測算法應用廣泛,一直是計算機視覺領域備受關注的研究熱點。近年來,隨著深度學習的發展,3D圖像的目標檢測研究取得了巨大的突破。與2D目標檢測相比,3D目標檢測結合了深度信息,能夠提供目標的位置、方向和大小等空間場景信息,在自動駕駛和機器人領域發展迅速。文中首先對基于深度學習的2D目標檢測算法進行概述;其次根據圖像、激光雷達、多傳感器等不同數據采集方式,分析目前具有代表性和開創性的3D目標檢測算法;結合自動駕駛的應用場景,對比分析不同 3D 目標檢測算法的性能、優勢和局限性;最后總結了3D目標檢測的應用意義以及待解決的問題,并對 3D 目標檢測的發展方向和新的挑戰進行了討論和展望。
題目: Research on Progress of Image Semantic Segmentation Based on Deep Learning
摘要:
自FCN網絡在2014年提出后,SegNet、DeepLab等一系列關于圖像語義分割的深度學習架構被相繼提出。與傳統方法相比,這些架構效果更好、運算速度更快,已經能夠運用于自然圖像的分割處理。圍繞圖像語義分割技術,對常用的數據集和典型網絡架構進行了梳理分析,對2017年以來的新進展進行了綜合研究,利用主流評價指標對主要模型的語義分割效果進行了比較和分析。對語義分割技術面臨的挑戰以及可能的發展趨勢進行了展望。