基于圖像的三維重建,旨在從一組二維多視角圖像精確地恢復真實場景的幾何形狀,是計算機視覺和攝影測量中一個基礎且活躍的研究領域,具有重要的理論研究意義和應用價值,在智慧城市、虛擬旅游、數字遺產保護、數字地圖和導航等領域有著廣泛的應用。近年來,隨著圖像采集系統(包括智能手機、消費級數碼相機、民用無人機)的普及和互聯網的高速發展,用戶可以通過搜索引擎(例如谷歌)輕松獲取大量的關于某個室外場景的互聯網圖像。如何利用這些圖像進行高效、魯棒、準確的三維重建,為用戶提供真實感知和沉浸式體驗,已經成為研究熱點,引發了學術界和產業界的廣泛關注,現已涌現多種多樣的解決方法。特別地,深度學習的出現為大規模室外圖像三維重建的研究提供了新的契機。本文首先闡述大規模室外圖像三維重建的基本串行過程,包括圖像檢索、圖像特征點匹配、運動恢復結構、多視圖立體。然后,本文將區分傳統方法和基于深度學習的方法,系統而全面地回顧大規模室外圖像三維重建技術在各個重建子過程中的發展和應用。之后,本文詳細總結各個子過程中適用于大規模室外場景的數據集和評價指標。最后,本文將介紹現有主流的開源和商業三維重建系統以及國內相關產業的發展現狀。
//www.cjig.cn/jig/ch/reader/view_abstract.aspx?flag=2&file_no=2020&journal_id=jig
在自動駕駛、機器人、數字城市、以及虛擬/混合現實等應用的驅動下,三維視覺在近年來得到了廣泛的關注。三維視覺研究主要圍繞深度圖像獲取、視覺定位與制圖、三維建模及三維理解等任務而展開。本文圍繞上述三維視覺任務,對國內外研究進展進行了詳細地綜合評述和對比分析。首先,針對深度圖像獲取任務,本文從非端到端立體匹配、端到端立體匹配及無監督立體匹配三個方面對立體匹配研究進展進行了回顧,從深度回歸網絡和深度補全網絡兩個方面對單目深度估計研究進展進行了回顧。其次,針對視覺定位與制圖任務,本文從端到端視覺定位和非端到端視覺定位兩個方面對大場景下的視覺定位研究進展進行了回顧,并從視覺同步定位與地圖構建和融合其它傳感器的同步定位與地圖構建兩個方面對同步定位與地圖構建的研究進展進行了回顧。再次,針對三維建模任務,本文從深度三維表征學習、深度三維生成模型、結構化表征學習與生成模型、以及基于深度學習的三維重建等四個方面對三維幾何建模研究進展進行了回顧,并從多視RGB重建、單深度相機和多深度相機方法、以及單視圖RGB方法等三個方面對人體動態建模研究進展進行了回顧。最后,針對三維理解任務,本文從點云語義分割和點云實例分割兩個方面對點云語義理解研究進展進行了回顧。在此基礎上,本文給出了三維視覺研究的未來發展趨勢,旨在為相關研究者提供參考。
//www.cjig.cn/jig/ch/reader/view_abstract.aspx?flag=2&file_no=2022&journal_id=jig
視頻目標檢測是為了解決每一個視頻幀中出現的目標如何進行定位和識別的問題。相比于圖像目標檢測,視頻具有高冗余度的特性,其中包含了大量的時空局部信息。隨著深度卷積神經網絡在靜態圖像目標檢測領域的迅速普及,在性能上相較于傳統方法顯示出了非常大的優越性,并逐步在基于視頻的目標檢測任務上也發揮了應有的作用。但現有的視頻目標檢測算法仍然面臨改進與優化主流目標檢測算法的性能、保持視頻序列的時空一致性、檢測模型輕量化等關鍵技術的挑戰。針對上述問題和挑戰,本文在調研大量文獻的基礎上系統地對基于深度學習的視頻目標檢測算法進行了總結。從基于光流、檢測等基礎方法對這些算法進行了分類,從骨干網絡、算法結構、數據集等角度細致探究了這些方法,結合在ImageNet VID等數據集上的實驗結果,分析了該領域具有代表性算法的性能優勢和劣勢,以及算法之間存在的聯系,對視頻目標檢測中待解決的問題與未來研究方向進行了闡述和展望。視頻目標檢測已成為眾多的計算機視覺領域學者追逐的熱點,將來會有更加高效,精度更高的算法被相繼提出,其發展方向也會越來越好。
行人檢測技術在智能交通系統,智能安防監控等領域表現出了極高的應用價值,已經成為計算機視覺領域的重要研究方向之一。得益于深度學習的飛速發展,基于深度卷積神經網絡的通用目標檢測模型被不斷擴展應用到行人檢測領域,并取得了良好的性能。但是由于行人目標內在的特殊性、復雜性,特別是考慮到復雜場景下的行人遮擋、尺度變化等問題,深度學習方法也面臨著嚴峻的挑戰。本文針對上述問題,以基于深度學習的行人檢測技術為研究對象,在充分調研文獻的基礎上,分別從基于錨點框、基于無錨點框以及通用技術改進(例如損失函數,非極大值抑制等)三個角度,對各類行人檢測算法進行細分,并選取具有代表性的方法進行詳細介紹和對比分析。此外,本文對行人檢測的通用數據集進行了詳細的介紹,對該領域先進算法的性能進行了對比分析,對行人檢測中待解決的問題與未來的研究方向做出預測和展望。
//www.cjig.cn/jig/ch/reader/view_abstract.aspx?flag=2&file_no=2020&journal_id=jig
許多自然場景圖像中都包含著豐富的文本,他們對于場景理解有著重要的作用。隨著移動互聯網技術的飛速發展,許多新的應用場景都需要利用這些文本信息,例如招牌識別和自動駕駛等。因此,自然場景文本的分析與處理也越來越成為計算機視覺領域的研究熱點之一,該任務主要包括文本檢測與識別。傳統的文本檢測和識別方法依賴于人工設計的特征和規則,且模型設計復雜、效率低、泛化性能差。近年來隨著深度學習的發展,自然場景文本檢測、自然場景文本識別以及端到端的自然場景文本檢測與識別都取得了突破性的進展,其性能和效率都得到了顯著提高。本文介紹了該領域相關的研究背景,對近幾年基于深度學習的自然場景文本檢測、識別以及端到端自然場景文本檢測與識別的方法進行整理分類、歸納和總結,闡述了各類方法的基本思想和優缺點。并針對隸屬于不同類別下的方法,進一步論述和分析這些主要模型的算法流程、適用場景和他們的技術發展路線。此外還列舉說明了一些主流公開數據集,并對比了各個模型方法在代表性數據集上的性能情況。最后本文總結了目前不同場景數據下的自然場景文本檢測、識別以及端到端自然場景文本檢測與識別算法的局限性以及未來的挑戰和發展趨勢。
//www.cjig.cn/jig/ch/reader/view_abstract.aspx?flag=2&file_no=2023&journal_id=jig
摘要 隨著深度學習算法在圖像分割領域的成功應用,在圖像實例分割方向上涌現出一大批優秀的算法架構.這些架構在分割效果、運行速度等方面都超越了傳統方法.本文圍繞圖像實例分割技術的最新研究進展,對現階段經典網絡架構和前沿網絡架構進行梳理總結,結合常用數據集和權威評價指標對各個架構的分割效果進行比較和分析.最后,對目前圖像實例分割技術面臨的挑戰以及可能的發展趨勢進行了展望.
對流體圖像序列進行運動分析一直是流體力學、醫學和計算機視覺等領域的重要研究課題。從圖像對中提取的密集精確的速度矢量場能夠為許多領域提供有價值的信息,基于光流法的流體運動估計技術因其獨特的優勢成為一個有前途的方向。光流法可以獲得具有較高分辨率的密集速度矢量場,在小尺度精細結構的測量上有所改進,彌補了基于相關分析法的粒子圖像測速技術的不足。此外,光流方法還可以方便的引入各種物理約束,獲得較為符合流體運動特性的運動估計結果。為了全面反映基于光流法的流體運動估計算法的研究進展,本文在廣泛調研相關文獻的基礎上,對國內外具有代表性的論文進行了系統闡述。首先介紹了光流法的基本原理,然后將現有算法按照要解決的突出問題進行分類:結合流體力學知識的能量最小化函數,提高對光照變化的魯棒性,大位移估計和消除異常值。對每類方法,從問題解決過程的角度予以介紹,分析了各類突出問題中現有算法的特點和局限性。最后,總結分析了流體運動估計技術當前面臨的問題和挑戰,并對未來基于光流法的運動估計算法的研究方向和研究重點進行了展望。
//www.cjig.cn/jig/ch/reader/view_abstract.aspx?file_no=20210209&flag=1
單幅圖像超分辨率重建是計算機視覺領域上的一個重要問題, 在安防視頻監控、飛機航拍以及衛星遙感等方面具有重要的研究意義和應用價值. 近年來, 深度學習在圖像分類、檢測、識別等諸多領域中取得了突破性進展, 也推動著圖像超分辨率重建技術的發展. 本文首先介紹單幅圖像超分辨率重建的常用公共圖像數據集; 然后重點闡述基于深度學習的單幅圖像超分辨率重建方向的創新與進展; 最后討論了單幅圖像超分辨率重建方向上存在的困難和挑戰, 并對未來的發展趨勢進行了思考與展望.
機器視覺是建立在計算機視覺理論工程化基礎上的一門學科,涉及到光學成像、視覺信息處理、人工智能以及機電一體化等相關技術。隨著我國制造業的轉型升級與相關研究的不斷深入,機器視覺技術憑借其精度高、實時性強、自動化與智能化程度高等優點,成為了提升機器人智能化的重要驅動力之一,并被廣泛應用于工業生產、農業以及軍事等各個領域。在廣泛查閱相關文獻之后,針對近十多年來機器視覺相關技術的發展與應用進行分析與總結,旨在為研究學者與工程應用人員提供參考。首先,總結了機器視覺技術的發展歷程、國內外的機器視覺發展現狀;其次,重點分析了機器視覺系統的核心組成部件、常用視覺處理算法以及當前主流的機器視覺工業軟件;然后,介紹了機器視覺技術在產品瑕疵檢測、智能視頻監控分析、自動駕駛與輔助駕駛與醫療影像診斷等四個典型領域的應用;最后分析了當前機器視覺技術所面臨的挑戰,并對其未來的發展趨勢進行了展望。希望為機器視覺技術的發展和應用推廣發揮積極作用。
摘要: 三維重建在視覺方面具有很高的研究價值, 在機器人視覺導航、智能車環境感知系統以及虛擬現實中被廣泛應用.本文對近年來國內外基于視覺的三維重建方法的研究工作進行了總結和分析, 主要介紹了基于主動視覺下的激光掃描法、結構光法、陰影法以及TOF (Time of flight)技術、雷達技術、Kinect技術和被動視覺下的單目視覺、雙目視覺、多目視覺以及其他被動視覺法的三維重建技術, 并比較和分析這些方法的優點和不足.最后對三維重建的未來發展作了幾點展望。