在計算機視覺領域,全景分割是一個新穎且重要的研究問題,它是機器感知、自動駕駛等新興前沿技術的基石,有著十分重要的研究意義. 本文綜述了基于深度學習的全景分割研究的最新進展,總結了全景分割任務的基本處理流程,并對已發表的全景分割工作基于其網絡結構特點進行分類,并作了全面的介紹與分析,最后對全景分割任務目前面臨的問題以及未來的發展趨勢做出了分析,并針對所面臨的問題提出了一些切實可行的解決思路.
全景分割[1]是將圖像劃分為語義區域(stuff)和 對象實例(things)的任務,是近年來新興起的一個研 究方向,也是計算機視覺中一個重要的研究問題. 隨著圖像處理技術的發展,數字圖像已經成為日常 生活中不可缺少的媒介,每時每刻都在產生圖像數 據. 對圖像中的物體進行快速準確的分割變得愈發重要.
全景分割包含語義分割和實例分割兩大任務. 語義分割是將類別標簽按圖像中物體類別分配給 每個像素,即將輸入圖像中的像素分為不同的語義 類別. 傳統的語義分割方法多數基于模型驅動,模 型驅動方法可分為生成式和判別式[2] . 生成式模型 首先學習圖像的特征和標簽概率,然后計算輸入圖 像特征時各個標簽的后驗概率,依據此概率對圖像 進行標注. 馬爾科夫隨機場(Markov Random Field, MRF)是一種應用廣泛的生成式模型[3],它利用先驗上下文信息和訓練得到的結果,提高分割性能. 但 是當圖像較大時,分割速度和精度會大幅下降. 判 別式模型假設圖像特征與標簽之間存在某種映射 關系,然后從歷史數據學習該映射關系的相關參數 [2] . 典型的判別式模型包括支持向量機(Support Vector Machine, SVM)、條件隨機場(Conditional Random Field, CRF)等. SVM 因其可處理非線性且 具有良好的泛化能力,在語義分割研究中得到了廣 泛應用[3]. CRF 不僅可以利用圖像上下文信息,還 可學習從局部到全局的上下文信息,已經成功應用 于圖像標記[4] . 然而,判別式模型存在收斂速度慢無法解決存在隱變量的情況等不容忽視的問題.
近年來,隨著硬件計算能力的提高,語義分割 得到快速發展. 隨著全卷積網絡(fully convolutional network, FCN)的出現[5],深度學習推動語義分割任 務快速發展,并且在自動駕駛、人臉識別等領域得 到應用.
實例分割實質上是目標檢測和語義分割的結合,目的是將輸入圖像中的目標檢測出來,并且對 每個像素分配類別標簽. 實例分割能夠對前景語義 類別相同的不同實例進行區分,這是它與語義分割 的最大區別. 相比語義分割,實例分割發展較晚, 因此實例分割模型主要基于深度學習技術,但它也 是圖像分割一個重要的組成部分. 隨著深度學習的 發展,實例分割相繼出現了 SDS [6]、DeepMask [7]、 MultiPath Network [8]等方法,分割精度和效率逐漸 得到提升.
全景分割是語義分割和實例分割的綜合. 全景 分割任務不僅要求區分輸入圖像中的背景語義類 別和前景語義類別,還要將同一類別前景語義中的 不同實例分割出來,因此全景分割任務比語義分 割、實例分割任務的難度更高. 全景分割由 Kirillov 等人[1]于 2018 年提出,已經得到計算機視覺學界的 高度重視,涌現出 JSIS-Net[9]、TASCNet[10]、AUNet[11] 等方法,顯著推動了全景分割的發展. 但是在真實 環境下,全景分割經常遇到以下挑戰:
(1) 分支融合沖突 全景分割任務是語義分割與實例分割兩個任務的綜合,在網絡結構方面,現有大部分方法將輸 入圖像的特征輸入到語義分支與實例分支,然后融 合兩個分支的輸出,得到全景輸出. 但是在融合時 會出現像素分配沖突,影響全景預測質量.
(2) 小物體檢測分割 數據集中的圖像會出現大小、距離不一的許多 物體,對于大物體,諸多全景分割方法能夠對其進 行準確分割,當小物體出現時,經常伴隨被忽略或 者分割不準確的問題,這導致全景分割精度較低, 直接增加了全景分割的難度.
(3) 分割對象交疊 在圖像采集過程中,會因為季節、天氣、光照、 距離等條件的變化,出現不同的場景,圖像中物體 會出現遮擋交疊等情況,這使得分割方法無法準確 判斷像素的歸屬,導致分割不精確. 為了克服上述挑戰,已經出現了一些全景分割 方法,它們在分支融合、小物體檢測、遮擋處理方 面提出了不同的應對策略,在一定程度上解決了這 些問題.
本文首先介紹全景分割的流程,然后重點 介紹深度學習在全景分割領域的研究進展. 本文內容安排如下:第 1 節介紹全景分割的基 本流程;第 2 節對語義分割、實例分割等相關知識 以及全景分割數據集進行介紹;第 3 節介紹深度學 習在全景分割領域的研究進展;第 4 節討論全景分 割研究面臨的挑戰,并對今后的發展趨勢進行展 望;第 5 節對本文進行總結.
生成對抗網絡(GAN)是無監督學習領域最近幾年快速發展的一個研究方向,其主要特點是能夠以一種間接的方 式對一個未知分布進行建模。在計算機視覺研究領域中,生成對抗網絡有著廣泛的應用,特別是在圖像生成方面,與其他的 生成模型相比,生成對抗網絡不僅可以避免復雜的計算,而且生成的圖像質量也更好。因此,本文將對生成對抗網絡及其在 圖像生成中的研究進展做一個小結和分析;本文首先從模型的架構、目標函數的設計、生成對抗網絡在訓練中存在的問題, 以及如何處理模式崩潰問題等角度對生成對抗網絡進行一個詳細的總結和歸納;其次介紹生成對抗網絡在圖像生成中的兩 種方法;隨后對一些典型的、用來評估生成圖像質量和多樣性的方法進行小結;并且對基于圖像生成的應用進行詳細分析;最后對生成對抗網絡和圖像生成進行總結,同時對其發展趨勢進行一個展望。
近年來,深度傳感器和三維激光掃描儀的普及推動了三維點云處理方法的快速發展。點云語義分割作為理解三維場景的關鍵步驟,受到了研究者的廣泛關注。隨著深度學習的迅速發展并廣泛應用到三維語義分割領域,點云語義分割效果得到了顯著提升。主要對基于深度學習的點云語義分割方法和研究現狀進行了詳細的綜述。將基于深度學習的點云語義分割方法分為間接語義分割方法和直接語義分割方法,根據各方法的研究內容進一步細分,對每類方法中代表性算法進行分析介紹,總結每類方法的基本思想和優缺點,并系統地闡述了深度學習對語義分割領域的貢獻。然后,歸納了當前主流的公共數據集和遙感數據集,并在此基礎上對比主流點云語義分割方法的實驗結果。最后,對語義分割技術未來的發展方向進行了展望。
近年來,隨著計算機視覺、人工智能以及遙感測繪 的發展,SLAM(simultaneous localization and mapping) 技術、Kinect 技術以及激光掃描等技術日漸成熟,點 云的數據量迅速增長,針對描述點云數據空間信息 的高層語義理解也越來越受到關注。語義分割作為 點云數據處理與分析的基礎技術,成為自動駕駛、導 航定位、智慧城市、醫學影像分割等領域的研究熱 點,具有廣泛的應用前景。語義分割是一種典型的 計算機視覺問題,也稱為場景標簽,是指將一些原始 數據(例如:二維(two-dimensional,2D)圖像、三維(threedimensional,3D)點云)作為輸入并通過一系列技術 操作轉換為具有突出顯示的感興趣區域的掩模。
點云語義分割是把點云分為若干個特定的、具 有獨特性質的區域并識別出點云內容的技術。由于 初期三維數據模型庫可用數據量較少以及深度網絡 由二維轉到三維的復雜性,傳統的點云語義分割方 法大多是通過提取三維形狀幾何屬性的空間分布或 者直方圖統計等方法得到手工提取特征,構建相應 的判別模型(例如:支持向量機(support vector machine, SVM)[1]、隨機森林(random forest,RF)[2]、條件隨機場 (conditional random field,CRF)[3]、馬爾可夫隨機場 (Markov random field,MRF)[4]等)實現分割。由于手 工提取的特征主要依靠設計者的先驗知識以及手工 調動參數,限制了大數據的使用。伴隨著大型三維 模型數據的出現和 GPU 計算能力的不斷迭代更新, 深度學習在點云語義分割領域逐漸占據了絕對主導 地位。深度學習模型的核心思想是采用數據驅動的 方式,通過多層非線性運算單元,將低層運算單元的 輸出作為高層運算單元的輸入,從原始數據中提取 由一般到抽象的特征。初期,研究者們借鑒二維圖 像語義分割模型的經驗,對輸入點云形狀進行規范 化,將不規則的點云或者網格數據轉換為常規的 3D 體素網格或者多視圖,將它們提供給深層的網絡體 系結構。然而,丟失幾何結構信息和數據稀疏性等。問題限制了多視圖方法和體素化方法的發展。于 是,研究者開始從三維數據源頭著手,斯坦福大學 Qi 等人[5]提出的 PointNet 網絡模型,直接從點云數據中 提取特征信息,在沒有向體素轉換的情況下,體系結 構保留原始點內的固有信息以預測點級語義。隨 后,直接處理點云的網絡模型方法逐漸發展起來。
目前已有一些綜述性論文[6-9]對基于深度學習的 點云語義分割研究進行了總結和分析。文獻[6]是基 于深度學習和遙感數據背景下進行的分類研究進展 綜述;文獻[7]從遙感和計算機視覺的角度概述了三 維點云數據的獲取和演化,對傳統的和先進的點云 語義分割技術進行了比較和總結;文獻[8]詳細介紹 了一些較為突出的點云分割算法及常見數據集;文 獻[9]所做的綜述工作涵蓋了不同的應用,包括點云 數據的形狀分類、目標檢測和跟蹤以及語義和實例 分割,涉及的方面較為廣泛。本文對前人工作進行 了完善,在算法內容上,本文添加了最近提出的新方 法,總結了 50多種三維語義分割算法,根據三維點云 數據處理方式,將它們分為兩類:間接語義分割方法 和直接語義分割方法。數據集內容上,本文在新增 最新公共數據集的同時,增加了常用的三維遙感數 據集。未來研究方向上,本文在基于深度學習的語 義分割技術評述基礎上,對語義分割領域未來研究 方向進行了展望并給出各類技術的參考性價值。
為了解圖像分割領域的研究現狀,對圖像分割方法進行了系統性梳理,首先按照基于閾值、邊緣、區域、聚類、圖論及特定理論等6類方法介紹傳統圖像分割方法;然后介紹基于深度學習的分割方法,并探討了幾種常用的分割網絡模型,包括全卷積網絡(full convolutional network,FCN)、金字塔場景解析網絡(pyramid scene parsing network,PSPNet)、DeepLab、Mask R-CNN;最后在圖像分割的常用數據集上對同類方法進行了性能比較和分析。
目標檢測的任務是從圖像中精確且高效地識別、定位出大量預定義類別的物體實例。隨著深度學習的廣泛應用,目標檢測的精確度和效率都得到了較大提升,但基于深度學習的目標檢測仍面臨改進與優化主流目標檢測算法的性能、提高小目標物體檢測精度、實現多類別物體檢測、輕量化檢測模型等關鍵技術的挑戰。針對上述挑戰,本文在廣泛文獻調研的基礎上,從雙階段、單階段目標檢測算法的改進與結合的角度分析了改進與優化主流目標檢測算法的方法,從骨干網絡、增加視覺感受野、特征融合、級聯卷積神經網絡和模型的訓練方式的角度分析了提升小目標檢測精度的方法,從訓練方式和網絡結構的角度分析了用于多類別物體檢測的方法,從網絡結構的角度分析了用于輕量化檢測模型的方法。此外,對目標檢測的通用數據集進行了詳細介紹,從4個方面對該領域代表性算法的性能表現進行了對比分析,對目標檢測中待解決的問題與未來研究方向做出預測和展望。目標檢測研究是計算機視覺和模式識別中備受青睞的熱點,仍然有更多高精度和高效的算法相繼提出,未來將朝著更多的研究方向發展。