近年來,深度學習技術在通用目標檢測領域取得了顯著的突破,并催生了許多場景理解任務。場景圖因其強大的語義表達能力和在場景理解中的應用而成為研究的熱點。場景圖生成(Scene Graph Generation, SGG)是指將圖像自動映射為語義結構的場景圖,需要正確標注被檢測對象及其關系。雖然這是一個具有挑戰性的任務,但社區已經提出了許多SGG方法,并取得了良好的效果。在本文中,我們提供了一個全面的綜述,在這一領域的最新成就帶來了深度學習技術。本文綜述了138個具有代表性的研究成果,并從特征提取和融合的角度系統總結了現有的基于圖像的SGG方法。我們試圖將現有的視覺關系檢測方法進行連接和系統化,以全面的方式總結和解釋SGG的機制和策略。最后,我們對目前存在的問題和未來的研究方向進行了深入的討論,完成了本次綜述。這一綜述將有助于讀者更好地了解目前的研究現狀和思路。
計算機視覺(CV)的最終目標是構建智能系統,能夠像人類一樣從數字圖像、視頻或其他形式中提取有價值的信息。在過去的幾十年里,機器學習(ML)為CV的發展做出了巨大的貢獻。受人類能夠輕松解讀和理解視覺場景能力的啟發,視覺場景理解一直被推崇為CV的圣杯,并已經引起了研究界的廣泛關注。
視覺場景理解包括許多子任務,一般可分為識別和應用兩部分。這些識別任務可以在幾個語義級別上進行描述。早期的大部分作品主要集中在圖像分類上,只給圖像分配了一個標簽,例如一只貓或一輛車的圖像,并進一步分配了多個標注,而沒有定位每個標注在圖像中的位置,即[38]。大量的神經網絡模型已經出現,甚至在圖像分類任務[27],[29],[33],[34]中達到了接近人類的性能。此外,其他一些復雜的任務,如像素級的語義分割,對象檢測和實例級的實例分割,都建議將圖像分解為前景對象和背景雜波。像素級任務的目標是將圖像(或多個)的每個像素分類到一個實例中,其中每個實例(或類別)對應于一個類[37]。實例級任務的重點是在給定的場景中檢測和識別單個的對象,以及分別用包圍框或分割蒙版勾畫一個對象。最近提出的一種名為Panoptic Segmentation (PS)的方法同時考慮了逐像素類和實例標簽[32]。隨著深度神經網絡(DNN)的發展,以對象為中心的任務和基于[17]、[19]、[21]、[22]、[23]模型的各種商業化應用取得了重要突破。然而,場景理解超出了對象的定位。更高層次的任務側重于探索對象之間豐富的語義關系,以及對象與周圍環境的交互,如視覺關系檢測[15]、[24]、[26]、[41]和人-物交互(HOI)[14]、[16]、[20]。這些任務同樣重要,也更具挑戰性。在一定程度上,它們的發展取決于個體實例識別技術的性能。同時,對圖像內容進行更深層次的語義理解也有助于完成視覺識別任務[2],[6],[36],[39],[120]。Divvala等人[40]研究了各種形式的上下文模型,它們可以提高以物體為中心的識別任務的準確性。近年來,研究者們將計算機視覺與自然語言處理(NLP)相結合,提出了一些先進的研究方向,如圖像描述、視覺問答(VQA)、視覺對話等。這些視覺和語言主題需要對我們的視覺世界有豐富的理解,并提供智能系統的各種應用場景。
圖1 一個場景圖結構的可視化說明和一些應用。場景圖生成模型以圖像為輸入,生成視覺基準的場景圖。圖像描述可以直接從場景圖生成。與此相反,圖像生成模型通過從給定的句子或場景圖生成逼真的圖像來逆過程。引用表達式(REF)標記輸入圖像中與給定表達式對應的區域,該區域與表達式映射場景圖的同一子圖。基于場景圖的圖像檢索以查詢為輸入,將檢索視為場景圖匹配問題。對于Visual Question answer (VQA)任務,答案有時可以直接在場景圖中找到,即使對于更復雜的視覺推理,場景圖也很有幫助。
盡管在各個層次的場景理解方面已經取得了長足的進步,但還有很長的路要走。信息的整體感知和有效表達仍然是瓶頸。正如之前的一系列作品[1],[44],[191]所指出的,構建一種高效的、能夠捕獲全面語義知識的結構化表示是深入理解視覺場景的關鍵一步。這種表征不僅可以為基本的識別挑戰提供上下文線索,也為高級智力視覺任務提供了一個有前途的替代方案。場景圖由Johnson et al.[1]提出,是一種基于特定場景中對象實例的可視化圖形,其中節點對應于對象邊界框及其對象類別,邊表示其成對關系。
由于與圖像特征相比,場景圖具有結構化的抽象和更大的語義表達能力,因此場景圖具有處理和提高其他視覺任務的本能潛力。如圖1所示,場景圖將圖像解析為一個簡單而有意義的結構,是視覺場景與文本描述之間的橋梁。許多結合視覺和語言的任務都可以通過場景圖來處理,包括圖像描述[3]、[12]、[18]、視覺問題回答[4]、[5]、基于內容的圖像檢索CBIR、[7]、圖像生成[8]、[9]和參考表達理解[35]。有些任務將圖像作為輸入,并將其解析為場景圖,然后生成合理的文本作為輸出。其他任務則從文本描述中提取場景圖,然后生成逼真的圖像或檢索相應的視覺場景。
我們涵蓋了幾乎所有與該領域相關的當代文獻,并對138篇有關場景圖生成的論文進行了全面的綜述。這些論文按輸入模式(即圖像、視頻和三維網格)進行分類。
從全局的角度提出了二維場景圖生成的通用框架,并從特征提取和更新的角度對這些方法進行了分析。
我們對場景圖生成的各個方面進行了深入的分析,包括生成框架、對象和關系特征表示、輸入模式、訓練
目標檢測是計算機視覺領域中最基礎且最重要的任務之一,是行為識別與人機交互等高層視覺任務的基礎.隨著深度學習技術的發展,目標檢測模型的準確率和效率得到了大幅提升.與傳統的目標檢測算法相比,深度學習利用強大的分層特征提取和學習能力使得目標檢測算法性能取得了突破性進展.與此同時,大規模數據集的出現及顯卡計算能力的極大提高也促成了這一領域的蓬勃發展.本文對基于深度學習的目標檢測現有研究成果進行了詳細綜述.首先回顧傳統目標檢測算法及其存在的問題,其次總結深度學習下區域提案和單階段基準檢測模型.之后從特征圖、上下文模型、邊框優化、區域提案、類別不平衡處理、訓練策略、弱監督學習和無監督學習這八個角度分類總結當前主流的目標檢測模型,最后對目標檢測算法中待解決的問題和未來研究方向做出展望.
目標檢測是計算機視覺領域中最基礎且最具挑戰性的任務之一,其包含物體分類和定位[1].與此同時,目標檢測作為圖像理解和計算機視覺的基石,它為實例分割、圖像捕獲、視頻跟蹤等任務提供了強有力的特征分類基礎,因此探索高效實時的目標檢測模型是近年來研究的熱點.
傳統的目標檢測方法包括預處理、區域提案、特征提取、特征選擇、特征分類和后處理六個階段.大多數檢測模型關注于物體特征的提取和區域分類算法的選擇,在PASCAL VOC數據集[2]上的檢測準確率以較小步幅增長.Deformable Part?based Model(DPM)[3] 算法三次在PASCAL VOC目標檢測競賽上獲得冠軍,是傳統目標檢測方法的巔峰之作.然而在2008年至2012年期間,目標檢測模型在PASCAL VOC數據集上的檢測準確率逐漸達到瓶頸.傳統方法的弊端也展現出來,主要包括:(1)算法在區域提案生成階段產生大量冗余的候選框且正負樣本失衡;(2)特征提取器如HOG[4]、SIFT[5]等未能充分捕捉圖像的高級語義特征和上下文內容;(3)傳統檢測算法分階段進行,整體缺乏一種全局優化策略.
最近,深度學習經歷了一段前所未有的發展熱浪,AlexNet[6]在圖像分類任務中的優異表現讓人們重新燃起研究卷積神經網絡的興趣.相比于傳統算法,深度學習利用自動學習數據中的特征表達和學習能力加速了目標檢測的發展,在檢測速度和準確率方面均有顯著提升.正是由于目標檢測技術的快速發展,如今其已廣泛應用于智能視頻監控、機器人視覺、基于內容的圖像檢索、自動駕駛[7,8]等領域.
本文首先介紹目標檢測數據集及其評估指標,之后總結基于深度學習的目標檢測基準模型,再從特征圖、上下文模型、邊框優化、區域提案、類別不平衡處理、訓練策略、弱監督學習和無監督學習這八個方面歸納總結當前主流的目標檢測模型,最后討論目標檢測技術的未來發展趨勢與總結全文.
為了解圖像分割領域的研究現狀,對圖像分割方法進行了系統性梳理,首先按照基于閾值、邊緣、區域、聚類、圖論及特定理論等6類方法介紹傳統圖像分割方法;然后介紹基于深度學習的分割方法,并探討了幾種常用的分割網絡模型,包括全卷積網絡(full convolutional network,FCN)、金字塔場景解析網絡(pyramid scene parsing network,PSPNet)、DeepLab、Mask R-CNN;最后在圖像分割的常用數據集上對同類方法進行了性能比較和分析。
摘要: 目標檢測算法應用廣泛,一直是計算機視覺領域備受關注的研究熱點。近年來,隨著深度學習的發展,3D圖像的目標檢測研究取得了巨大的突破。與2D目標檢測相比,3D目標檢測結合了深度信息,能夠提供目標的位置、方向和大小等空間場景信息,在自動駕駛和機器人領域發展迅速。文中首先對基于深度學習的2D目標檢測算法進行概述;其次根據圖像、激光雷達、多傳感器等不同數據采集方式,分析目前具有代表性和開創性的3D目標檢測算法;結合自動駕駛的應用場景,對比分析不同 3D 目標檢測算法的性能、優勢和局限性;最后總結了3D目標檢測的應用意義以及待解決的問題,并對 3D 目標檢測的發展方向和新的挑戰進行了討論和展望。