語義分割作為計算機視覺領域的重要研究方向之一,應用十分廣泛,其目的是根據預先定義好的類別對輸入圖像進行像素級別的分類,實時語義分割則在一般語義分割的基礎上又增加了對速度的要求,被廣泛應用于如無人駕駛、醫學圖像分析、視頻監控與航拍圖像等領域。其要求分割方法不僅要取得較高的分割精度,且分割速度也要快。隨著深度學習和神經網絡的快速發展,實時語義分割也取得了一定的研究成果。本文在前人已有工作的基礎上對基于深度學習的實時語義分割算法進行系統地歸納總結,特別是最新的基于transformer和剪枝的方法,全面介紹實時語義分割方法在各領域中的應用。本文首先介紹實時語義分割的概念,再根據標簽的數量和質量,將現有的基于深度學習的實時語義分割方法分為強監督學習、弱監督學習和無監督學習三個類別;在分類的基礎上,結合各個類別中最具有代表性的方法,對其優缺點展開分析,并從多個角度進行比較。隨后介紹目前實時語義分割常用的數據集和評價指標,并對比分析各算法在各數據集上的實驗效果。闡述現階段實時語義分割的應用場景。最后,討論了基于深度學習的實時語義分割存在的挑戰,并對實時語義分割未來值得研究的方向進行展望,為研究者們解決存在的問題提供便利。
圖像融合技術旨在將不同源圖像中的互補信息整合到單幅融合圖像中以全面表征成像場景,并促進后續的視覺任務。隨著深度學習的興起,基于深度學習的圖像融合算法如雨后春筍般涌現,特別是自編碼器、生成對抗網絡以及Transformer等技術的出現使圖像融合性能產生了質的飛躍。本文對不同融合任務場景下的前沿深度融合算法進行全面論述和分析。首先,介紹圖像融合的基本概念以及不同融合場景的定義。針對多模圖像融合、數字攝影圖像融合以及遙感影像融合等不同的融合場景,從網絡架構和監督范式等角度全面闡述各類方法的基本思想,并討論各類方法的特點。其次,總結各類算法的局限性,并給出進一步的改進方向。再次,簡要介紹不同融合場景中常用的數據集,并給出各種評估指標的具體定義。對于每一種融合任務,從定性評估、定量評估和運行效率等多角度全面比較其中代表性算法的性能。本文提及的算法、數據集和評估指標已匯總至//github.com/Linfeng-Tang/Image-Fusion。最后,給出了本文結論以及圖像融合研究中存在的一些嚴峻挑戰,并對未來可能的研究方向進行了展望。
圖分析用于深入挖掘圖數據的內在特征,然而圖作為非歐幾里德數據,傳統的數據分析方法普遍存在較高的計算量和空間開銷。圖嵌入是一種解決圖分析問題的有效方法,其將原始圖數據轉換到低維空間并保留關鍵信息,從而提升節點分類、鏈接預測、節點聚類等下游任務的性能。與以往的研究不同,同時對靜態圖和動態圖嵌入文獻進行全面回顧,我們提出一種靜態圖嵌入和動態圖嵌入通用分類方法, 即基于矩陣分解的圖嵌入、基于隨機游走的圖嵌入、基于自編碼器的圖嵌入、基于圖神經網絡(GNN)的圖嵌入和基于其他方法的圖嵌入。其次,對靜態圖和動態圖方法的理論相關性進行分析,對模型核心策略、下游任務和數據集進行全面總結。最后,提出了四個圖嵌入的潛在研究方向。
//fcst.ceaj.org/article/2022/1673-9418/1673-9418-16-1-59.shtml
圖是復雜系統中常用的信息載體,可以表示現實中許多復雜關系,如社交網絡[1]、犯罪網絡[2]、交通網絡[3]等。圖結構作為一種非歐幾里德數據,很難直接應用卷積神經網絡(convolutional neural network,CNN)[4]和循環神經網絡(recurrent neural network,RNN)[5]等深度學習方法[6]。為了構造用于圖數據挖掘的特征表示,圖嵌入將節點映射到低維空間,生成保留原始圖中某些重要信息的低維向量。目前,圖嵌入不僅在節點分類[7]、鏈接預測[8]、節點聚類[9]、可視化[10]等復雜網絡上的機器學習任務中獲得成功,還廣泛用于社交影響力建模[11]、內容推薦[12]等現實任務。
早期的圖嵌入算法主要用于數據降維,通過鄰域關系構建相似度圖,將節點嵌入低維向量空間,并保持相連節點向量的相似性。這類方法通常時間復雜度高,很難擴展到大型圖上。近年來,圖嵌入算法轉向擴展性強的方法。例如,矩陣分解方法[13]使用鄰接矩陣的近似分解作為嵌入;隨機游走法[14]將游走序列輸入到Skip-Gram[15]生成嵌入。這些方法利用圖的稀疏性降低了時間復雜度。當前,很多綜述[16,17,18,19,20,21]對圖嵌入方法進行了歸納與總結,但存在兩大局限:一是部分綜述僅涉及傳統方法介紹,許多新模型沒有納入研究;二是這些綜述只關注靜態圖嵌入或動態圖嵌入,忽略了二者之間的關聯性。
本文對圖嵌入方法進行全面系統性綜述,有以下三方面的貢獻:(1)提出一種新的圖嵌入分類法,同時對靜態圖和動態圖方法進行分類;(2)對現有模型進行系統性分析,為理解現有方法提供新視角;(3)提出了四個圖嵌入的潛在研究方向。
流場可視化是科學計算可視化中一個重要的分支,主要對計算流體動力學的模擬計算結果進行可視化,給研究人員提 供視覺上直觀可見的圖形圖像,方便研究人員進行分析.流場可視化的已知技術包括基于幾何的方法(如流線和粒子追蹤法) 以及基于紋理的方法(如 LIC、噪聲點、IBFV 等).流線可視化是流場可視化的一個重要且常用的幾何可視化手段.在流線可 視化的研究中,流線的放置是整個流線可視化的重點,流線的數目和位置影響了整個可視化效果.當流線放置過多時,會造成 視覺的雜亂;而流線放置過少會使流場信息表達不完整,無法傳遞完整的信息給領域專家.為了實現對科學數據的精確顯示, 流線可視化產生了兩個重要的研究方向:種子點的放置和流線的約減.文中介紹了種子點放置方法和流線的約減方法的相關 研究,總結了在2D和3D流場上出現的一些問題和采取的解決方案,并針對日益增長的科學數據,提出流線可視化下一步需要 解決的問題。
隨著深度學習的不斷發展,目標檢測技術逐步從基于傳統的手工檢測方法向基于深度神經網絡的檢測方法轉變。在眾多基于深度學習的目標檢測算法中,基于深度學習的單階段目標檢測算法因其網絡結構較簡單、運行速度較快以及具有更高的檢測效率而被廣泛運用。但現有的基于深度學習的單階段目標檢測方法由于小目標物體包含的特征信息較少、分辨率較低、背景信息較復雜、細節信息不明顯以及定位精度要求較高等原因,導致在檢測過程中對小目標物體的檢測效果不理想,使得模型檢測精度降低。針對目前基于深度學習的單階段目標檢測算法存在的問題,研究了大量基于深度學習的單階段小目標檢測技術。首先從單階段目標檢測方法的Anchor Box、網絡結構、交并比函數以及損失函數等幾個方面,系統地總結了針對小目標檢測的優化方法;其次列舉了常用的小目標檢測數據集及其應用領域,并給出在各小目標檢測數據集上的檢測結果圖;最后探討了基于深度學習的單階段小目標檢測方法的未來研究方向。
視覺多目標跟蹤是計算機視覺領域的熱點問題,然而,場景中目標數量的不確定、目標之間的相互遮擋、目標特征區分度不高等多種難題導致了視覺多目標跟蹤現實應用進展緩慢。近年來,隨著視覺智能處理研究的不斷深入,涌現出多種多樣的深度學習類視覺多目標跟蹤算法。在分析了視覺多目標跟蹤面臨的挑戰和難點基礎上,將算法分為基于檢測跟蹤(Detection-Based-Tracking,DBT)、聯合檢測跟蹤(Joint-Detection-Tracking,JDT)兩大類及六個子類,研究不同類別算法的優缺點。分析表明,DBT類算法結構簡單,但算法各子環節的關聯度不高,JDT類算法融合多模塊聯合學習,在多項跟蹤評價指標中占優。DBT類算法中特征提取模塊是解決目標遮擋問題的關鍵,但損失了算法速度,JDT類算法對檢測模塊更為依賴。目前,多目標跟蹤跟蹤總體是從DBT類算法向JDT發展,分階段實現算法準確度與速度的均衡。提出多目標跟蹤算法未來在數據集、各子模塊、具體場景應用等方面的發展方向。
近年來,由于多模態數據的快速增長,跨模態檢索受到了研究者的廣泛關注,它將一種模態的數據作為查詢去檢索其它模態的數據。例如,用戶可以用文本檢索圖像或/和視頻。由于查詢及其檢索結果模態表征的差異,如何度量不同模態之間的相似性是跨模態檢索的主要挑戰。隨著深度學習技術的推廣以及其在計算機視覺、自然語言處理等領域的顯著成果,研究者提出了一系列以深度學習為基礎的跨模態檢索方法,極大地緩解了不同模態間相似性度量的挑戰,本文稱之為深度跨模態檢索。本文將從以下角度綜述近些年來代表性的深度跨模態檢索論文,基于所提供的跨模態信息將這些方法分為三類:基于跨模態數據間一一對應的、基于跨模態數據間相似度的以及基于跨模態數據語義標注的深度跨模態檢索。一般來說,上述信息呈現遞增的情況,且提供學習的信息越多,跨模態檢索性能越優。在上述不同類別下,涵蓋了七類主流技術,即典型相關分析、一一對應關系保持、度量學習、似然分析、學習排序、語義預測以及對抗學習。不同類別下包含其中部分關鍵技術,其中代表性方法將被具體闡述。同時本文將對比提供不同跨模態數據信息下不同技術的區別,以闡述在提供了不同層次的跨模態數據信息下相關技術的關注點與使用異同。為評估不同的跨模態檢索方法,本文總結了部分代表性的跨模態檢索數據庫。最后本文討論了當前深度跨模態檢索待解決的問題以及未來的研究方向。
深度學習作為人工智能技術的重要組成部分,被廣泛應用于計算機視覺和自然語言處理等領域。盡管深度學習在圖像分類和目標檢測等任務中取得了較好性能,但是對抗攻擊的存在對深度學習模型的安全應用構成了潛在威脅,進而影響了模型的安全性。在簡述對抗樣本的概念及其產生原因的基礎上,分析對抗攻擊的主要攻擊方式及目標,研究具有代表性的經典對抗樣本生成方法。描述對抗樣本的檢測與防御方法,并闡述對抗樣本在不同領域的應用實例。通過對對抗樣本攻擊與防御方法的分析與總結,展望對抗攻擊與防御領域未來的研究方向。
近年來,深度傳感器和三維激光掃描儀的普及推動了三維點云處理方法的快速發展。點云語義分割作為理解三維場景的關鍵步驟,受到了研究者的廣泛關注。隨著深度學習的迅速發展并廣泛應用到三維語義分割領域,點云語義分割效果得到了顯著提升。主要對基于深度學習的點云語義分割方法和研究現狀進行了詳細的綜述。將基于深度學習的點云語義分割方法分為間接語義分割方法和直接語義分割方法,根據各方法的研究內容進一步細分,對每類方法中代表性算法進行分析介紹,總結每類方法的基本思想和優缺點,并系統地闡述了深度學習對語義分割領域的貢獻。然后,歸納了當前主流的公共數據集和遙感數據集,并在此基礎上對比主流點云語義分割方法的實驗結果。最后,對語義分割技術未來的發展方向進行了展望。
近年來,隨著計算機視覺、人工智能以及遙感測繪 的發展,SLAM(simultaneous localization and mapping) 技術、Kinect 技術以及激光掃描等技術日漸成熟,點 云的數據量迅速增長,針對描述點云數據空間信息 的高層語義理解也越來越受到關注。語義分割作為 點云數據處理與分析的基礎技術,成為自動駕駛、導 航定位、智慧城市、醫學影像分割等領域的研究熱 點,具有廣泛的應用前景。語義分割是一種典型的 計算機視覺問題,也稱為場景標簽,是指將一些原始 數據(例如:二維(two-dimensional,2D)圖像、三維(threedimensional,3D)點云)作為輸入并通過一系列技術 操作轉換為具有突出顯示的感興趣區域的掩模。
點云語義分割是把點云分為若干個特定的、具 有獨特性質的區域并識別出點云內容的技術。由于 初期三維數據模型庫可用數據量較少以及深度網絡 由二維轉到三維的復雜性,傳統的點云語義分割方 法大多是通過提取三維形狀幾何屬性的空間分布或 者直方圖統計等方法得到手工提取特征,構建相應 的判別模型(例如:支持向量機(support vector machine, SVM)[1]、隨機森林(random forest,RF)[2]、條件隨機場 (conditional random field,CRF)[3]、馬爾可夫隨機場 (Markov random field,MRF)[4]等)實現分割。由于手 工提取的特征主要依靠設計者的先驗知識以及手工 調動參數,限制了大數據的使用。伴隨著大型三維 模型數據的出現和 GPU 計算能力的不斷迭代更新, 深度學習在點云語義分割領域逐漸占據了絕對主導 地位。深度學習模型的核心思想是采用數據驅動的 方式,通過多層非線性運算單元,將低層運算單元的 輸出作為高層運算單元的輸入,從原始數據中提取 由一般到抽象的特征。初期,研究者們借鑒二維圖 像語義分割模型的經驗,對輸入點云形狀進行規范 化,將不規則的點云或者網格數據轉換為常規的 3D 體素網格或者多視圖,將它們提供給深層的網絡體 系結構。然而,丟失幾何結構信息和數據稀疏性等。問題限制了多視圖方法和體素化方法的發展。于 是,研究者開始從三維數據源頭著手,斯坦福大學 Qi 等人[5]提出的 PointNet 網絡模型,直接從點云數據中 提取特征信息,在沒有向體素轉換的情況下,體系結 構保留原始點內的固有信息以預測點級語義。隨 后,直接處理點云的網絡模型方法逐漸發展起來。
目前已有一些綜述性論文[6-9]對基于深度學習的 點云語義分割研究進行了總結和分析。文獻[6]是基 于深度學習和遙感數據背景下進行的分類研究進展 綜述;文獻[7]從遙感和計算機視覺的角度概述了三 維點云數據的獲取和演化,對傳統的和先進的點云 語義分割技術進行了比較和總結;文獻[8]詳細介紹 了一些較為突出的點云分割算法及常見數據集;文 獻[9]所做的綜述工作涵蓋了不同的應用,包括點云 數據的形狀分類、目標檢測和跟蹤以及語義和實例 分割,涉及的方面較為廣泛。本文對前人工作進行 了完善,在算法內容上,本文添加了最近提出的新方 法,總結了 50多種三維語義分割算法,根據三維點云 數據處理方式,將它們分為兩類:間接語義分割方法 和直接語義分割方法。數據集內容上,本文在新增 最新公共數據集的同時,增加了常用的三維遙感數 據集。未來研究方向上,本文在基于深度學習的語 義分割技術評述基礎上,對語義分割領域未來研究 方向進行了展望并給出各類技術的參考性價值。
目標檢測的任務是從圖像中精確且高效地識別、定位出大量預定義類別的物體實例。隨著深度學習的廣泛應用,目標檢測的精確度和效率都得到了較大提升,但基于深度學習的目標檢測仍面臨改進與優化主流目標檢測算法的性能、提高小目標物體檢測精度、實現多類別物體檢測、輕量化檢測模型等關鍵技術的挑戰。針對上述挑戰,本文在廣泛文獻調研的基礎上,從雙階段、單階段目標檢測算法的改進與結合的角度分析了改進與優化主流目標檢測算法的方法,從骨干網絡、增加視覺感受野、特征融合、級聯卷積神經網絡和模型的訓練方式的角度分析了提升小目標檢測精度的方法,從訓練方式和網絡結構的角度分析了用于多類別物體檢測的方法,從網絡結構的角度分析了用于輕量化檢測模型的方法。此外,對目標檢測的通用數據集進行了詳細介紹,從4個方面對該領域代表性算法的性能表現進行了對比分析,對目標檢測中待解決的問題與未來研究方向做出預測和展望。目標檢測研究是計算機視覺和模式識別中備受青睞的熱點,仍然有更多高精度和高效的算法相繼提出,未來將朝著更多的研究方向發展。