圖像分類是計算機視覺中的一項重要任務,傳統的圖像分類方法具有一定的局限性。隨著人工智能技術的發展,深度學習技術越來越成熟,利用深度卷積神經網絡對圖像進行分類成為研究熱點,圖像分類的深度卷積神經網絡結構越來越多樣,其性能遠遠好于傳統的圖像分類方法。本文立足于圖像分類的深度卷積神經網絡模型結構,根據模型發展和模型優化的歷程,將深度卷積神經網絡分為經典深度卷積神經網絡模型、注意力機制深度卷積神經網絡模型、輕量級深度卷積神經網絡模型和神經網絡架構搜索模型等4類,并對各類深度卷積神經網絡模型結構的構造方法和特點進行了全面綜述,對各類分類模型的性能進行了對比與分析。雖然深度卷積神經網絡模型的結構設計越來越精妙,模型優化的方法越來越強大,圖像分類準確率在不斷刷新的同時,模型的參數量也在逐漸降低,訓練和推理速度不斷加快。然而深度卷積神經網絡模型仍有一定的局限性,本文給出了存在的問題和未來可能的研究方向,即深度卷積神經網絡模型主要以有監督學習方式進行圖像分類,受到數據集質量和規模的限制,無監督式學習和半監督學習方式的深度卷積神經網絡模型將是未來的重點研究方向之一;深度卷積神經網絡模型的速度和資源消耗仍不盡人意,應用于移動式設備具有一定的挑戰性;模型的優化方法以及衡量模型優劣的度量方法有待深入研究;人工設計深度卷積神經網絡結構耗時耗力,神經架構搜索方法將是未來深度卷積神經網絡模型設計的發展方向。
//www.cjig.cn/jig/ch/reader/view_abstract.aspx?file_no=20211001&flag=1
摘要:
為了在計算機視覺應用中學習得到更好的圖像和視頻特征,通常需要大規模的標記數據來訓練深度神經網絡。為了避免收集和標注大量的數據所需的巨大開銷,作為無監督學習方法的一個子方法——自監督學習方法,可以在不使用任何人類標注的標簽的情況下,從大規模無標記數據中學習圖像和視頻的一般性特征。本文對基于深度學習的自監督一般性視覺特征學習方法做了綜述。首先,描述了該領域的動機和一些專業性術語。在此基礎上,總結了常用的用于自監督學習的深度神經網絡體系結構。接下來,回顧了自監督學習方法的模式和評價指標,并介紹了常用的圖像和視頻數據集以及現有的自監督視覺特征學習方法。最后,總結和討論了基于標準數據集的性能比較方法在圖像和視頻特征學習中的應用。
//ieeexplore.ieee.org/document/9086055
引言
由于深度神經網絡具有學習不同層次一般視覺特征的強大能力,它已被作為基本結構應用于許多計算機視覺應用,如目標檢測[1]、[2]、[3]、語義分割[4]、[5]、[6]、圖像描述[7]等。從像ImageNet這樣的大規模圖像數據集訓練出來的模型被廣泛地用作預訓練模型和用于其他任務的微調模型,主要有兩個原因:(2)在大規模數據集上訓練的網絡已經學習了層次特征,有助于減少在訓練其他任務時的過擬合問題;特別是當其他任務的數據集很小或者訓練標簽很少的時候。
深度卷積神經網絡(ConvNets)的性能在很大程度上取決于其能力和訓練數據量。為了增加網絡模型的容量,人們開發了不同類型的網絡架構,收集的數據集也越來越大。各種網絡,包括AlexNet [9], VGG [10], GoogLeNet [11], ResNet [12], DenseNet[13]和大規模數據集,如ImageNet [14], OpenImage[15]已經被提出訓練非常深的ConvNets。通過復雜的架構和大規模的數據集,ConvNets的性能在許多計算機視覺任務[1],[4],[7],[16],[17],[18]方面不斷突破先進水平。
然而,大規模數據集的收集和標注是費時和昂貴的。ImageNet[14]是pre-training very deep 2D convolutional neural networks (2DConvNets)中應用最廣泛的數據集之一,包含約130萬張已標記的圖像,覆蓋1000個類,而每一幅圖像由人工使用一個類標簽進行標記。與圖像數據集相比,視頻數據集由于時間維度的原因,其采集和標注成本較高。Kinetics數據集[19]主要用于訓練ConvNets進行視頻人體動作識別,該數據集由50萬個視頻組成,共600個類別,每個視頻時長約10秒。許多Amazon Turk工作人員花了大量時間來收集和注釋如此大規模的數據集。
為了避免費時和昂貴的數據標注,提出了許多自監督方法來學習大規模無標記圖像或視頻的視覺特征,而不需要任何人工標注。一種流行的解決方案是提出各種各樣的前置任務讓網絡來解決,通過學習前置任務的目標函數來訓練網絡,通過這個過程來學習特征。人們提出了各種各樣的自監督學習任務,包括灰度圖像著色[20]、圖像填充[21]、玩圖像拼圖[22]等。藉口任務有兩個共同的特性:(1)圖像或視頻的視覺特征需要被ConvNets捕捉來解決前置任務;(2)監控信號是利用數據本身的結構(自我監控)產生的。
自監督學習的一般流程如圖1所示。在自監督訓練階段,為ConvNets設計預定義的前置任務,并根據數據的某些屬性自動生成前置任務的偽標簽。然后訓練卷積神經網絡學習任務的目標函數。當使用前置任務進行訓練時,ConvNet的較淺的塊集中于低級的一般特征,如角、邊和紋理,而較深的塊集中于高級任務特定的特征,如對象、場景和對象部分[23]。因此,通過藉由任務訓練的ConvNets可以學習內核來捕獲低級特征和高級特征,這對其他下游任務是有幫助的。在自監督訓練結束后,學習到的視覺特征可以作為預訓練的模型進一步轉移到下游任務中(特別是在數據相對較少的情況下),以提高性能和克服過擬合。通常,在有監督的下游任務訓練階段,僅從前幾層傳遞視覺特征。
近年來,卷積神經網絡(CNN)憑借強大的特征提取和表達能力,在圖像分析領域的諸多應用中取得了令人矚目的成就。但是,CNN性能的不斷提升幾乎完全得益于網絡模型的越來越深和越來越大,在這個情況下,部署完整的CNN往往需要巨大的內存開銷和高性能的計算單元(如GPU)支撐,而在計算資源受限的嵌入式設備以及高實時要求的移動終端上,CNN的廣泛應用存在局限性。因此,CNN迫切需要網絡輕量化。目前解決以上難題的網絡壓縮和加速途徑主要有知識蒸餾、網絡剪枝、參數量化、低秩分解、輕量化網絡設計等。首先介紹了卷積神經網絡的基本結構和發展歷程,簡述和對比了五種典型的網絡壓縮基本方法;然后重點針對知識蒸餾方法進行了詳細的梳理與總結,并在CIFAR數據集上對不同方法進行了實驗對比;其后介紹了知識蒸餾方法目前的評價體系,給出多類型方法的對比分析和評價;最后對該技術未來的拓展研究給出了初步的思考。
神經風格遷移技術主要用于對圖像、視頻等進行風格化,使其具有藝術美感,該領域極具應用價值,是人工智能的熱門研究領域之一。為推動神經風格遷移領域的研究發展,對神經風格遷移技術進行了全面概述。簡述了非真實感渲染技術和傳統的紋理遷移技術。對現有神經風格遷移模型進行了分類整理,并詳細探討了各類代表性模型的算法原理及后續改進,分析了神經風格遷移技術的應用市場。提出對風格遷移模型質量的評判應該從定性評估和定量評估兩個方面來考慮,并從各個角度討論了現階段風格遷移技術存在的問題以及未來研究方向。最后強調應提高模型的綜合能力,在保證生成質量的情況下提升生成速度以及泛化能力。
摘要: 隨著深度神經網絡和智能移動設備的快速發展,網絡結構輕量化設計逐漸成為前沿且熱門的研究方向,而輕量化的本質是在保持深度神經網絡精度的前提下優化存儲空間和提升運行速度。闡述深度學習的輕量化網絡結構設計方法,對比與分析人工設計的輕量化方法、基于神經網絡結構搜索的輕量化方法和基于自動模型壓縮的輕量化方法的創新點與優劣勢,總結與歸納上述3種主流輕量化方法中性能優異的網絡結構并分析各自的優勢和局限性。在此基礎上,指出輕量化網絡結構設計所面臨的挑戰,同時對其應用方向及未來發展趨勢進行展望。
摘要: 近年來, 基于卷積神經網絡的目標檢測研究發展十分迅速, 各種檢測模型的改進方法層出不窮. 本文主要對近幾年內目標檢測領域中一些具有借鑒價值的研究工作進行了整理歸納. 首先, 對基于卷積神經網絡的主要目標檢測框架進行了梳理和對比. 其次, 對目標檢測框架中主干網絡、頸部連接層、錨點等子模塊的設計優化方法進行歸納, 給出了各個模塊設計優化的基本原則和思路. 接著, 在COCO數據集上對各類目標檢測模型進行測試對比, 并根據測試結果分析總結了不同子模塊對模型檢測性能的影響. 最后, 對目標檢測領域未來的研究方向進行了展望.
深度神經網絡在圖像識別、語言識別和機器翻譯等人工智能任務中取得了巨大進展,很大程度上歸功于優秀的神經網絡結構設計。神經網絡大都由手工設計,需要專業的機器學習知識以及大量的試錯。為此,自動化的神經網絡結構搜索成為研究熱點。神經網絡結構搜索(neural architecture search,NAS)主要由搜索空間、搜索策略與性能評估方法3部分組成。在搜索空間設計上,出于計算量的考慮,通常不會搜索整個網絡結構,而是先將網絡分成幾塊,然后搜索塊中的結構。根據實際情況的不同,可以共享不同塊中的結構,也可以對每個塊單獨搜索不同的結構。在搜索策略上,主流的優化方法包含強化學習、進化算法、貝葉斯優化和基于梯度的優化等。在性能評估上,為了節省計算時間,通常不會將每一個網絡都充分訓練到收斂,而是通過權值共享、早停等方法盡可能減小單個網絡的訓練時間。與手工設計的網絡相比,神經網絡結構搜索得到的深度神經網絡具有更好的性能。在ImageNet分類任務上,與手工設計的MobileNetV2相比,通過神經網絡結構搜索得到的MobileNetV3減少了近30%的計算量,并且top-1分類精度提升了3.2%;在Cityscapes語義分割任務上,與手工設計的DeepLabv3+相比,通過神經網絡結構搜索得到的Auto-DeepLab-L可以在沒有ImageNet預訓練的情況下,達到比DeepLabv3+更高的平均交并比(mean intersection over union,mIOU),同時減小一半以上的計算量。神經網絡結構搜索得到的深度神經網絡通常比手工設計的神經網絡有著更好的表現,是未來神經網絡設計的發展趨勢。
//www.cjig.cn/jig/ch/reader/view_abstract.aspx?file_no=20210202&flag=1
在計算機視覺領域中,語義分割是場景解析和行為識別的關鍵任務,基于深度卷積神經網絡的圖像語義分割方法已經取得突破性進展。語義分割的任務是對圖像中的每一個像素分配所屬的類別標簽,屬于像素級的圖像理解。目標檢測僅定位目標的邊界框,而語義分割需要分割出圖像中的目標。本文首先分析和描述了語義分割領域存在的困難和挑戰,介紹了語義分割算法性能評價的常用數據集和客觀評測指標。然后,歸納和總結了現階段主流的基于深度卷積神經網絡的圖像語義分割方法的國內外研究現狀,依據網絡訓練是否需要像素級的標注圖像,將現有方法分為基于監督學習的語義分割和基于弱監督學習的語義分割兩類,詳細闡述并分析這兩類方法各自的優勢和不足。本文在PASCAL VOC(pattern analysis, statistical modelling and computational learning visual object classes)2012數據集上比較了部分監督學習和弱監督學習的語義分割模型,并給出了監督學習模型和弱監督學習模型中的最優方法,以及對應的MIoU(mean intersection-over-union)。最后,指出了圖像語義分割領域未來可能的熱點方向。
//www.cjig.cn/jig/ch/reader/view_abstract.aspx?file_no=20200601&flag=1
通過學習可觀測數據的概率密度而隨機生成樣本的生成模型在近年來受到人們的廣泛關注, 網絡結構中包含多個隱藏層的深度生成式模型以更出色的生成能力成為研究熱點, 深度生成模型在計算機視覺、密度估計、自然語言和語音識別、半監督學習等領域得到成功應用, 并給無監督學習提供了良好的范式. 本文根據深度生成模型處理似然函數的不同方法將模型分為三類: 第一類方法是近似方法, 包括采用抽樣方法近似計算似然函數的受限玻爾茲曼機和以受限玻爾茲曼機為基礎模塊的深度置信網絡、深度玻爾茲曼機和亥姆霍茲機, 與之對應的另一種模型是直接優化似然函數變分下界的變分自編碼器以及其重要的改進模型, 包括重要性加權自編碼和可用于半監督學習的深度輔助深度模型; 第二類方法是避開求極大似然過程的隱式方法, 其代表模型是通過生成器和判別器之間的對抗行為來優化模型參數從而巧妙避開求解似然函數的生成對抗網絡以及重要的改進模型, 包括WGAN、深度卷積生成對抗網絡和當前最頂級的深度生成模型BigGAN; 第三類方法是對似然函數進行適當變形的流模型和自回歸模型, 流模型利用可逆函數構造似然函數后直接優化模型參數, 包括以NICE為基礎的常規流模型、變分流模型和可逆殘差網絡(i-ResNet), 自回歸模型(NADE)將目標函數分解為條件概率乘積的形式, 包括神經自回歸密度估計(NADE)、像素循環神經網絡(PixelRNN)、掩碼自編碼器(MADE)以及WaveNet等. 詳細描述上述模型的原理和結構以及模型變形后, 闡述各個模型的研究進展和應用, 最后對深度生成式模型進行展望和總結.
//www.aas.net.cn/cn/article/doi/10.16383/j.aas.c190866
受益于當前計算機性能的快速提升, 學習可觀測樣本的概率密度并隨機生成新樣本的生成模型成為熱點. 相比于需要學習條件概率分布的判別模型, 生成模型的訓練難度大、模型結構復雜, 但除了能夠生成新樣本外, 生成模型在圖像重構、缺失數據填充、密度估計、風格遷移和半監督學習等應用領域也獲得了巨大的成功. 當前可觀測樣本的數量和維數都大幅度增加, 淺層的生成模型受到性能瓶頸的限制而無法滿足應用需求, 從而被含有多個隱藏層的深度生成模型替代, 深度生成模型能夠學習到更好的隱表示, 模型性能更好. 本文對有重要意義的深度生成模型進行全面的分析和討論, 對各大類模型的結構和基本原理進行梳理和分類. 本文第1節介紹深度生成模型的概念和分類; 第2節介紹受限玻爾茲曼機和以受限玻爾茲曼機為基礎模塊的幾種深度生成模型, 重點內容是各種模型的不同訓練算法; 第3節介紹變分自編碼器的基本結構、變分下界的推理和重參數化方法; 第4節介紹生成對抗網絡, 主要內容為模型原理、訓練方法和穩定性研究, 以及兩種重要的模型結構; 第5節總結了流模型的結構, 詳細介紹了流模型的技術特點; 第6節分析了自回歸模型的模型結構以及幾種重要分支的研究進展; 第7節將介紹生成模型中的兩個小分支: 矩陣匹配模型和隨機生成模型; 第8節對深度生成模型存在的問題進行分析討論, 并對未來的研究方向和發展趨勢做出了展望.
近年來,隨著深度學習的飛速發展,深度神經網絡受到了越來越多的關注,在許多應用領域取得了顯著效果。通常,在較高的計算量下,深度神經網絡的學習能力隨著網絡層深度的增加而不斷提高,因此深度神經網絡在大型數據集上的表現非常卓越。然而,由于其計算量大、存儲成本高、模型復雜等特性,使得深度學習無法有效地應用于輕量級移動便攜設備。因此,壓縮、優化深度學習模型成為目前研究的熱點,當前主要的模型壓縮方法有模型裁剪、輕量級網絡設計、知識蒸餾、量化、體系結構搜索等。通過對以上方法的性能、優缺點和最新研究成果進行分析總結,對未來研究方向進行了展望。
摘要: 近年來, 卷積神經網絡(Convolutional neural network, CNNs)在計算機視覺、自然語言處理、語音識別等領域取得了突飛猛進的發展, 其強大的特征學習能力引起了國內外專家學者廣泛關注.然而, 由于深度卷積神經網絡普遍規模龐大、計算度復雜, 限制了其在實時要求高和資源受限環境下的應用.對卷積神經網絡的結構進行優化以壓縮并加速現有網絡有助于深度學習在更大范圍的推廣應用, 目前已成為深度學習社區的一個研究熱點.本文整理了卷積神經網絡結構優化技術的發展歷史、研究現狀以及典型方法, 將這些工作歸納為網絡剪枝與稀疏化、張量分解、知識遷移和精細模塊設計4個方面并進行了較為全面的探討.最后, 本文對當前研究的熱點與難點作了分析和總結, 并對網絡結構優化領域未來的發展方向和應用前景進行了展望.