国产欧美日韩综合在线,中文字幕每日在线资源站,亚洲国产成人精品无码区宅男

深度學習有潛力革新體育表現，其應用范圍從感知和理解到決策。本文提供了深度學習在體育表現方面的全面調研，主要關注三個方面：算法、數據集和虛擬環境，以及挑戰。首先，我們討論了體育表現中深度學習算法的層級結構，包括感知、理解和決策，同時比較了它們的優勢和劣勢。其次，我們列舉了體育中廣泛使用的現有數據集，并強調了它們的特性和局限性。最后，我們總結了當前的挑戰，并指出了體育中深度學習的未來趨勢。我們的調研為對體育應用中的深度學習感興趣的研究者提供了寶貴的參考資料。

人工智能（AI）在體育世界中找到了廣泛的應用，并在未來大有前景。它不斷增長的參與定將以無數的方式革新這個行業，使效率和精確性達到新的高度。AI在體育中的一個重要應用是使用深度學習技術。具體來說，這些先進的算法被用于運動員表現分析、傷病預測、比賽策略制定等領域[1]。通過捕獲和處理大量的數據，深度學習模型可以預測結果，發現模式，并制定可能并不明顯的策略。深度學習與體育產業[2]，[3]的無縫整合展示了科技如何提升我們優化體育表現和決策的能力。雖然預測和優化運動員的表現有許多優點，但這仍然是一個復雜的問題。傳統上，體育專家如教練、經理、偵查員和體育健康專業人員都依賴于常規的分析方法來應對這些挑戰。然而，收集統計數據和手動分析決策是一項要求高且耗時的工作[4]。因此，由機器學習驅動的自動化系統顯然是一個有前景的解決方案，它可以通過自動化處理大規模數據來革新體育產業。

近年來，探討機器學習和深度學習在體育表現中的應用的全面調研數量明顯增加。這些調研涵蓋了廣泛的主題，包括識別特定的體育運動[5]、挖掘體育數據[6]，以及在團隊體育中使用AI技術[7]。雖然有些調研關注特定的體育項目，如足球[7]和羽毛球[8]，但其他的則集中在計算機視覺的特定任務上，如視頻動作識別[9]、視頻動作質量評估[10]和球體追蹤[11]。此外，還有一些研究探索了可穿戴技術[12]，[13]和運動捕捉系統[14]在體育中的使用，尤其強調物聯網（IoT）。之前的研究[15]，[16]使用了分層方法來分析體育表現，從較低級別的方面開始，逐步提升到更高級別的組件，同時也提供了訓練建議。為了理解深度學習在體育中的應用，我們將其分為三個層次：感知、理解和決策。此外，我們根據特定的體育學科對不同的數據集進行了分類，并概述了與深度學習方法和數據集相關的主要挑戰。此外，我們還強調了基于現有工作的深度學習未來發展方向，這些工作是建立在基礎模型上的。

這篇關于深度學習在體育表現中的全面調研的貢獻可以總結為三個關鍵方面。

? 我們提出了一個系統地將深度學習任務劃分為三類的層級結構：感知、理解和決策，覆蓋了從低級到高級的任務。 ? 我們提供了體育數據集和虛擬環境的概述。同時，本文涵蓋了數十種體育場景，處理了視覺信息和物聯網傳感器數據。 ? 我們總結了當前的挑戰和未來在各種體育領域中深度學習可行的研究方向。本文的組織結構如下：第二、三、四部分介紹了體育中的感知、理解和決策任務的不同方法。第五、六部分討論了與體育相關的數據集和虛擬環境。在第七、八部分，我們強調了體育中深度學習的當前挑戰和未來趨勢。最后，我們在第九部分結束了本文。

2. 感知

感知涉及到獲取數據的基本解讀。本節將展示針對感知層級特定體育任務定制的不同深度學習方法，如圖3所示。接下來的感知部分將包括諸如運動員追蹤、運動員姿態識別、運動員實例分割、球的定位、相機校準等任務。

III. 理解

理解可以定義為理解和分析數據的過程。相比于第二部分討論的感知階段，它涉及到更高級別的任務。為了全面理解體育，實現過程可以使用原始數據，并直接或間接地整合來自感知層的任務。也就是說，它可以利用從感知網絡得到的輸出，如人體骨骼，深度圖像等。

IV. 決策

體育中的決策或決策制定過程涉及到最高級別的任務，在產生更抽象的決策之前，部署或隱含的體育感知和理解是至關重要的。本節包括了各種任務，如比賽評估，比賽預測，比賽模擬，運動員動作生成，比賽生成等，如圖5所示。

在這篇論文中，我們對體育中的深度學習進行了全面的調研，主要關注四個方面：算法、數據集、挑戰和未來的工作。我們創新性地總結了分類，并將方法從低級到高級任務劃分為感知、理解和決策。在挑戰和未來的工作中，我們提供了前沿的方法，并對體育中深度學習的未來趨勢和挑戰提供了深入的見解。

付費5元查看完整內容

摘要

近年來，深度學習在計算機視覺各個領域中的應用成效顯著，新的深度學習方法和深度神經網絡模型不斷涌現，算法性能被不斷刷新。本文著眼于2016年以來的一些典型網絡和模型，對基于深度學習的計算機視覺研究新進展進行綜述。首先總結了針對圖像分類的主流深度神經網絡模型，包括標準模型及輕量化模型等；然后總結了針對不同計算機視覺領域的主流方法和模型，包括目標檢測、圖像分割和圖像超分辨率等；最后總結了深度神經網絡搜索方法。

關鍵詞

深度學習; 目標檢測; 圖像分割; 超分辨率; 計算機視覺

引言

近20年來，隨著深度學習技術的迅猛發展和圖形處理器（Graphics processing unit， GPU）等硬件計算設備的廣泛普及，深度學習技術幾乎已經應用到計算機視覺的各個領域，如目標檢測、圖像分割、超分辨率重建及人臉識別等，并在圖像搜索、自動駕駛、用戶行為分析、文字識別、虛擬現實和激光雷達等產品中具有不可估量的商業價值和廣闊的應用前景［1］。基于深度學習技術的計算機視覺同時可以對其他學科領域產生深遠的影響，如在計算機圖形學中的動畫仿真和實時渲染技術、材料領域的顯微圖像分析技術、醫學圖像分析處理技術、實時評估師生課堂表現和考場行為的智慧教育、分析運動員比賽表現和技術統計的智能系統等。

深度學習早在1986年就被Dechter［2］引入機器學習領域，2000年Aizenberg等［3］又在機器學習領域引入了人工神經網絡（Artificial neural network，ANN）［4］。深度學習方法由多層組成，用于學習多層次抽象的數據特征［5］。在人工神經網絡領域中，深度學習又被稱為分層學習［6］，是一種通過在不同計算階段精確地分配分數來調節網絡激活的技術［4］。深度學習常常用多種抽象結構來學習復雜的映射關系，如2009年蒙特利爾大學的Bengio教授提出的帶隱藏層的ANN［7］等。深度學習技術可以被視作一種表征學習，是機器學習的一個分支。

2005年多倫多大學的Hinton教授團隊試圖用圖模型模擬人類的大腦［8］，在文獻［9］中提出了一種逐層貪婪算法來預訓練深度信念網，克服了深度網絡難以訓練的弊端，并用自編碼器降低數據維度［10］，開啟了深度學習的熱潮，使其被廣泛應用在語音識別、計算機視覺和自然語言處理等領域。2011—2012年，深度學習技術在語音識別領域中最先取得重大突破，Dahl團隊［11］和Hinton團隊［12］先后將識別錯誤率降至20%~30%。在2012年的ImageNet大規模視覺識別挑戰競賽（ImageNet large scale visual recognition challenge，ILSVRC）中，Hinton的學生提出的AlexNet［13］以超過第二名準確率10%的巨大優勢奪得冠軍，深度學習正式進入了爆發期。近年來各大互聯網科技公司，如Google、Microsoft、Facebook、百度、阿里巴巴和騰訊等也爭相投入大規模深度學習系統的研發中。

筆者在2016年發表“深度卷積神經網絡在計算機視覺中的應用研究綜述”［1］，總結了2016年之前深度卷積神經網絡在計算機視覺中的研究成果。本文在文獻［1］的基礎上，重點綜述2016年以后基于深度學習的計算機視覺研究新進展。但為了表述的完整和邏輯的嚴謹，本文與文獻［1］內容有少量重合。

1 通用深度神經網絡模型

本文將解決圖像分類任務的神經網絡模型稱為通用網絡，這類模型通常是解決其他視覺任務的基礎模型。1989年AT&T貝爾實驗室的研究員LeCun通過反向傳播算法成功地訓練了卷積神經網絡［14］，這項工作代表了20世紀80年代神經網絡的研究成果。1998年LeCun等基于前人的工作提出了LeNet［15］，由2個卷積層和3個全連接層組成，因此也被稱為LeNet?5，其結構如圖1所示。但LeNet?5的復雜度遠遠無法和今天的深度網絡模型相比，性能也相差懸殊，但在當時取得了和支持向量機相媲美的效果，并被廣泛應用于識別手寫數字，受到了廣泛的關注。

圖1 LeNet-5結構示意圖[15]

Fig.1 Structure of LeNet-5[15]

在LeNet提出后，很長一段時間卷積神經網絡并不是計算機視覺領域的主流方法，因為LeNet只在小數據集上表現良好，在規模更大、更真實的數據集上表現一般。由于當時未普及高性能的神經網絡加速硬件設備，卷積神經網絡訓練的時間成本和空間開銷太大。因此在2012年AlexNet［13］提出之前，大多數研究者都采用SIFT［16］、HOG［17］和SURF［18］等手工方法提取特征，并花費大量的精力進行數據整理。

2007年，普林斯頓大學李飛飛團隊基于WordNet的層級結構開始搭建ImageNet數據集［19］，通過網絡抓取、人力標注和眾包平臺等各種方式，最終在2009年公開。如今ImageNet數據集包含超過14 000 000張帶標簽的高清圖像、超過22 000個類別。從2010年開始舉辦的ILSVRC圖像分類比賽成為計算機視覺領域的重要賽事，用于評估圖像分類算法的準確率。ILSVRC比賽數據集是ImageNet的一個子集，包含1 000類、數百萬張圖片。來自NEC實驗室的林元慶帶領NEC?UIUC團隊以28.2%的top?5錯誤率贏得了2010年ILSVRC冠軍。2010和2011這兩年的冠軍方案主要采用HOG［17］、LBP［20?21］等算法手動提取特征再輸入到特征向量機進行分類。

2012年的冠軍AlexNet［13］首次將深度學習技術應用到大規模圖像分類領域，證明了深度學習技術學習到的特征可以超越手工設計的特征，開啟了計算機視覺領域中的深度學習熱潮。AlexNet和LeNet結構理念相似，采用5層卷積層和3層全連接層，激活函數用ReLU取代了sigmoid，用dropout方法取代了權重衰減緩解過擬合，結構如圖2所示。AlexNet取得了17.0%的top?5錯誤率。

圖2 AlexNet結構示意圖[13] Fig.2 Structure of AlexNet[13]

2014年的冠軍團隊提出的ZFNet［22］通過反卷積可視化CNN學習到的特征，取得了11.7%的錯誤率。2015年的冠軍團隊Szegedy等提出的GoogLeNet［23］將錯誤率降到了6.7%。GoogLeNet提出了一種Inception模塊，如圖3所示。這種結構基于網絡中的網絡（Network in network，NiN）的思想［24］，有4條分支，通過不同尺寸的卷積層和最大池化層并行提取信息，1×11×1卷積層可以顯著減少參數量，降低模型復雜度。GoogLeNet一共使用9個Inception模塊，和全局平均池化層、卷積層及全連接層串聯。Szegedy提出很多改進的Inception版本，陸續使用了Batch Normalization［25］、Label Smoothing［26］和殘差連接［27］等方法。

圖3 Inception模塊示意圖[23] Fig.3 Inception block[23]

2015年的ILSVRC亞軍是由牛津大學視覺幾何團隊提出的VGGNet［28］。VGGNet重復使用了3××3的卷積核和2××2的池化層，將深度網絡加深到16~19層，如圖4所示。

圖4 VGG模塊和VGG結構示意圖 Fig.4 Block and structure of VGG

2016年，微軟亞洲研究院He等提出的ResNet［29］奪得了ILSVRC冠軍，將top?5錯誤率降至3.6%。ResNet最深可達152層，以絕對優勢獲得了目標檢測、分類和定位3個賽道的冠軍。該研究提出了殘差模塊的跳接結構，網絡學習殘差映射f(x)?xfx-x，每1個殘差模塊里有2個相同輸出通道的3××3卷積層，每個卷積層后接1個BN（Batch normalization）層和ReLU激活函數。跳接結構可以使數據更快地向前傳播，保證網絡沿著正確的方向深化，準確率可以不斷提高。ResNet的思想產生了深遠的影響，是深度學習領域的一個重要進步，奠定了訓練更深的深度網絡的基礎，其結構如圖5所示。

圖5 殘差模塊 Fig.5 Residual block

2017年提出的DenseNet［30］和ResNeXt［31］都是受ResNet［29］的啟發。DenseNet的目標不僅僅是學習殘差映射，而且是學習類似泰勒展開的更高階的項。因此DenseNet的跳接結構沒有用加法，而是用了聯結，如圖6所示。

圖6 ResNet和DenseNet結構比較 Fig.6 Structures of ResNet and DenseNet

ResNeXt［31］則是結合了ResNet［29］和Inception v4［27］，采用GoogLeNet分組卷積的思想，在簡化的Inception結構中加入殘差連接，并通過一個超參數“基數”調整ResNeXt模塊中分支的數量。這種簡化的Inception結構不需要人工設計每個分支，而是全部采用相同的拓撲結構，結構如圖7所示。ResNeXt在2016年ILSVRC的分類任務上獲得了亞軍。

圖7 ResNet殘差模塊和基數為32的ResNeXt模塊[31] Fig.7 ResNet block and ResNeXt block with cardinality of 32[31]

和ResNeXt同年提出的Xception［32］也是一種基于Inception分組卷積思想的模型。分組卷積的核心思想是將通道拆分成不同大小感受野的子通道，不僅可以提取多尺寸的特征，還可以減少參數量，降低模型復雜度。Xception模塊可以視為一種極端情況的Inception模塊，它的輸入先經過一個1××1的卷積層后進入多個完全相同的3××3卷積層分支，如圖8所示。

圖8 經典及簡化的Inception模塊和Xception模塊[32] Fig.8 Classical and simplified Inception blocks and Xception block[32]

ImageNet數據規模大，圖像類別多，因此在ImageNet上訓練的模型泛化能力較好。如今很多模型都是在ImageNet上預訓練后進行微調，有些模型微調后準確率可以超過只在目標訓練集上訓練模型的20%。受ImageNet自由開放思想的影響，很多科技巨頭也陸續開放了自己的大規模數據集：2018年谷歌發布了Open Image數據集［33］，包含了被分為6 000多類的900萬張帶有目標位置信息的圖片；JFT?300M數據集［34］包含300萬張非精確標注的圖像；DeepMind也公開了Kinetics數據集［35?36］，包含650 000張人體動作的視頻截圖。這些大規模數據集增強了深度學習模型的泛化能力，為全世界深度學習工作者和數據科學家提供了數據支持，保障了深度學習領域的蓬勃發展。

生成模型可以學習數據中隱含的特征并對數據分布進行建模，它的應用非常廣泛，可以對圖像、文本、語音等不同數據建模真實的分布，然后基于這一分布通過采樣生成新的數據。在深度學習之前就已經有許多生成模型被提出，但由于生成模型往往難以建模，因此科研人員遇到了許多挑戰。變分自編碼器（Variational autoencoder， VAE）［37］是一種當前主流的基于深度學習技術的生成模型，它是對標準自編碼器的一種變形。自編碼器將真實樣本的高級特征通過編碼器映射到低級特征，被稱為隱向量（或潛向量），然后又通過解碼器生成相同樣本的高級特征。標準自編碼器和變分自編碼器的區別在于對隱向量的約束不同。標準自編碼器關注重構損失，即

L(X,X')=∥X?X'∥22?X,X'=X-X'22 （1）式中：XX和X'X'分別為輸入圖像和重構圖像。變分自編碼器則強迫隱變量服從單位高斯分布，優化如下損失函數

L(X)=Ez~q[lg P(X|z)]?KL(q(z|X)||p(z))?X=Ez~q[lg P(X|z)]-KL(q(z|X)||p(z)) （2）式中：EE表示期望；z為隱變量；q(z|X)q(z|X)表示隱變量的建議分布，即編碼器輸出的隱變量的分布；p(z)p(z)表示標準高斯分布；P(X|z)P(X|z)表示解碼器分布；KLKL表示KL散度。式（2）等號右邊第1項表示重構圖片的精確度，用均方誤差度量；第2項表示圖片的潛變量分布和單位高斯分布之間的差異，用KL散度來度量。為了優化KL散度，變分自編碼器生成1個均值向量和1個標準差向量用于參數重構。此時在隱向量分布中采樣就可以生成新的圖片。自編碼器和變分自編碼器示意圖如圖9、10所示。

圖9 自編碼器示意圖Fig.9 Autoencoder

圖10 變分自編碼器示意圖 Fig.10 Variational autoencoder

生成對抗網絡（Generative adversarial net， GAN）［38］是另一種十分常見的基于深度學習技術的生成模型，它包括2個同時進行的組件：生成器和判別器，其結構如圖11所示。生成器從隱向量生成圖像，判別器對真偽圖像進行分類，二者相互對抗，互相促進。

圖11 生成對抗網絡示意圖 Fig.11 Generative adversarial net

變分自編碼器和生成對抗網絡近年來有了顯著的發展［39］。在計算機視覺領域中，變分自編碼器和生成對抗網絡已經被廣泛應用于圖像翻譯、超分辨率、目標檢測、視頻生成和圖像分割等領域，具有廣闊的研究價值和應用前景。

2 輕量化網絡

隨著網絡層數的加深，各種深度網絡模型的性能變得越來越好，隨之而來的問題是模型巨大的參數量和緩慢的推理速度，因此輕量化網絡的需求變得愈加強烈。輕量化網絡的設計核心是在盡可能保證模型精度的前提下，降低模型的計算復雜度和空間復雜度，從而使得深度神經網絡可以被部署在計算性能和存儲空間有限的嵌入式邊緣設備上，實現從學術界到工業界的躍遷。在分布式訓練中，小模型使得服務器之間通信產生的帶寬負擔也相對較小。目前學術界和工業界設計輕量化的深度網絡模型主要有4種方法：人工設計的輕量化神經網絡、基于神經網絡架構搜索（Neural architecture search，NAS）的自動設計神經網絡技術、卷積神經網絡壓縮和基于AutoML的自動模型壓縮。

2016年由伯克利和斯坦福的研究者提出的SqueezeNet［40］是最早進行深度模型輕量化的工作之一，其結構如圖12所示。SqueezeNet提出了一種Fire模塊用來減少參數量，其結構如圖13所示。它分成Squeeze和Expand兩部分：Squeeze層只由數個1××1卷積層構成；Expand層則包含數個1××1和3××3卷積層。Fire模塊和Inception模塊的結構很相近，二者都使用了1××1和3××3組合的拓撲結構，在使用了不同尺寸的卷積層后進行連結。在網絡結構上，SqueezeNet借鑒了VGG堆疊的形式，在2層卷積層和池化層中間堆疊了8個Fire模塊。最終SqueezeNet在ImageNet上實現了AlexNet級別的精確度，參數減少到原來的1/501/50。通過使用Deep Compression模型壓縮技術，SqueezeNet的參數量僅有50萬個，約為AlexNet的1/5001/500。

圖12 SqueezeNet網絡結構示意圖[40]

Fig.12 Structure of SqueezeNet[40]

圖13 SqueezeNet的Fire 模塊[40]

Fig.13 Fire block in SqueezeNet[40]

MobileNet［41］是谷歌于2017年提出的輕量化網絡，核心是通過用深度可分離卷積代替標準的卷積。深度可分離卷積將標準卷積拆成1個深度卷積和1個逐點卷積（也就是1××1卷積），可以將計算量降低至原來的1/8~1/91/8~1/9。標準卷積和深度可分離卷積+BN+ReLU結構如圖14所示。

圖14 標準卷積+BN+ReLU網絡和深度可分離卷積+BN+ReLU網絡[41]

Fig.14 Standard convolution+BN+ReLU network and depthwise separable convolution+BN+ReLU network[41]

深度可分離卷積的結構成為了很多輕量化網絡設計的參照，這種結構的有效性自從被Xception［32］證明后成為輕量化網絡設計的主流思想。比MobileNet晚2個月由Face++團隊提出的ShuffleNet［42］基于這一思想，使用了Channel Shuffle和分組卷積。分組卷積的思想最早由AlexNet［13］提出，初衷是為了降低單張GPU的占用，將輸入通道分成相同的幾條分支然后連結，從而減少訓練參數量。之后的Inception模塊將這一思想發揚光大，ResNeXt［31］的成功也證明了分組卷積的有效性。由于分組卷積會讓信息的流通不當，ShuffleNet設計了Channel Shuffle，將各組通道均分并進行混洗，然后依次重新構成特征圖，示意圖如圖15所示。

圖15 Channel Shuffle示意圖[42]

Fig.15 Diagrammatic sketch of Channel Shuffle[42]

圖15中，Channel Shuffle后第2個組卷積GConv2的輸入信息來自各個通道，圖15（c，b）達到了一樣的效果。ShuffleNet模塊的設計借鑒了ResNet bottleneck的結構，如圖16所示。

圖16 ShuffleNet模塊[42] Fig.16 ShuffleNet block[42]

ShuffleNet模塊摒棄了Pointwise卷積，因為對于輸入維度較高的小型網絡，1××1卷積的開銷巨大。例如在ResNeXt模塊中，1××1卷積占據了93.4%的計算量。在網絡拓撲上，SqueezeNet和MobileNet都采用了VGG（Visual geometry group）的堆疊結構，而ShuffleNet采用了ResNet的跳接結構。

2018年，MobileNet和ShuffleNet又相繼提出了改進版本。MobileNet v2［43］結構如圖17所示，采用了效率更高的殘差結構，提出了一種逆殘差模塊，并將MobileNet v1模塊的最后一個ReLU6層改成線性層。ShuffleNet v2［44］用更直接的運算速度評估模型，摒棄了之前如每秒浮點運算次數（FLOPS）等間接的指標。結構上ShuffleNet v2采用了一種Channel Split操作，將輸入的特征圖分到2個分支里，最后通過連結和Channel Shuffle合并分支并輸出。ShuffleNet v1和ShuffleNet v2結構如圖18所示。

圖17 MobileNet v2模塊[43]

Fig.17 MobileNet v2 block[43]

圖18 ShuffleNet v1和ShuffleNet v2結構[44]

Fig.18 Structures of ShuffleNet v1 and ShuffleNet v2[44]

2020年華為諾亞方舟實驗室的團隊提出了GhostNet［45］，如圖19所示，可以用更少的參數量提取更多的特征圖。首先對輸入特征圖進行卷積操作，然后進行一系列簡單的線性操作生成特征圖，從而在實現了傳統卷積層效果的同時降低了參數量和計算量。該團隊認為性能較好的主流卷積神經網絡如ResNet?50通常存在大量冗余的特征圖，正是這些特征圖保證了網絡對數據深刻的理解。Ghost模塊用更小的代價模擬了傳統卷積層的效果。

圖19 卷積層和Ghost模塊[45]

Fig.19 Convolutional layer and Ghost module[45]

人工設計的輕量化網絡MobileNet系列［41，43］和ShuffleNet系列［42，44］的基本思想主要是通過分離卷積操作減少運算量，再采用殘差跳接結構和Channel Shuffle等混合通道的操作促進分支間的交流，提高信息利用率。隨著模型規模的擴大，硬件資源變得更加稀缺，在保證精度的前提下壓縮并加速模型將會是經久不衰的熱門研究方向，也是信息化時代發展的必經之路。近年來大量的關于模型壓縮和結構優化的工作不斷涌現，如網絡剪枝［46］、張量分解［47?48］和知識遷移［49］等。輕量化模型的發展有助于深度學習技術的推廣和應用，推動深度學習技術的產業化發展。

3 面向特定任務的深度網絡模型

計算機視覺任務眾多，深度學習最開始在圖像分類實現突破，當前深度學習幾乎深入到了計算機視覺的各個領域。本節將針對目標檢測、圖像分割、圖像超分辨率和神經架構搜索等其他計算機視覺任務簡要總結深度學習方法。

3.1　目標檢測

目標檢測任務作為計算機視覺的基本任務之一，包含物體的分類、定位和檢測。近年來隨著深度學習技術的發展，目標檢測算法已經從基于手工特征的HOG［17］、SIFT［16］及LBP［20?21］等傳統算法轉向了基于深度神經網絡的機器學習技術。自2014年Girshick等提出了R?CNN［50］模型以來，目標檢測就成為了計算機視覺最受人關注的領域之一。在R?CNN之后，Girshick團隊相繼提出了Fast R?CNN［51］、Faster R?CNN［52］等一系列模型，這些模型均將目標檢測問題歸結為如何提出可能包含目標的候選區域和如何對這些區域分類兩個階段，因此這類模型也被稱作兩階段模型。

受當時性能最好的圖像分類網絡，如AlexNet［13］和VGG［28］等的影響，R?CNN系列模型的網絡結構由2個子網組成：第1個子網用普通分類網絡的卷積層提取共享特征；第2個子網的全連接層進行感興趣區域（Region of interest，RoI）的預測和回歸，中間用一個RoI池化層連接。這些網絡的結構在文獻［1］中已做介紹，這里不再贅述。在ResNet［29］、GoogLeNet［23］等性能更強的分類網絡出現后，這種全卷積網絡結構也被應用到了目標檢測任務上。然而，由于卷積層并不能有針對性地保留位置信息，這種全卷積結構的檢測精度遠低于它的分類精度。R?FCN［53］提出了一種位置敏感分數圖來增強網絡對于位置信息的表達能力，提高網絡的檢測精度，其結構如圖20所示。R?FCN［53］在PASCAL VOC 2007數據集上平均精度均值（mean Average precision， mAP）達到了83.6%，單張圖片的推理速度達到170 ms。

圖20 R-FCN結構示意圖[53] Fig.20 Structure of R-FCN[53]

如何準確識別不同尺寸的物體是目標檢測任務的難點之一。圖21（a）中的方法通過對不同尺寸的圖片提取不同尺度特征來增強不同尺度特征的語義信息，但時間和計算成本太高。圖21（b）中的單一特征圖方法即為SPPnet［54］、Fast R?CNN［51］和Faster R?CNN［52］使用的方法，即在最后一層的特征圖上進行預測。盡管速度較快，但包含的語義信息很少，不能準確地預測目標的位置。圖21（c）是SSD［55］采用的多尺度融合方法，從網絡的不同層抽取不同尺度的特征分別進行預測，這種方法不需要額外的計算，但不能很好地提取小目標敏感的淺層高分辨率特征。

圖21 多尺度檢測的常見結構[56] Fig.21 Common structures of multiscale detection[56]

特征金字塔網絡（Feature Pyramid network， FPN）［56］借鑒了ResNet跳接的思想，結合了層間特征融合與多分辨率預測，其結構如圖22所示。文獻［56］將FPN用于Faster R?CNN的區域候選網絡（Region proposal network， RPN），在每層金字塔后面接一個RPN頭。由于輸入了多尺度的特征，因此不需要生成多尺度的錨框，只需要在每個尺度上設置不同的寬高比，并共享參數。以ResNet?101為骨干網絡的Faster R?CNN+FPN在COCO test?dev上[email protected]達到了59.1%，超過不用FPN的Faster R?CNN 3.4%。實驗證明對于基于區域的目標檢測器，該特征金字塔結構的特征提取效果優于單尺度的特征提取效果。

圖22 FPN結構示意圖[56] Fig.22 Structure of FPN[56]

YOLO［57］是單階段模型的代表，它沒有提出候選區域的過程，而是直接將提出候選區域和分類統一為一個邊界框回歸的問題，將整張圖片作為網絡的輸入，在輸出層對邊界框位置信息和類別進行回歸，實現了端到端的學習過程，其示意圖如圖23所示。它首先將圖片縮放并劃分為等分的網格，然后在每張圖片上運行單獨的卷積網絡，最后用非極大值抑制得到最后的預測框。損失函數被分為3部分：坐標誤差、物體誤差和類別誤差。為了平衡類別不均衡和大小物體等帶來的影響，損失函數中添加了權重并將長寬取根號。

圖23 YOLO示意圖[57] Fig.23 Pipeline of YOLO[57]

YOLO的網絡結構借鑒了GoogLeNet的結構，用24層卷積層后接2層全連接層，將Inception模塊替換為類似網中網［24］中的1××1卷積層后接3××3卷積層，并在ImageNet上預訓練，其結構如圖24所示。在PASCAL VOC 07+12數據集上，YOLO在達到最高幀率155 幀/s時mAP可以達到52.7%，在mAP最高達到63.4%時幀率可達45幀/s。YOLO在保證了準確率的同時擁有極高的推理速度，遠超當時的兩階段模型。

圖24 YOLO網絡結構圖[57] Fig.24 Structure of YOLO[57]

YOLOv1的訓練流程簡單，背景誤檢率低，但由于只選擇交并比最高的邊界框作為輸出，每個格子最多只能預測出一個物體。當每個格子包含多個物體時，YOLOv1只能檢測出1個目標。YOLOv2［58］在YOLOv1的基礎上，骨干網絡采用了以VGG16為基礎的Darknet19，使用了批量歸一化緩解了梯度爆炸和消失的問題。YOLOv2借鑒了Faster R?CNN錨框的設計，將YOLOv1的全連接層替換為錨框預測邊界框的位置，解耦了位置和類別的回歸計算。YOLOv2［58］同時采用了多尺度訓練，提升了模型的健壯性。后續的YOLOv3［59］骨干網絡采用了Darknet53，使用了ResNet的跳接結構，并引入了FPN，一定程度上解決了YOLOv2小目標檢測精度較差的問題。YOLOv3在分辨率320 像素×像素×320 像素的輸入上以22 ms的推理時間使得mAP達到28.2%，和當時最好的單階段檢測器SSD達到相同精度，但擁有3倍的推理速度。YOLOv3以51 ms的推理時間使得[email protected]達到57.9%，相較于以198 ms的推理時間[email protected]達到57.5%的RetinaNet［60］，精度相近但YOLOv3的速度是RetinaNet［60］的近4倍。

SSD［55］是最早達到兩階段模型精度的單階段模型之一，對后期的單階段工作影響很深，其結構如圖25所示。為解決YOLOv1小目標檢測精度低的問題，基于VGG不同的卷積段采用了多尺度的特征圖，并在每個網格點生成更多的不同大小和長寬比的預測框。SSD在PASCAL VOC 2007數據集上，對于300 像素××300 像素的輸入mAP達到了74.3%，512 像素××512 像素的輸入mAP達到了76.9%。在COCO trainval35k數據集上預訓練再在PASCAL VOC 07+12上微調后，SSD最終mAP達到了81.6%。

圖25 SSD網絡結構圖[55] Fig.25 Structure of SSD[55]

和兩階段模型相比，單階段模型只需要進行一次類別預測和位置回歸，因此卷積運算的共享程度更高，擁有更快的速度和更小的內存占用。最新的單階段模型如FCOS［61］、VFNet［62］等工作已經可以達到接近兩階段模型精度，同時擁有更好的實時性，更適合在移動端部署。

目標檢測技術從傳統的手工特征算法到如今的深度學習算法，精度越來越高的同時速度也越來越快。在過去幾年中，工業界已經出現了成熟的基于目標檢測技術的應用，如人臉檢測識別、行人檢測、交通信號檢測、文本檢測和遙感目標檢測等。這些應用不僅便利了人們的生活，也為學術界提供了啟發和指導。

在未來的研究工作中，小目標檢測和視頻目標檢測依舊是研究的熱點問題。同時，為了加快推理速度并在移動端嵌入式設備部署模型，目標檢測的輕量化一直備受工業界的關注。在采集到多模態的信息（如文字、圖像、點云等）后，如何通過更好的信息融合來提高檢測性能也是未來的一個重點研究方向。

3.2　圖像分割

本文的圖像分割指圖像語義分割任務，其要求將整張圖片的所有像素分類為預先定義的多個類別之一。由于是像素級的稠密分類任務，相比圖像分類和目標檢測更加困難，是圖像處理和計算機視覺中的一個重要課題，在場景理解、醫學圖像分析、機器人感知及視頻監控等領域有著廣泛的應用。近年來，由于深度學習技術在計算機視覺領域應用中取得的成功，人們也進行了大量的工作研究基于深度學習模型的圖像分割方法。

U?Net［63］和全卷積網絡（Fully convolutional network， FCN）［64］都是在2015年提出的網絡，啟發了后來的很多圖像分割和目標檢測的工作。FCN已在文獻［1］中進行介紹，此處不再贅述。U?Net最初是一個用于醫學圖像分割的卷積神經網絡，分別贏得了ISBI 2015細胞追蹤挑戰賽和齲齒檢測挑戰賽的冠軍。U?Net可視為一個編碼器?解碼器結構，編碼器有4個子模塊，每個子模塊通過一個最大池化層下采樣，解碼器再通過上采樣的4個子模塊增大分辨率直到與輸入圖像的分辨率保持一致，其結構如圖26所示。由于卷積采用的是Valid模式，實際輸出圖像的分辨率低于輸入圖像的分辨率。U?Net網絡同時還采取了跳接結構（即圖26中的灰色箭頭），將上采樣結果與編碼器中具有相同分辨率的子模塊的輸出進行連接，作為解碼器中下一個子模塊的輸入。

圖26 U-Net結構示意圖[63] Fig.26 Structure of U-Net[63]

由于人體結構相對固定，分割目標在圖像內的分布很有規律，醫學圖像大多語義明確，需要低分辨率的信息用于目標物體的識別。同時醫學圖像形態復雜，往往要求高精度的分割，需要高分辨率的信息用于精準分割。U?Net融合了高低分辨率的信息，因此對醫學圖像分割的效果很好。

Mask R?CNN［65］是R?CNN團隊的又一次探索，他們在之前Faster R?CNN［52］的基礎上，將其擴展到更精細的像素級別的分類，從而從目標檢測領域拓展到圖像分割領域。通過使用RoIAlign代替RoIPooling，得到更好的定位效果，并在Faster R?CNN上添加了二進制的Mask，表征像素是否在目標范圍內完成圖像分割的任務。Mask R?CNN網絡結構圖和分支結構圖如圖27、28所示。圖27 Mask R-CNN網絡示意圖[65]Fig.27 Structure of Mask R-CNN[65] 圖28 Mask R-CNN分支示意圖[65]Fig.28 Structure of Mask R-CNN’s branches[65]

深度卷積神經網絡中池化層和上采樣層的設計對于圖像分割的設計有致命缺陷。因為參數不可學習，而且池化會導致像素的空間信息和內部的數據結構丟失，上采樣也無法重建小物體信息，因此圖像分割的精度一直處于瓶頸。針對這一問題，2016年的DeepLab［66］又提出了一種空洞卷積，避免了池化層帶來的信息損失，并使用全連接的條件隨機場（Conditional random field， CRF）優化分割精度，其結構如圖29所示。

圖29 空洞卷積示意圖（卷積核尺寸為3，輸入步長為2，輸出步長為1）[66] Fig.29 Dilated convolution (kernel size=3, input stride=2, output stride=1)[66]

空洞卷積可以在避免使用池化層損失信息的情況下增大感受野，同時不增加參數數量。作為后處理，DeepLabv1將每個像素點作為節點，像素之間的關系作為節點間的連線，構成一個條件隨機場，再用一個二元勢函數描述像素點之間的關系，將相似像素分配相同的標簽，從而在分割邊界取得良好的效果。DeepLabv1速度很快，幀率達到8 幀/s，在PASCAL VOC 2012數據集上平均交并比（Mean intersection over union，mIoU）達到了71.6%，它的“深度卷積神經網絡+條件隨機場”結構對之后很多工作產生了深遠的影響。

2017年劍橋大學提出的SegNet［67］的主要動機是針對道路和室內場景理解，設計一個像素級別的圖像分割網絡，同時保證內存和計算時間方面上的高效。SegNet采用“編碼器?解碼器”的全卷積結構，編碼網絡采用VGG16［28］的卷積層，解碼器從相應的編碼器獲取最大池化索引后上采樣，產生稀疏特征映射。復用池化索引減少了端到端訓練的參數量，并改善了邊界的劃分。SegNet在道路場景分割數據集CamVid 11 Road Class Segmentation［68］上mIoU達到60.1%，邊界F1得分（Boundary F1 score，BF）達到46.84%；在室內場景分割數據集SUN RGB?D Indoor Scenes［69］上幾乎所有當時的深層網絡結構都表現不佳，但SegNet依然在絕大多數的指標上超過了其他網絡。SegNet結構如圖30所示。

圖30 SegNet結構示意圖[67] Fig.30 Structure of SegNet[67]

2017年香港中文大學提出了PSPNet［70］，該網絡采用金字塔池化模塊，用大小為1××1、2××2、3××3和6××6的4層金字塔分別提取不同尺度的信息，然后通過雙線性插值恢復長寬，把不同層的特征連結起來得到全局信息，這種結構比全局池化更具有代表性，融合了多尺度的信息。PSPNet在PASCAL VOC 2012數據集上mIoU達到了82.6%，在MS COCO數據集上預訓練后達到85.4%。PSPNet結構如圖31所示。

圖31 PSPNet結構示意圖[70] Fig.31 Structure of PSPNet[70]

DeepLabv2［71］在DeepLabv1［66］和PSPNet［70］的基礎上用ResNet101代替VGG16，并提出了一種帶有空洞卷積的空間金字塔池化模塊（Atrous spatial Pyramid pooling， ASPP），用多尺度的方法以不同的速率并行地提取特征圖信息，極大地增加了感受野，其結構如圖32所示。DeepLabv2使用不同的學習率，相比DeepLabv1， mIoU達到了79.7%，提升了8.1%，但二者都使用了全連接條件隨機場模塊。

圖32 空洞空間金字塔池化示意圖[71] Fig.32 Structure of ASPP[71]

DeepLabv3［72］重新審視了空洞卷積的作用，將其級聯模塊應用在ResNet最后一個模塊之后。不使用空洞卷積和使用空洞卷積的級聯模塊示意圖如圖33所示。

圖33 不使用和使用空洞卷積的級聯模塊示意圖[72] Fig.33 Structures of cascade modules without and with atrous convolution[72]

DeepLabv3改進了ASPP模塊，應用BN層，并將DeepLabv2中Rate=24的3××3卷積模塊替換為1××1卷積模塊和全局池化模塊，克服了像素點相對距離增大時有效權重減少的問題。DeepLabv3去掉了后處理的DenseCRF模塊，并最終在PASCAL VOC 2012數據集上mIoU達到了86.9%，相較DeepLabv2進一步提升了7.2%。改進的ASPP模塊示意圖如圖34所示。

圖34 改進的ASPP模塊示意圖[72] Fig.34 Improved ASPP module[72]

DeepLabv3+［73］相對于DeepLabv3，采用了“編碼器?解碼器”的結構，編碼器中包含豐富的語義信息，解碼器則輸出圖像的邊緣細節信息。空間金字塔池化模塊，“編碼器?解碼器”結構和帶有空洞卷積的“編碼器?解碼器”結構如圖35所示，DeepLabv3+結構如圖36所示。

圖35 DeepLabv3+使用了空間金字塔池化模塊，“編碼器-解碼器”結構和空洞卷積[73] Fig.35 DeepLabv3+ employing spatial Pyramid pooling, encoder-decoder and atrous convolution[73]

圖36 DeepLabv3+示意圖[73] Fig.36 Structure of DeepLabv3+[73]

DeepLabv3+將之前的骨干網絡ResNet101替換為Xception，并結合深度可分離卷積的思想提出了空洞深度可分離卷積，在減少參數量的同時進一步增大感受野。和DeepLabv3一樣，DeepLabv3+也沒有使用DenseCRF后處理模塊。最終DeepLabv3+在PASCAL VOC 2012數據集上mIoU達到了89.0%，相較DeepLabv3提升了2.1%。深度卷積、逐點卷積和空洞深度可分離卷積示意圖如圖37所示。

圖37 空洞深度可分離卷積示意圖[73] Fig.37 Structure of atrous depthwise separable convolution[73]

2019年曠視科技提出了一種名為DFANet［74］的高效CNN架構，通過子網和子級聯的方式聚合多尺度特征，極大地減少了參數量，其結構如圖38所示。DFANet采用“編碼器?解碼器”結構，解碼器的骨干網絡采用3個改良的輕量級Xception融合結構，編碼器則是一個高效的上采樣模塊，用于融合高層和底層的語義信息。在CityScapes［75］測試數據集上，對于1 024像素××1 024像素的輸入圖片，DFANet在一塊NVIDIA Titan X上mIoU達到71.3%，FLOPS僅為3.4××109，幀率達到100 幀/s；在CamVid［68］測試數據集上，對于960像素××720像素的輸入圖片，DFANet在8 ms的計算時間內mIoU達到64.7%，幀率達到120 幀/s。

圖38 DFANet結構示意圖[74] Fig.38 Structure of DFANet[74]

2020年筆者提出一種輕量級網絡LRNNet［76］。其中分解卷積塊FCB（圖39（a））利用1××3和3××1的空間分解卷積處理短距離特征，并利用空洞深度分離卷積處理遠距離特征，實現了參數量和計算量更少、深度更快、準確率更高的特征提取；高效的簡化Non?Local模塊LRN（圖39（b））利用區域主奇異向量作為Non?Local模塊的Key和Value，在降低Non?Local模塊的計算量和內存占用的同時，保持其處理遠距離關聯的效果。在Cityscapes［75］測試集上，LRNNet的mIoU達到了72.2%，而網絡僅有68萬個參數，并在1張GTX 1080Ti卡上達到71 幀/s的推理速度；在CamVid［68］測試集上，對于360像素××480像素的輸入，LRNNet的mIoU達到了69.2%，參數量也為68萬個，在1張GTX 1080Ti卡上幀率達到76.5 幀/s。

圖39 LRNNet中的FCB和LRN模塊[76] Fig.39 FCB and LRN modules in LRNNet[76]

圖像分割是像素級的稠密分類任務，在搜集數據集時需要真值標注每個像素，但由于這個要求極其耗時且非常昂貴，許多研究人員開始用弱監督學習和半監督學習的方法訓練網絡。常見的弱標注有圖像類別標簽、邊界框、顯著圖和類激活圖（Class activation map，CAM）等。

2015年谷歌和UCLA團隊的工作［77］是最早開始研究基于弱監督學習技術的圖像分割算法之一。該工作基于DeepLab模型［66］，研究了弱標注（類別標簽、邊界框等）與少量強標注（像素級標簽）和大量弱標注混合對DCNN圖像分割模型的影響，并在半監督和弱監督的設定下提出了一種期望最大化方法（Expectation?maximization，EM）。這項工作證實了僅使用圖像級標簽的弱標注存在性能差距，而在半監督設定下使用少量強標注和大量弱標注混合可以獲得優越的性能，在MS COCO數據集上使用5 000張強標注圖片和118 287張弱標注圖片mIoU超過70%。

盡管類別標簽的獲取成本很低，但這類標注信息僅僅標明某類目標存在，不能表示出目標的位置和形狀，這往往會導致分割效果不夠理想，存在邊界模糊等問題。當出現目標遮擋的情況時，僅使用圖像級標簽獲取完整的目標邊界會更加困難。為了補充監督信息中缺少的位置和形狀信息，使用圖像的顯著性信息是一種常見的手段。文獻［78］提出了一個僅使用類別標簽和顯著圖信息的圖像分割模型，其結構如圖40所示。該模型將圖像的顯著圖定義為一個人最有可能先看到的目標的二進制掩膜，用預訓練的目標檢測網絡提取出顯著性區域，通過種子信息確定目標的類別和位置。該工作同樣基于DeepLab［66］的網絡結構，提出的模型測試精度mIoU達到56.7%，實現了全監督模型80%的性能。

圖40 高層信息指導的圖像分割網絡結構圖[78] Fig.40 High-level guided segmentation architecture[78]

定位線索的另一個流行的選擇是使用CAM。主流的弱監督方法通過將CAM作為分割種子，突出局部的顯著部分，然后逐漸生長直到覆蓋整個目標區域，從而補充了缺失的目標形狀信息。2018年提出的AffinityNet［79］結合了類別標簽和CAM信息，首先計算圖像的CAM作為監督源訓練AffinityNet，通過構建圖像的語義相似度矩陣，結合隨機游走進行擴散，不斷獎勵或懲罰從而修改CAM，最終恢復出目標的形狀。AffinityNet流程如圖41所示。

圖41 AffinityNet流程示意圖[79] Fig.41 Pipeline of AffinityNet[79]

深度學習技術在圖像分割領域取得了顯著成就，但仍然面臨不小的挑戰。當前的大規模數據集如MS COCO［80］和PASCAL VOC［81］并不能滿足工業界的需求，而具有多目標和重疊目標的數據集對于圖像分割而言更具有應用價值，這可以使得圖像分割技術更好地處理密集目標場景和現實生活中常見的重疊目標場景。基于小樣本學習技術的圖像分割算法同樣具有廣闊的前景，因為在許多應用領域，例如醫學圖像分析領域，獲取學習樣本的成本較高，難度也較大。圖像分割技術的實時性也是一個難題，目前大多數模型并不能達到實時性的要求，但在很多應用場景下，速度的重要性遠高于精度。

3.3　超分辨率

超分辨率技術是計算機視覺領域提高圖像和視頻分辨率的重要處理技術之一，研究如何將低分辨率的圖像或圖像序列恢復出具有更多細節信息的高分辨率圖像或圖像序列，在高清電視、監控視頻、醫學成像、遙感衛星成像、顯微成像及老舊圖像視頻修復等領域有著重要的應用價值。傳統上超分辨率屬于底層視覺領域，但本文敘述順序從圖像分類、目標檢測、圖像分割到超分辨率，輸出逐級復雜，依次為圖像標簽、目標位置和類別標簽、與輸入同大小的分割圖、比輸入圖像大的高分辨率圖像等。與前幾個任務不同，超分辨率需要生成和恢復輸入中不存在的信息。

超分辨率的概念最早出現在光學領域，1952年Francia第一次提出了用于提高光學分辨率的超分辨率的概念［82］。1964年前后，Harris［83］和Goodman［84］分別提出了后來稱為Harris?Goodman頻譜外推的方法，這被認為是最早的圖像復原方法，但這種技術只能在一些理想情況下進行仿真，實際效果不太理想，因此并未得到推廣。1984年Tsai等［85］首次利用單幅低分辨率圖像的頻域信息重建出高分辨率圖像后，超分辨率重建技術才得到廣泛的認可和應用，如今它已經成為圖像增強和計算機視覺領域中最重要的研究方向之一。

傳統的超分辨率方法包括基于預測、基于邊緣、基于統計、基于塊和基于稀疏表示等方法。根據輸入輸出的不同，超分辨率問題可以分為基于重建的超分辨率問題、視頻超分辨率問題和單幅圖像超分辨率問題。根據是否依賴訓練樣本，超分辨率問題則又可以分為增強邊緣的超分辨率問題（無訓練樣本）和基于學習的超分辨率問題（有訓練樣本）。

最簡單、應用最廣泛的經典單幅圖像超分辨率方法是插值法，包括Lanczos、Bicubic、Bilinear和Nearest等，這種方法操作簡單、實施性好，但并不能恢復出清晰的邊緣和細節信息，因此很多其他用于增強細節的傳統算法相繼被提出。文獻［86］提出了基于塊的方法，也被稱為基于鄰域嵌入的方法。這種方法使用流形學習中的局部線性嵌入，假設高、低維度中圖像塊的線性關系可以保持，用低分辨率圖像的特征（梯度等）重構高分辨率圖像。文獻［87?88］提出了基于稀疏表示的方法，也被成為字典學習。這種方法將低分辨率圖像和高分辨率圖像表示為字典DD與原子αα，高分辨率圖像可表示為x=Dhighx=Dhigh，低分辨率圖像為y=Dlowy=Dlow，假設不同分辨率的同一幅圖像的原子αα，在訓練完字典DhighDhigh和DlowDlow后，用低分辨率的圖像得到αα，隨后得到重構的高清圖像。基于學習的超分辨率技術［89］如圖42所示，上、下采樣方法示意圖［90］如圖43所示。

圖42 基于學習的超分辨率技術[89] Fig.42 Learning-based super-resolution[89]

圖43 超分辨率問題中的上采樣和下采樣方法[90] Fig.43 Upsampling and downsampling in super-resolution[90]

經典的超分辨率方法要求研究者具備深厚的相關領域先驗知識。隨著深度學習技術的興起，用神經網絡方法重建的圖像質量超過了傳統方法，速度也更快，這使得大批學者轉向對深度學習技術在超分辨率領域的應用研究。香港中文大學Dong等于2015年首次將卷積神經網絡用于單幅圖像超分辨率重建，提出了SRCNN［91］，該網絡僅僅用了3個卷積層，利用傳統稀疏編碼，依次進行圖像塊提取、非線性映射和圖像重建，實現了從低分辨率圖像到高分辨率圖像的端到端映射，流程圖如圖44所示。SRCNN激活函數采用ReLU，損失函數采用均方誤差。

圖44 SRCNN流程圖[91] Fig.44 Pipeline of SRCNN[91]

2016年Dong團隊在之前SRCNN的基礎上提出了更快、實時性更好的FSRCNN［92］，在原始網絡的最后加入反卷積層放大尺寸，摒棄了Bicubic插值方法，使用了更多的映射層和更小的卷積核，改變了特征維度，并共享其中的映射層，FSRCNN改進示意圖如圖45所示。訓練時FSRCNN只需要微調最后的反卷積層，因此訓練速度很快。FSRCNN激活函數采用PReLU，損失函數仍采用均方誤差。

圖45 FSRCNN對SRCNN的改進[92] Fig.45 FSRCNN’s improvement on SRCNN[92]

2016年提出的ESPCN［93］在SRCNN基礎上進一步提高了速度，其結構如圖46所示。該工作提出了一種亞像素卷積層，可以直接在低分辨率圖像上提取特征，從而避免在高分辨率圖像上進行卷積，降低了計算復雜度。ESPCN激活函數采用tanh，損失函數仍然采用均方誤差。

圖46 ESPCN示意圖[93] Fig.46 Structure of ESPCN[93]

SRCNN的網絡輸入是經過上采樣的低分辨率圖像，計算復雜度很高，因此FSRCNN和ESPCN都選擇在網絡末端上采樣以降低計算復雜度。但如果在上采樣后沒有足夠深的網絡提取特征，圖像信息就會損失。為了更好地使用更深的網絡，很多工作引入了殘差網絡。2016年首爾國立大學Kim等提出的VDSR［94］是第一個引入全局殘差的模型，其結構如圖47所示。Kim等指出，高低分辨率圖像攜帶的低頻信息很相近，因此事實上網絡只需要學習高頻信息之間的殘差即可。VSDR思想啟發了很多之后利用殘差結構的工作。

圖47 VSDR網絡結構圖[94] Fig.47 Structure of VSDR[94]

CARN［95］是NTIRE2018超分辨率挑戰賽的冠軍方案，該方案使用全局和局部級聯，將ResNet的殘差塊替換成級聯模塊和1×11×1卷積模塊組合，并提出了一種殘差?E模塊，可以提升CARN的效率。CARN的改進如圖48所示，其局部級聯模塊如圖49所示。

圖48 CARN對于ResNet的改進[95] Fig.48 Improvement of CARN based on ResNet[95]

圖49 殘差-E模塊與其他常見模塊的對比[95] Fig.49 Comparison between residual-E block and other common blocks[95]

EDVR［96］是商湯科技2019年提出的一種用于視頻修復的通用框架，在NITRE 2019 的4個賽道中均以較大的優勢獲得了冠軍。視頻修復任務包括超分辨率、去噪聲等任務，早期的研究者們簡單地將視頻修復視作圖像修復的延伸，幀間冗余的時間信息并沒能被充分利用。EDVR通過增強的可變形卷積網絡實現視頻的修復和增強，適用于各種視頻修復任務，如超分辨率、去模糊等任務。EDVR框架示意圖如圖50所示。

圖50 EVDR框架示意圖[96] Fig.50 Pipeline of EDVR[96]

EDVR提出了PCD（Pyramid， cascading and deformable）對齊模塊和TSA（Temporal and spatial attention）融合模塊，其結構如圖51所示。PCD模塊受TDAN［97］的啟發，用一種金字塔結構從低尺度到高尺度使用可變形卷積將每個相鄰幀與參考幀對齊。TSA模塊則用于在多個對齊的特征層之間融合信息，通過計算每個相鄰幀與參考幀特征之間的元素相關性引入時間注意力機制，相關系數代表每個位置上相鄰幀特征信息量的大小。在融合時間特征后進一步應用空間注意力機制，從而更有效地利用跨通道空間信息。

圖51 EVDR中的PCD模塊和 TSA模塊[96] Fig.51 PCD and TSA modules in EVDR[96]

三維卷積是一種常見的利用視頻時空間信息的方法，但這種方法往往復雜度較高，限制了模型的深度。2019年提出的FSTRN［98］通過使用一種快速時空間殘差模塊將三維卷積用于視頻超分辨率任務，將每個三維濾波器分解為2個維數更低的3位濾波器乘積，從而降低復雜度，實現更深的網絡和更好的性能。此外，FSTRN還提出了一種跨空間殘差學習方法，直接連接低分辨率空間和高分辨率空間，減輕了特征融合和上采樣部分的計算負擔。FSTRN結構如圖52所示。

圖52 FSTRN結構示意圖[98] Fig.52 Pipeline of FSTRN[98]

隨著深度學習技術的興起，近20年來超分辨率領域發展迅速，出現了很多具有優異性能的模型，但距離實際應用還有一定的距離。圖像配準技術對于多幀圖像超分辨率的重建效果至關重要，目前還沒有成熟的解決方案。另一個難點則是大量未知的密集計算限制了視頻超分辨率重建的計算效率，難以達到實時性的要求。超分辨率算法的魯棒性和可遷移性仍然是下階段的研究熱點，現有的評價標準，如均方誤差、峰值噪聲比、結構相似性等還不能客觀地衡量重建效果，有時甚至會出現和人眼視覺相違背的情況。

4 神經架構搜索

深度學習技術在圖像分類、語音識別及機器翻譯等諸多領域上取得了舉世矚目的成功，可以自動地學習數據信息，讓研究人員擺脫特征工程，這離不開GoogLeNet、ResNet等經典的深度神經網絡模型。然而一個具有優異性能的網絡結構往往需要花費研究人員大量的時間資金投入，同時需要具備扎實的專業知識和豐富的經驗。因此人們開始研究讓機器代替人類，根據數據集和算法自動設計網絡結構。神經架構搜索技術（Neural architecture search，NAS）設計的模型如今已經在很多任務上取得了超過人工設計深度模型的性能，如圖像分割領域的Auto?DeepLab［99］，目標檢測領域的NAS?FPN［100］。神經架構搜索技術是機器學習自動化（Automated machine learning，AutoML）的子領域，代表了機器學習未來發展的方向。神經架構搜索技術的流程如圖53所示，首先從一個搜索空間中通過某種策略搜索候選網絡架構，然后對其精度、速度等指標進行評估，通過迭代不斷優化直到找到最優的網絡架構。

圖53 神經架構搜索流程圖

Fig.53 Pipeline of NAS

搜索空間內定義了優化問題的變量，如網絡架構參數和超參數，這些變量決定了模型的性能。常見的網絡架構有鏈式結構和分支結構等，每一個節點的網絡架構參數包括卷積層、池化層和激活函數等，超參數包括卷積的尺寸、步長、加法或連結等。典型的網絡架構［101］如圖54所示。

圖54 網絡架構[101]

Fig.54 Network architecture[101]

搜索策略被用于探索神經架構空間，常見的策略包括隨機搜索、貝葉斯優化、遺傳算法、強化學習［102?103］和梯度算法等，其中強化學習、遺傳算法及梯度算法是目前主流的搜索策略。在性能評估時，由于訓練和驗證的時間成本較高，因此常常需要采用評估策略降低評估成本，如減少迭代次數、在訓練集的子集上訓練、減少卷積核數量等，但這些策略往往會導致一些偏差，可能會對最終的優劣次序產生影響。更高級的策略包括權重共享、通過迭代時的表現推斷最終性能以及通過模塊預測網絡性能等方法。

DARTS［104］是第一個基于連續松弛的搜索空間的神經網絡架構技術。早期傳統的NAS方法如NasNet［105］、PNAS［106］和ENAS［107］等大多在離散不可微的搜索空間上應用強化學習、進化算法等搜索策略，由于搜索空間內待搜索的參數不可導，因此一個性能優異的模型往往需要耗費大量的計算資源和時間成本。事實上，當時的研究者們將神經架構搜索技術視為一個在離散空間上的黑箱優化問題，每次架構的迭代優化都需要性能評估，效率十分低下。而DARTS使用了松弛連續的結構表示，使用梯度下降優化網絡在驗證集上的性能，實現了端到端的網絡搜索，大大減少了迭代次數，把搜索時間從數千個GPU日降低到數個GPU日。

DARTS流程如圖55所示。其中：圖（a）表示邊上的初始未知操作；圖（b）在每條邊上放置候選操作的組合，連續松弛搜索空間，不斷放寬搜索條件；圖（c）通過解決一個雙層規劃問題聯合優化混合概率與網絡權重；圖（d）用學到的混合概率求得最終的網絡架構。DARTS是一種簡單的NAS方法，適用于CNN和RNN，在CIFAR?10數據集［108］上用4個GPU日達到了2.76%的測試誤差，參數量僅有330萬個；在PTB數據集［109］上用1個GPU日以2 300萬個的參數量達到了55.7%的測試困惑度，達到了當時的最好性能。在CIFAR?10數據集上搜索出來的模型架構在ImageNet［19］數據集上以470萬個的參數量達到8.7%的top?5錯誤率，在PTB數據集上搜索出來的模型架構在WikiText?2數據集［110］上以3 300萬個的參數量達到69.6%的困惑度，優于很多手工設計的輕量化模型。

圖55 DARTS流程示意圖[104]

Fig.55 Pipeline of DARTS[104]

基于DARTS，一系列改進算法被相繼提出。在DARTS中，搜索在一個有8個單元的網絡上進行，搜索出來的架構通過堆疊在一個具有20個單元的網絡上被評估，但深度網絡和淺層網絡的結構往往不同。例如，在代理數據集（如CIFAR?10數據集）上搜索出來的網絡架構可能在目標數據集（如ImageNet數據集）上表現不理想。2019年華為諾亞方舟實驗室提出P?DARTS［111］，針對這一問題（被稱為Depth Gap）提出了一種漸進式搜索的方法，如圖56所示。搜索網絡的深度從最初的5個單元增加到中期的11個和后期的17個，而候選操作的數量（用不同的顏色表示）相應地從5個減少到4個和2個。在上一階段得分最低的操作將被丟棄，最后結合分數和可能的附加規則確定最終架構［111］。

圖56 P-DARTS流程示意圖[111]

Fig.56 Pipeline of P-DARTS[111]

2019年MIT提出ProxylessNAS［112］，針對DARTS只能在小型代理數據集上搜索而在大型數據集上則會出現顯存爆炸的問題提出了無代理神經架構搜索技術，在訓練時二值化路徑，用和DARTS雙層規劃類似的思想聯合訓練權重參數和架構參數，從而達到降低顯存的目的，并首次提出針對不同的硬件平臺搜索滿足特定時延的神經網絡架構方法。ProxylessNAS不再采用搜索單元然后堆疊達到更深網絡的方法，而是選擇主干網絡，如MobileNet［41］、ShuffleNet［42］等。ProxylessNAS在CIFAR?10數據集上以僅570萬個的參數量達到2.08%的測試誤差。ProxylessNAS示意圖如圖57所示。

圖57 ProxylessNAS示意圖[112]

Fig.57 Pipeline of ProxylessNAS[112]

當迭代次數過大后，DARTS設計出的網絡架構會包含很多跳接結構，使得性能變得很差，稱為DARTS的坍塌。2020年諾亞方舟實驗室提出的DARTS+［113］通過引入早停機制，即當一個正常單元出現2個或2個以上的跳接結構時就停止搜索，縮短了DARTS搜索的時間，極大地提高了DARTS的性能，其示意圖如圖58所示。

圖58 DARTS+中的早停機制示意圖[113]

Fig.58 Early Stopping in DARTS+[113]

2020年商湯研究院提出的隨機神經架構搜索SNAS［114］也是一種可微的端到端方法，但與DARTS相比，SNAS將NAS重新表述為在一個單元中搜索空間的聯合分布參數優化問題，直接優化損失函數，偏差更小。在同一輪反向傳播中SNAS同時訓練操作參數和架構參數，并提出了一種新的搜索梯度。相比基于強化學習的神經架構搜索技術，SNAS優化相同的目標函數，但更高效地只使用訓練損失作為獎勵。

PC?DARTS［115］是華為諾亞方舟實驗室2020年提出的NAS技術，在P?DARTS［111］的基礎上設計了部分通道連接機制，每次只有一部分通道進行操作搜索，這節省了訓練需要的顯存，減少了計算量，并采用邊正則化降低由于操作搜索不全造成的不確定性。PC?DARTS在CIFAR?10數據集［108］上用0.1個GPU日達到了2.57%的測試誤差，參數量僅有360萬個；在ImageNet數據集［19］上用3.8個GPU日以530萬個的參數量達到了7.3%的top?5錯誤率，取得了更快更好的搜索效果。PC?DARTS結構如圖59所示。

圖59 PC-DARTS結構示意圖[115]

Fig.59 Structure of PC-DARTS[115]

當前的神經架構搜索技術大多被用于圖像分類任務，這促使許多研究人員試圖設計出更好的人工網絡。但一方面由于搜索空間的定義被局限在現有的網絡結構設計經驗中，使得NAS設計出的網絡很難與人工網絡有本質上的區別。另一方面，NAS技術設計的網絡可解釋性很差，由于研究人員采用的數據增強、搜索空間、訓練方法及正則化策略等方法常常不同，這使得NAS設計出的架構很難被復現，不同網絡架構的性能也難以比較。由此可見，神經架構搜索領域仍然存在很多挑戰，如何解決這些問題將會是下一階段的熱門研究方向之一。

5 結束語

深度學習技術近年來在計算機視覺中的目標檢測、圖像分割、超分辨率和模型壓縮等任務上都取得了卓越的成績，充分證明了它的價值和潛力。然而深度學習領域仍然有不少難題無法解決，如對數據的依賴性強、模型難以在不同領域之間直接遷移、深度學習模型的可解釋性不強等，如何攻克這些難題將是下一階段的發展方向。為了追求極致的性能，很多科技巨頭投入了巨大的人力財力搭建巨型模型，如OpenAI發布的擁有1 750億個參數的GPT?3，谷歌發布的擁有1.6萬億個參數的Switch Transformer，快手發布的擁有1.9萬億個參數的推薦精排模型，這些模型需要大量的訓練時間和計算資源，如何設計計算硬件、系統和算法來加速訓練是一項新的挑戰。深度學習技術嚴重依賴大規模帶標簽的數據集，因此無監督學習技術、自監督技術，例如表示學習、預訓練模型等，仍然是重要的研究方向。同時深度學習技術帶來的安全隱患也引起了重視，如何在保護用戶隱私的前提下優化分布式訓練是另一個具有潛力的研究方向。

付費5元查看完整內容

計算機視覺 · 目標檢測 · 深度學習 · 圖像分類 ·

2022 年 4 月 15 日

[付費5元查看完整內容]基于深度學習的圖像目標檢測算法綜述

專知會員服務

專知，提供專業可信的知識分發服務，讓認知協作更快更好！

圖像目標檢測是找出圖像中感興趣的目標，并確定他們的類別和位置，是當前計算機視覺領域的研究熱點。近年來，由于深度學習在圖像分類方面的準確度明顯提高，基于深度學習的圖像目標檢測模型逐漸成為主流。首先介紹了圖像目標檢測模型中常用的卷積神經網絡；然后，重點從候選區域、回歸和 anchor-free 方法的角度對現有經典的圖像目標檢測模型進行綜述；最后，根據在公共數據集上的檢測結果分析模型的優勢和缺點，總結了圖像目標檢測研究中存在的問題并對未來發展做出展望。

引言

計算機視覺（computer vision）是人工智能（artificial intelligence，AI）的關鍵領域之一，是一門研究如何使機器“看”的科學。圖像目標檢測又是計算機視覺的關鍵任務，主要對圖像或視頻中的物體進行識別和定位，是 AI 后續應用的基礎。因此，檢測性能的好壞直接影響到后續目標追蹤[1-2]、動作識別[3-4]的性能。傳統圖像目標檢測的滑窗法雖然簡單易于理解，但隨目標大小而變化的窗口對圖像進行從左至右、從上至下的全局搜索導致效率低下。為了在滑動窗口檢測器的基礎上提高搜索速度， Uijlings 等[5]提出了選擇性搜索方法（selective search method），該方法的主要觀點是圖像中的目標存在的區域具有相似性和連續性，基于這一想法采用子區域合并的方式進行候選區域的提取從而確定目標。Girshick 等[6]提出的基于區域的卷積神經網絡（region-based convolutional neural network，R-CNN）就是采用了選擇性搜索方法提取候選區域，進而越來越多的學者在不斷改進確定目標的方法的基礎上提出新的檢測模型。

本文首先介紹了圖像目標檢測模型中常用的卷積神經網絡；然后，重點從候選區域、回歸和 anchor-free 方法等角度對現有的圖像目標檢測模型進行綜述；最后，根據在公共數據集上的檢測結果分析模型的優勢和缺點，總結了現有圖像目標檢測研究中存在的問題并對未來發展做出展望。

基于深度學習的圖像目標檢測模型

本節將介紹近幾年提出的基于候選區域、回歸和 anchor-free 的圖像目標檢測模型，總結各模型相比之前模型的改進策略以及自身的創新點和不足，并在 PASCAL VOC2007[17] 、 PASCAL VOC2012[17]和 MS COCO[18]等常用公共數據集上做出比較。

基于候選區域的圖像目標檢測模型

R-CNN 圖像目標檢測模型是 Girshick 等[6]于 2013 年提出的，它是候選區域和卷積神經網絡這一框架的開山之作，也是第一個可以真正應用于工業級圖像目標檢測的解決方案，為基于 CNN 圖像目標檢測的發展奠定了基礎。網絡結構如圖 2 所示。R-CNN 首先使用選擇性搜索方法從輸入的圖像中提取出 2 000 個候選區域，使用剪裁[9]和變形[19]的方法將候選區域的尺寸固定為 277×277 以適應全連接層的輸入，通過 CNN 前向傳播對每個候選區域進行特征計算；然后將每個候選區域的特征向量送入特定線性分類器中進行分類和預測概率值；最后使用非極大值抑制（non-maximum suppression，NMS）[20]算法消除多余的目標框，找到目標的最佳預測位置。

R-CNN 圖像目標檢測模型雖然將 mAP（mean average precision，平均精度值）[17]在 VOC2007 和 VOC2012 數據集上分別達到了 58.5% 和 53.3%，在基于深度學習的圖像目標檢測領域取得了重大突破，但由于其輸入圖像經過剪裁和變形后會導致信息丟失和位置信息扭曲，從而影響識別精度，并且 R-CNN 需要對每張圖片中的上千個變形后的區域反復調用 CNN，所以特征計算非常耗時，速度較慢。基于 R-CNN 需固定輸入圖像尺寸以及檢測速度較慢的缺點，2014年He等[21]提出了SPP-Net，該模型先是計算整個輸入圖像的卷積特征圖，根據選擇性搜索方法提取候選區域，通過對特征圖上與候選區域相對應位置的窗口使用金字塔池化（spatial pyramid pooling，SPP）可以得到一個固定大小的輸出，即全連接層的輸入。與 R-CNN 相比， SPP-Net 避免了反復使用 CNN 計算卷積特征，在無須對輸入圖像進行剪裁和變形的情況下實現了多尺度輸入卷積計算，保留了圖像的底層信息，在VOC2007數據集上測試時 mAP達到了59.2％，在達到相同或更好的性能前提下，比 R-CNN 模型快 24~102 倍。雖然 R-CNN 和 SPP-Net 在 VOC2007 數據集上都獲得了很高的精度，但兩者將分類和回歸分為多階段進行，使得網絡占用了較多的硬件資源。2015 年 Girshick 等[22]提出了一種快速的基于區域的卷積網絡模型（fast R-CNN）。該網絡首先用選擇性搜索方法提取候選區域，將歸一化到統一格式的圖片輸入 CNN 進行卷積計算，然后借鑒了 SPP-Net 中金字塔池化的思想，用最大值池化層 ROI pooling 將卷積特征變成固定大小的 ROI 特征輸入全連接層進行目標分類和位置回歸。該網絡采用多任務訓練模式，用 softmax 替代 SVM （support vector machine，支持向量機）[23]進行分類，將分類和回歸加入網絡同時訓練，在末尾采用可同時輸出分類和回歸結果的并行全連接層。fast R-CNN 減少了硬件緩存，提高了檢測速度，初步實現了端對端的圖像目標檢測，并且在 VOC2007 和 VOC2012 數據集上的 mAP 分別為 66.9％和 66.0％。

由于 fast R-CNN 無法滿足實時檢測的需求， Ren 等[24]提出了改進模型 faster R-CNN。該網絡的最大創新就是提出了區域提議網絡（region proposal network，RPN），即在基礎卷積網絡提取輸入圖像特征的基礎上用 RPN 代替 fast R-CNN 中的選擇性搜索方法進行候選區域的提取。RPN 是一個全卷積網絡，網絡結構如圖 3 所示，該網絡可以同時在每個位置上預測出目標邊界和目標概率并產生高質量候選區域，然后通過 ROI pooling將卷積特征變成固定大小的ROI特征輸入全連接層進行目標分類和位置回歸。RPN 和 fast R-CNN通過四步交替訓練法使兩個網絡共享卷積特征合并為單一網絡，解決了區域計算的瓶頸問題，在實現真正端對端訓練模式的基礎上滿足了實時應用的需求[23]。

2017 年 He 等[25]提出了 mask R-CNN 目標檢測模型，該模型以faster R-CNN為原型，即在faster R-CNN 中生成的候選區域中融入 FCN（fully convolutional network，全卷積神經網絡）[26]作為新的支路用于生成每個候選區域的掩膜，同時把 faster R-CNN 中 RoI pooling 修改成為了 ROI align 用于處理掩膜與原圖中物體不對齊的問題。Mask R-CNN 在訓練時可以同時生成目標邊界、目標概率和掩膜，但在預測時通過將目標邊界和目標概率的結果輸入掩膜預測中以生成最后的掩膜，該方法減弱了類別間的競爭優勢，從而達到了更好的效果，在 MS COCO 數據集上的 mAP 測試結果達到 35.7%。

基于回歸的圖像目標檢測模型

**YOLO 及擴展模型 **

檢測精度和檢測速度是評判圖像目標檢測模型好壞的重要標準[27]。基于候選區域的圖像目標檢測模型，雖然在檢測精度方面首屈一指，但是它檢測圖像的效率低是其主要弊端。2016 年 Redmon 等[28]提出 YOLO（you only look once）檢測模型，該模型將圖像目標檢測抽象為回歸問題，通過對完整圖片的一次檢測就直接預測出感興趣目標的邊界框和類別，避免了 R-CNN 系列中將檢測任務分兩步進行的煩瑣操作，解決了之前圖像目標檢測模型檢測效率低的問題。檢測網絡將輸入的圖片分成 s×s 個網格，如圖 4 所示，各網格只負責檢測中心落在該網格的目標，預測出網格的類別信息以及多個邊界框和各個邊界框的置信度，通過設定閾值過濾掉置信度較低的邊界框，然后對保留的邊界框進行 NMS 處理以確定最終的檢測結果。YOLO 以回歸替代了之前圖像目標檢測模型的候選區域方法，在滿足實時需求的基礎上檢測速度達到 45 f/s，但由于 YOLO 在檢測過程中僅選擇置信度最高的邊界框作為最終的輸出，即每個網格最多只檢測出一個物體，因此 YOLO 在檢測緊鄰群體目標或小目標時效果不佳，在 VOC2007 上的 mAP 也僅有 66.4%。針對 YOLO 在目標定位方面不夠準確的問題，2017 年 Redmon 等[29]提出了 YOLO 的擴展模型 YOLOv2 和 YOLO9000。YOLOv2 首先在卷積層中添加批量歸一化（batch normalization，BN）[30]技術使得模型的收斂性有顯著的提升，然后借鑒 faster R-CNN 的思想用聚類方法產生的錨框替代了 YOLO 中預測出的邊界框，最后通過輸入更高的分辨率圖像并對其進行遷移學習[31]從而提升網絡對高分辨率圖像的響應能力，訓練過程中無須固定圖像的尺寸，因此在一定程度上提升了網絡的泛化能力。除此之外 YOLOv2 還提出將一個由 19 個卷積層和 5 個 MaxPooling 層構成的 Darknet-19[28]網絡作為骨干網進一步提升檢測速度。而 YOLO9000 則是在 YOLOv2 的基礎上提出了目標分類和檢測的聯合訓練方法，使 YOLOv2 的檢測種類擴充到 9 000 種。2017 年 Redmon 等[32] 提出了 YOLOv3 檢測模型，它借鑒了殘差網絡結構，形成網絡層次更深的 Darknet-53，通過特征融合的方式采用 3 個不同尺度的特征圖進行目標檢測，并且用 logistic 代替 softmax 進行類別預測實現了多標簽目標檢測，該網絡不僅提升了小目標檢測效果，在邊界框預測不嚴格并且檢測精度相當的情況下檢測速度是其他模型的 3~４倍。

SSD 及擴展模型

2016 年 Liu 等[33]提出 SSD 圖像目標檢測模型，該模型徹底淘汰了生成候選區域和特征重采樣階段，選擇將所有計算封裝在單個深層神經網絡中，網絡結構如圖 5 所示。SSD 網絡繼承了 YOLO 中將目標檢測問題抽象為回歸問題的思想，采用特征金字塔的方式進行檢測，即利用不同卷積層產生不同的特征圖，使用一個小的卷積濾波器來預測特征圖上一組固定的默認邊界框類別和位置偏移量。為了實現較高的檢測精度，在不同尺度的特征圖中進行不同尺度的預測，并設置不同長寬比的邊界框進行分離預測。由于圖像中的目標具有隨機性，大小不一，所以小目標的檢測是由 SSD 使用底層特征圖來實現的，大目標的檢測是由 SSD 使用高層特征圖來實現的，相對于 YOLO 精確度大幅度提高，并且效率也有所提升。2017 年 Fu 等[34]提出 DSSD 檢測模型，即將 Resnet-101 作為 SSD 的骨干網，在分類回歸之前引入殘差模塊，并且在原本 SSD 添加的輔助卷積之后又添加了反卷積層，與 SSD 相比，DSSD 在小目標的檢測精度上有了很大的提升，但 Resnet-101 網絡太深導致 DSSD 的檢測速度相比 SSD 較慢。2017 年 Jisoo 等[35]在未改動 SSD 主干網絡的基礎上提出了 RSSD（rainbow SSD）檢測模型，該網絡同時采用池化和反卷積的方式進行特征融合，不僅增強了不同特征層之間的關系，由于融合后的特征大小相同，還一定程度上增加了不同層的特征個數。這種特征融合方式解決了 SSD 存在的重復框的問題，同時提升了對小目標的檢測效果，但與 SSD 相比檢測速度較慢。2017 年 Li 等[36]提出了 FSSD，該模型通過重構一組金字塔特征圖充分融合了不同層不同尺度的特征，在保證檢測速度與 SSD 相當的同時使得檢測精度有了明顯的提升。2019 年 Yi 等[37]借鑒注意力機制[38] 的思想在 SSD 檢測模型中設計了一個注意力模塊，該注意力模塊基于全局特征關系可以分析出不同位置特征的重要性，從而達到在網絡中突出有用信息和抑制無用信息的效果，ASSD[37]檢測精度提高，但與 SSD 相比，檢測速度較慢。

基于 anchor-free 的圖像目標檢測模型

圖像目標檢測發展日新月異，越來越多優秀目標檢測模型陸續被提出，基于候選區域和回歸方法的檢測模型目前發展穩定并且成熟，而基于 anchor-free 的檢測模型是當下目標檢測領域中新的熱門研究方向，anchor-free 檢測模型有兩種，分別為基于關鍵點的檢測和基于分類和回歸進行改進的檢測。

基于關鍵點的檢測

2018 年 Law[42]受到 Newell 等在姿態估計[43-46] 中的關聯嵌入的啟發提出了 CornerNet，這是一種新型的圖像目標檢測方法。CornerNet 將一個目標檢測為一對關鍵點，即目標邊界框的左上角點和右下角點，是第一個將圖像目標檢測任務表述為利用嵌入角點進行分組和檢測任務的模型，開啟了基于關鍵點的目標檢測方法的大門。CornerNet 首先使用沙漏網絡[15]作為其骨干網絡輸出最后一層卷積特征，骨干網后接兩個分支模塊，分別進行左上角點預測和右下角點預測，每個分支模塊包含一個 Corner pooling（角池化）和 3 個輸出，網絡結構如圖 7 所示。heatmaps（熱圖）輸出的是預測角點的位置信息，當圖像中出現多個目標時，embeddings（嵌入）根據左上角點和右下角點嵌入向量之間的距離對屬于同一目標的一對角點進行分組；offsets（誤差）是輸出從圖像到特征圖的量化誤差，用來對預測框進行微調。

當角點在目標之外時，此時獲取的信息不足以進行當前的定位，為了能夠更好地定位邊界框的角點，Law 等[42]介紹了一種新型池化層—角池化層，該池化層包含兩個特征圖，在每個像素位置，它將第一個特征圖下側的所有特征向量和第二個特征圖右方的所有特征向量最大化，然后將兩個合并后的結果相加輸出最后的角點。CornerNet 極大地簡化了網絡的輸出，徹底消除了圖像目標檢測對候選區域和候選框的需要，在 MS COCO 上實現了 42.1％的 mAP，但當 CornerNet 將邊界框的角點定位在物體之外時目標的局部特征表現不強烈，并且在判斷兩個角點是否屬于同一目標時，由于缺乏全局信息的輔助導致匹配角點時產生錯誤目標框，因此存在一定的誤檢率。2019年Zhou等[47]借鑒CornerNet 的思想提出一種新的檢測思路，即通過關鍵點估計[48-50]網絡對每個目標預測出 4 個極值點和 1 個中心點，然后提取極值點的峰值，暴力枚舉所有的組合并計算出每個組合的幾何中心點，若幾何中心點與預測的中心點匹配度高于設定閾值，則接受該組合，并將這 5 個極值點的得分平均值作為組合的置信度。ExtremeNet[47]將目標檢測問題轉化成單純的基于外觀信息的關鍵點估計問題，避免了對目標隱含特征的學習，相對于 CornerNet 更好地反映了物體的信息，檢測效果更好。

基于分類和回歸進行改進的檢測

自 2018 年 CornerNet 提出以來，基于 anchor-free 的目標檢測模型在分類和回歸的方法上又有了新的創新，如 2019 年 Zhu 等[53]提出一種基于 anchor-free 的動態選擇特征層的方法，該方法主要是在 RetinaNet 的基礎上建立一個 FSAF（feature selective anchor-free）模塊，即對每個層次的特征都建立一個可以將目標分配到合適特性級別的 anchor-free 分支，使得目標框能夠在任意特征層通過 anchor-free 分支進行編解碼操作。FSAF 可以和基于錨的分支并行工作平行的輸出預測結果，有效地提升了 RetinaNet 的穩健性，解決了傳統基于錨框檢測的網絡根據候選框選擇特征層的局限性，并在 MS COCO 上實現了 42.8％的 mAP。傳統基于錨框的檢測網絡面對變化較大的目標時需要根據檢測任務預定義錨框尺寸，通過手工設置錨框提高召回率這一操作不僅占用較大的計算和內存資源，還在一定程度上深化了正負樣本不平衡問題。2019 年 Tian 等[54]提出一種全卷積目標檢測網絡 FCOS，類似語義分割中[55]利用逐像素點預測的方式解決目標檢測問題。為了提高檢測效果，FCOS 引入 center-ness 分支用于降低檢測效果不理想的目標框權重，然后通過 NMS 算法確定最終檢測結果。基于 anchor-free 的 FCOS 檢測網絡極大地降低了參數計算，可以與其他視覺任務相結合，并且盡可能多地使用正樣本參與訓練，解決了之前檢測模型中出現的正負樣本不平衡問題，但在檢測時由于目標真實框重疊，可能會出現語義模糊情況。2019年Kong等[59]提出了FoveaBox目標檢測網絡，結合人類視覺系統是通過眼球中對物體感應最敏銳的中央凹（Fovea）結構確定物體位置的原理對目標真實框進行位置變換，更具體地說是通過目標真實框找到目標對應在特征圖中的中心位置，然后設定兩個縮放因子分別對目標真實框向中心點進行收縮和擴展，將收縮邊框的內部點作為正樣本，擴展邊框外部點作為負樣本。這種通過位置變化忽略兩個邊框中間點的方法不僅增加了正負樣本之間的識別度、解決了樣本不平衡問題，還有效提升了檢測性能，但與其他 anchor-free 模型相比檢測精度略低，在 MS COCO 上實現的 mAP 僅有 40.6％。

圖像目標檢測模型對比

本文對現有經典圖像目標檢測模型的創新點及優缺點做出對比，見表 1。無論是候選區域法、回歸法還是 anchor-free 法，提出模型的主要目的都是為了能夠高精度、高速率地識別并檢測出目標。由表 1 可以看出，基于候選區域法模型的提出開啟了用 CNN 提取特征的大門使圖像目標檢測進入深度學習時代，回歸法則解決了候選區域法的速度瓶頸問題，實現了端對端的圖像目標檢測。而基于 anchor-free 的算法消除了候選區域法和回歸法中候選框的設計，生成高質量的目標框并在未來形成了一個有前途的方向。對本文中提到的圖像目標檢測模型在公共數據集上的檢測結果做出對比，見表 2。“—”表示此數據集沒有該模型的測試結果，2007 表示數據集 VOC 2007，2012 表示數據集 VOC 2012；[email protected] 表示該模型在 MS COCO 數據集上是取閾值為 0.5 計算精度的，AP@[0.5,0.95]表示該模型在 MSCOCO 數據集上是取 10 個閾值（間隔 0.05）計算精度的，即 mAP，表 2 中所有的數據集精確率檢測結果均以百分比為單位。FPS 表示該模型每秒處理圖片的數量。

付費5元查看完整內容

深度學習 · 深度學習理論 · 深度學習泛化性 · 泛化性 · 博士論文 ·

2021 年 10 月 22 日

[付費5元查看完整內容]深度學習為何泛化好？CMU博士論文《解釋深度學習中的泛化性》探究深度學習泛化性的理論基礎進展

專知會員服務

專知，提供專業可信的知識分發服務，讓認知協作更快更好！

本文研究了深度學習理論中一個基本的開放挑戰: 為什么深度網絡在過度參數化、非正則化和擬合訓練數據為零誤差的情況下仍能很好地泛化? 在論文的第一部分，我們將實證研究如何通過隨機梯度下降訓練深度網絡隱式控制網絡容量。隨后，為了說明這如何導致更好的泛化，我們將推導基于數據的一致收斂的泛化邊界，并改進參數計數的依賴性。由于其簡單性和通用性，一致收斂實際上已經成為深度學習文獻中使用最廣泛的工具。鑒于它的流行，在這篇論文中，我們也將后退一步，確定一致收斂的基本極限，作為解釋泛化的工具。特別地，我們將證明在一些過度參數化的設置的例子中，任何一致收斂界將只提供一個空洞的泛化界。考慮到這一點，在論文的最后一部分，我們將改變航向，并引入一種經驗技術來估計使用未標記數據的泛化。我們的技術不依賴于任何基于一致收斂的復雜性概念，而且非常精確。我們將從理論上說明為什么我們的技術如此精確。最后，我們將討論未來的工作如何探索在泛化邊界中納入分布假設的新方法(例如以未標記數據的形式)，并探索其他工具來推導邊界，可能是通過修改統一收斂或開發完全新的工具。

付費5元查看完整內容

領域泛化 · 領域遷移 · 領域自適應 · 遷移學習 ·

2021 年 3 月 13 日

[付費5元查看完整內容]機器學習模型如何泛化到未知領域？微軟亞研「領域泛化 (Domain Generalization)」綜述論文概述理論、算法等

專知會員服務

專知，提供專業可信的知識分發服務，讓認知協作更快更好！

摘要：

域泛化(DG)，即分布外泛化，近年來引起了越來越多的關注。領域泛化處理一個具有挑戰性的設置，其中給出了一個或幾個不同但相關的領域，目標是學習一個可以泛化到看不見的測試領域的模型。近年來，取得了很大的進展。本文首次綜述了領域泛化的最新進展。首先，我們給出了領域泛化的形式化定義，并討論了幾個相關的領域。接下來，我們對領域泛化的相關理論進行了全面的回顧，并對泛化背后的理論進行了仔細的分析。然后，我們將最近出現的算法分為三類，分別是數據操作、表示學習和學習策略，每一類都包含了一些流行的算法。第三，介紹了常用的數據集及其應用。最后，對已有文獻進行了總結，并提出了未來的研究方向。

//www.zhuanzhi.ai/paper/5b8b8958327cabc8b6694d7fc5c7ac75

引言

機器學習(ML)在計算機視覺、自然語言處理和醫療保健等各個領域都取得了顯著的成功。ML的目標是設計一個可以從訓練數據中學習通用和預測性知識的模型，然后將該模型應用于新的(測試)數據。

傳統的ML模型訓練基于i.i.d.假設，訓練數據和測試數據是相同的，獨立分布的。然而，這種假設在現實中并不總是成立的。當訓練數據和測試數據的概率分布不同時，由于域分布的差異，ML模型的性能往往會下降。收集所有可能領域的數據來訓練ML模型是昂貴的，甚至是不可能的。因此，提高ML模型的泛化能力具有重要的工業和學術意義。

與廣義相關的研究課題有很多，如領域適應、元學習、遷移學習、協變量轉移等。近年來，領域泛化(DG)受到了廣泛的關注。如圖1所示，領域泛化的目標是從一個或幾個不同但相關的領域(即不同的訓練數據集)學習模型，這些領域將在看不見的測試領域上很好地泛化。

圖片

近年來，領域泛化在計算機視覺、自然語言處理等領域取得了長足的進展。除此之外，目前還沒有一項關于該領域的調查能夠全面介紹和總結其主要思想、學習算法等相關問題，為未來的研究提供見解。

本文首先介紹了領域泛化的研究概況，重點介紹了領域泛化的公式、理論、算法、數據集、應用以及未來的研究方向。希望本研究能為相關研究者提供一個全面的回顧，并對相關領域的研究有所啟發。

本文的結構組織如下。我們將在第2節中闡述領域概括并討論其與現有研究領域的關系。第3節介紹了領域泛化的相關理論。在第4節中，我們詳細描述了有代表性的DG方法。第5節介紹了應用程序，第6節介紹了DG的基準數據集。我們在第7節中總結了現有工作的見解，并提出了一些可能的未來方向。最后，在第8節對本文進行總結。

方法體系

領域泛化方法是我們的核心。本文將已有的領域泛化方法按照數據操作、表示學習、學習策略分為三大方面，如下圖所示。

數據操作，指的是通過對數據的增強和變化使訓練數據得到增強。這一類包括數據增強和數據生成兩大部分。

表示學習，指的是學習領域不變特征(Domain-invariant representation learning)以使得模型對不同領域都能進行很好地適配。領域不變特征學習方面主要包括四大部分：核方法、顯式特征對齊、領域對抗訓練、以及不變風險最小化(Invariant Risk Minimiation, IRM)。特征解耦與領域不變特征學習的目標一致、但學習方法不一致，我們將其單獨作為一大類進行介紹。學習策略，指的是將機器學習中成熟的學習模式引入多領域訓練中使得模型泛化性更強。這一部分主要包括基于集成學習和元學習的方法。同時，我們還會介紹其他方法，例如自監督方法在領域泛化中的應用。

付費5元查看完整內容

人工智能 · 深度強化學習 · 深度學習 · 強化學習 · 智能控制 ·

2021 年 1 月 28 日

[付費5元查看完整內容]深度強化學習在智能制造中的應用展望綜述

專知會員服務

專知，提供專業可信的知識分發服務，讓認知協作更快更好！

深度強化學習作為機器學習發展的最新成果，已經在很多應用領域嶄露頭角。關于深度強化學習的算法研究和應用研究，產生了很多經典的算法和典型應用領域。深度強化學習應用在智能制造中，能在復雜環境中實現高水平控制。對深度強化學習的研究進行概述，對深度強化學習基本原理進行介紹，包括深度學習和強化學習。介紹深度強化學習算法應用的理論方法，在此基礎對深度強化學習的算法進行了分類介紹，分別介紹了基于值函數和基于策略梯度的強化學習算法，列舉了這兩類算法的主要發展成果，以及其他相關研究成果。對深度強化學習在智能制造的典型應用進行分類分析。對深度強化學習存在的問題和未來發展方向進行了討論。

付費5元查看完整內容

游客

閱讀: 0 點贊: 0

小貼士

登錄享主題訂閱及個性化推薦

相關主題

AI與體育

計算機視覺

深度學習

北京阿比特科技有限公司

注冊地址：北京市海淀區羊坊店路18號2幢3層301-191

亚洲男人的天堂2018av,欧美草比,久久久久久免费视频精选,国色天香在线看免费,久久久久亚洲av成人片仓井空

相關內容

摘要

關鍵詞

引言

1 通用深度神經網絡模型

2 輕量化網絡

3 面向特定任務的深度網絡模型

3.1　目標檢測

3.2　圖像分割

3.3　超分辨率

4 神經架構搜索

5 結束語

引言

基于深度學習的圖像目標檢測模型

基于候選區域的圖像目標檢測模型

基于回歸的圖像目標檢測模型

SSD 及擴展模型

基于 anchor-free 的圖像目標檢測模型

基于關鍵點的檢測

基于分類和回歸進行改進的檢測

圖像目標檢測模型對比

亚洲男人的天堂2018av,欧美草比,久久久久久免费视频精选,国色天香在线看免费,久久久久亚洲av成人片仓井空

相關內容

摘要

關鍵詞

引 言

1 通用深度神經網絡模型

2 輕量化網絡

3 面向特定任務的深度網絡模型

3.1 目標檢測

3.2 圖像分割

3.3 超分辨率

4 神經架構搜索

5 結束語

引言

基于深度學習的圖像目標檢測模型

基于候選區域的圖像目標檢測模型

基于回歸的圖像目標檢測模型

SSD 及擴展模型

基于 anchor-free 的圖像目標檢測模型

基于關鍵點的檢測

基于分類和回歸進行改進的檢測

圖像目標檢測模型對比

引言

3.1　目標檢測

3.2　圖像分割

3.3　超分辨率