久久一级高潮A免费,碰碰女人公开免费视频,国产免费AV喷水在线播放,又粗又大又硬好爽好猛免费视频

邊緣智能作為一項新興技術，正受到國內外學者的廣泛關注，其作為人工智能技術與邊緣計算技術的結合，有望促進人工智能技術在各行業的部署，加速產業智能化進程。該文首先介紹了邊緣智能技術的基本原理、系統架構及其比較優勢，梳理了邊緣智能技術的國內外研究現狀；分析了邊緣智能在軌道交通建設工程、運維調度、智能控制、改造升級的全生命周期應用前景，詳述了邊緣智能技術在軌道交通過程管理控制、建設現場數據采集分析、信息共享、智能運維、智能調度、自動駕駛系統、列車協同控制及改造升級等全生命周期中的賦能作用。該文隨后設計與實現了軌道交通智能運行控制為背景下的邊緣智能平臺，測試基于深度學習和強化學習的邊緣智能應用的功能及性能。最后，歸納了邊緣智能技術在軌道交通領域應用的問題與挑戰。該文的研究期望為軌道交通領域的邊緣智能應用提供有益的借鑒和實踐基礎。

當前，隨著全球科技革命浪潮的興起，人工智能逐漸在各傳統產業中占據越來越重要的位置。近年來，軌道交通領域信息化、智能化建設的步伐逐漸加快，也因此正面臨著越來越多的問題和挑戰。邊緣智能技術作為一種將人工智能推向網絡邊緣的新型技術，正成為充分發展人工智能技術時不可或缺的一環。邊緣智能技術的構想最早于2009年由微軟公司提出[1]，他們嘗試構建了一個給予邊緣設備的移動語音識別支持的系統。隨后，邊緣智能的概念經歷了兩個階段的更迭[2]。第1階段，通常認為邊緣智能的概念僅限于在數據生產的終端設備上運行人工智能應用。隨后，學者將邊緣智能的概念擴展至包括云計算中心、邊緣節點、終端設備的全場景架構模式[3]。邊緣智能是通過邊緣計算技術將人工智能技術推廣到網絡邊緣的一種新型技術[4]。邊緣智能作為一種可以充分利用現有云、邊、端網絡帶寬資源、計算資源的整體架構，為人工智能算法大規模部署提供了基礎平臺。這意味著，邊緣智能技術將解決傳統計算中心模式下單節點故障、隱私泄露、主干網絡帶寬資源不足的情況，同時解決終端設備計算資源緊缺的問題。

軌道交通作為一種運力大、速度高的交通方式，在保障游客出行、貨物運輸和緩解交通壓力等方面發揮著巨大的作用[5]。軌道交通的安全、高效運行，是軌道交通運營的核心目標[6]。近年來，我國在建設智能化、信息化軌道交通的建設上高速發展。為進一步提升軌道交通運行安全性、可靠性，提高運輸能力，減少人為失誤，智能駕駛、智能調度、智能運維等基于人工智能算法的應用被廣泛使用[7]。現如今，隨著大數據賦能的人工智能技術的廣泛研究及應用，軌道交通信息化及智能化的進程得到了進一步提高。例如，京張鐵路就將人工智能技術深度融合至智能車站、智能列車、智能運輸、旅客智能出行等各方面[8]。與此同時，人工智能應用帶來的龐大的算力需求對軌道交通基礎設施提出了挑戰。在大量人工智能技術運用到軌道交通中各個方面的同時，一些應用場景對低時延、高算力、高信息隱私安全的需求及傳統的軌道交通數據提出了新的要求。軌道交通傳統數據處理方式以云計算架構為主[9]。云計算中心具有算力強、數據存儲空間大等特點，但依然存在以下問題嚴重阻礙了人工智能在軌道交通中的應用：軌道交通中的智能駕駛、智能調度等業務需要很強的實時性，云計算架構的集中式遠端服務器由于物理傳輸時延無法消除等因素，無法滿足系統進一步實時性的需求；軌道交通系統是極度依賴于傳感網絡的系統，由于各種傳感設備數量的指數式增加，軌道交通現有的通信架構無法滿足大量、異構結構數據的上傳；基于云平臺的軌道交通系統多依賴于集中式服務器，這給軌道交通系統的安全性帶來極大的挑戰。同時，由于傳統軌道交通煙囪式業務系統存在基礎設施重復建設、運維成本高、信息孤島等問題，導致雖然軌道交通海量傳感器產生的大數據無法賦能人工智能應用。

張春杰等人[10]對物聯網及人工智能技術在城市軌道交通監控系統中的應用進行了討論，探索了先進的城市軌道交通綜合監控系統的可能性。其中，人工智能技術作為核心推動力，是無人化、智能化監控系統的保障。魏秀琨等人[11]系統性地總結了機器視覺在軌道交通系統狀態檢測中的應用，詳細分析了基于人工智能的機器視覺檢測方式相較于人工檢測方法有著更高的效率及準確率。文中詳述了人工智能技術在弓/網系統檢測、軌道交通線路狀態檢測上，基于機器視覺的自動化檢測方式相較于傳統人工巡檢、接觸式檢測等方式具備顯著的成本成本，檢測靈活性高，準確度高，設備智能程度高，并且對正常行車干擾影響小等優勢。同時，在諸如司機行為檢測、車站安全監控等機器視覺傳統優勢場景下，人工智能的廣泛引用進一步推進了軌道交通智能化等進程。然而，車載服務器算力限制、基于邊緣計算等技術的架構設計等尚未得到充分研究等問題，制約了人工智能技術在軌道交通中的實際應用。周超等人[12]研究了云邊協同技術在軌道交通中的應用，并提出了城市軌道交通的典型應用場景視頻監控系統云邊協同技術架構。通過利用云計算高算力及邊緣計算高實時性的優勢，對客流密度、人員行為等任務進行合理的資源分配，完成高效的感知識別。然而該研究中未考慮車載算力，架構設計上欠缺了云-邊-端協同架構。以上這些研究主要著眼于人工智能技術或邊緣計算技術在軌道交通中的應用。然而，當前尚未有研究者嘗試將邊緣智能技術及其計算架構引入軌道交通中，也沒有研究者嘗試綜合分析邊緣智能技術在軌道交通中的應用前景。在軌道交通中采用邊緣智能的架構，由于邊緣計算的固有特性，不僅可以有效解決軌道交通應用對低延時、高數據安全的要求，同時可以將更多傳感器數據應用起來，打破信息孤島，賦能智能軌道交通。目前，我國正大力建設軌道交通信息化、智能化發展，邊緣智能作為一種新型技術，通過靈活的計算架構，將充分利用有限資源最大化人工智能在軌道交通中的應用。本文研究了邊緣智能技術及其在軌道交通中的應用。首先闡述了邊緣智能的定義及其架構；然后對邊緣智能技術在軌道交通領域的應用前景進行詳細分析，并介紹了本文設計與實現的軌道交通邊緣智能應用，以及系統性能測試；最后總結了邊緣智能在軌道交通應用中的挑戰與問題。由于邊緣智能技術在軌道交通中的應用尚處于極其早期的起步階段，相關研究仍有巨大空缺，因此我們希望通過本文為研究者構建起連接邊緣智能與軌道交通的橋梁，為未來更加智能化的軌道交通系統提供可能性。

2 邊緣智能技術概述

邊緣智能是利用邊緣計算技術運行人工智能應用程序的一種范式，其能充分利用邊緣資源。邊緣計算是邊緣智能的基礎，從原理上講，邊緣計算是將計算單元部署在終端設備以及云計算中心的新型計算范式[13]。隨著人工智能應用的大數據屬性不斷提升，大數據使能的人工智能應用正逐漸成為主導[14]。近年來，軌道交通大數據化已成為趨勢[15]。然而，現有的計算架構在面臨海量數據處理時面臨著不可避免的缺陷。終端設備由于其自身算力薄弱，無法支撐海量數據的計算任務。與此同時，云計算架構又面臨著巨大的主干網絡壓力以及較大的傳輸時延。因此，通過將人工智能應用推向網絡邊緣，邊緣智能的理念應運而生。邊緣智能中的資源涵蓋了從云計算中心到終端設備上所有的計算、網絡資源。邊緣智能，即將人工智能技術應用于邊緣計算框架中。邊緣智能涵蓋了協同訓練及協同推斷，如圖1所示，其基礎架構可分為7層(Level)：模型放置與云計算中心訓練，并由云-邊協同推理模型(Level 1)、模型放置與云計算中心訓練，邊緣側協同推理模型(Level 2)、模型放置與云計算中心訓練，模型均于終端設備推理 (Level 3)；基于邊緣側訓練模型的云-邊協同推理 (Level 4)、全于邊緣側推理(Level 5)、邊緣-終端協同推理(Level 6)、全于終端設備推理(Level 7)。在邊緣智能框架中，數據更多地留在邊緣服務器或終端設備中處理，原始數據將避免在主干網絡中直接傳輸。其中，隨著邊緣智能等級(Level)的提升，網絡中數據的上傳量越少，因此由于數據傳輸過程中的網絡攻擊帶來的信息泄露、信息被篡改的風險也將顯著降低。特別地，在全于終端設備推理 (Level 7)模式下，所有的數據將在終端設備本地生成、處理、推理計算，具備離線運行屬性，滿足部分高隱私敏感性應用的運行需求。因此，對于隱私高敏感性的數據源來說，其數據由于在主干網絡的傳輸過程中由于數據泄露、黑客攻擊導致的隱私安全問題將得以緩解。與此同時，相較于傳統的基于云計算中心的計算架構模式，在邊緣智能架構中由于邊緣服務器與終端設備間物理距離相較云計算服務器與終端設備間顯著縮短，其數據傳輸時延將顯著降低，具備更強的數據處理低延遲特性。將計算過程從云計算服務器移動至邊緣服務器，極大減少了不可避免的數據網絡傳輸時延，可以讓實時性要求較高的應用成為可能。同時，對比傳統的邊緣計算模式，邊緣智能將人工智能技術引入其架構之中，依托人工智能技術將更好地完成任務卸載、資源費配的決策，從系統架構上賦予了智能化服務的能力。智能化的服務卸載策略將根據實際情況動態做最優化判斷，保證用戶始終擁有最好的服務水平。由于邊緣服務器可以對數據進行預處理，終端設備產生的原始數據不再需要全部上傳至云計算中心，邊緣服務器可以選擇性地上傳數據處理后的信息至云計算中心。因此，主干網絡的壓力將得到極大的緩解。邊緣智能同時還具有更高的隱私安全性。綜上，在邊緣智能框架中，既可以將人工智能軟件部署在邊緣計算框架中以實現低延遲、高隱私安全的智能化應用，又可以應用人工智能算法實現邊緣服務器智能切換以提升服務質量。

付費5元查看完整內容

相關內容

邊緣智能

關注 19

AI與體育 · 計算機視覺 · 深度學習 ·

2023 年 7 月 17 日

[付費5元查看完整內容]深度學習在體育應用中的研究概覽：感知、理解和決策

專知會員服務

專知，提供專業可信的知識分發服務，讓認知協作更快更好！

深度學習有潛力革新體育表現，其應用范圍從感知和理解到決策。本文提供了深度學習在體育表現方面的全面調研，主要關注三個方面：算法、數據集和虛擬環境，以及挑戰。首先，我們討論了體育表現中深度學習算法的層級結構，包括感知、理解和決策，同時比較了它們的優勢和劣勢。其次，我們列舉了體育中廣泛使用的現有數據集，并強調了它們的特性和局限性。最后，我們總結了當前的挑戰，并指出了體育中深度學習的未來趨勢。我們的調研為對體育應用中的深度學習感興趣的研究者提供了寶貴的參考資料。

人工智能（AI）在體育世界中找到了廣泛的應用，并在未來大有前景。它不斷增長的參與定將以無數的方式革新這個行業，使效率和精確性達到新的高度。AI在體育中的一個重要應用是使用深度學習技術。具體來說，這些先進的算法被用于運動員表現分析、傷病預測、比賽策略制定等領域[1]。通過捕獲和處理大量的數據，深度學習模型可以預測結果，發現模式，并制定可能并不明顯的策略。深度學習與體育產業[2]，[3]的無縫整合展示了科技如何提升我們優化體育表現和決策的能力。雖然預測和優化運動員的表現有許多優點，但這仍然是一個復雜的問題。傳統上，體育專家如教練、經理、偵查員和體育健康專業人員都依賴于常規的分析方法來應對這些挑戰。然而，收集統計數據和手動分析決策是一項要求高且耗時的工作[4]。因此，由機器學習驅動的自動化系統顯然是一個有前景的解決方案，它可以通過自動化處理大規模數據來革新體育產業。

近年來，探討機器學習和深度學習在體育表現中的應用的全面調研數量明顯增加。這些調研涵蓋了廣泛的主題，包括識別特定的體育運動[5]、挖掘體育數據[6]，以及在團隊體育中使用AI技術[7]。雖然有些調研關注特定的體育項目，如足球[7]和羽毛球[8]，但其他的則集中在計算機視覺的特定任務上，如視頻動作識別[9]、視頻動作質量評估[10]和球體追蹤[11]。此外，還有一些研究探索了可穿戴技術[12]，[13]和運動捕捉系統[14]在體育中的使用，尤其強調物聯網（IoT）。之前的研究[15]，[16]使用了分層方法來分析體育表現，從較低級別的方面開始，逐步提升到更高級別的組件，同時也提供了訓練建議。為了理解深度學習在體育中的應用，我們將其分為三個層次：感知、理解和決策。此外，我們根據特定的體育學科對不同的數據集進行了分類，并概述了與深度學習方法和數據集相關的主要挑戰。此外，我們還強調了基于現有工作的深度學習未來發展方向，這些工作是建立在基礎模型上的。

這篇關于深度學習在體育表現中的全面調研的貢獻可以總結為三個關鍵方面。

? 我們提出了一個系統地將深度學習任務劃分為三類的層級結構：感知、理解和決策，覆蓋了從低級到高級的任務。 ? 我們提供了體育數據集和虛擬環境的概述。同時，本文涵蓋了數十種體育場景，處理了視覺信息和物聯網傳感器數據。 ? 我們總結了當前的挑戰和未來在各種體育領域中深度學習可行的研究方向。本文的組織結構如下：第二、三、四部分介紹了體育中的感知、理解和決策任務的不同方法。第五、六部分討論了與體育相關的數據集和虛擬環境。在第七、八部分，我們強調了體育中深度學習的當前挑戰和未來趨勢。最后，我們在第九部分結束了本文。

2. 感知

感知涉及到獲取數據的基本解讀。本節將展示針對感知層級特定體育任務定制的不同深度學習方法，如圖3所示。接下來的感知部分將包括諸如運動員追蹤、運動員姿態識別、運動員實例分割、球的定位、相機校準等任務。

III. 理解

理解可以定義為理解和分析數據的過程。相比于第二部分討論的感知階段，它涉及到更高級別的任務。為了全面理解體育，實現過程可以使用原始數據，并直接或間接地整合來自感知層的任務。也就是說，它可以利用從感知網絡得到的輸出，如人體骨骼，深度圖像等。

IV. 決策

體育中的決策或決策制定過程涉及到最高級別的任務，在產生更抽象的決策之前，部署或隱含的體育感知和理解是至關重要的。本節包括了各種任務，如比賽評估，比賽預測，比賽模擬，運動員動作生成，比賽生成等，如圖5所示。

在這篇論文中，我們對體育中的深度學習進行了全面的調研，主要關注四個方面：算法、數據集、挑戰和未來的工作。我們創新性地總結了分類，并將方法從低級到高級任務劃分為感知、理解和決策。在挑戰和未來的工作中，我們提供了前沿的方法，并對體育中深度學習的未來趨勢和挑戰提供了深入的見解。

付費5元查看完整內容

遷移學習 · 深度學習 · 工業監控 · 故障診斷　 ·

2023 年 1 月 8 日

[付費5元查看完整內容]面向工業監控典型監督任務的深度遷移學習方法：現狀、挑戰與展望

專知會員服務

專知，提供專業可信的知識分發服務，讓認知協作更快更好！

基于深度遷移學習的工業監控方法在近年來獲得了大量研究關注，特別是在以故障診斷、軟測量等為代表的工業監控典型監督任務中。通過挖掘與遷移相似源域的知識來完成對目標域的建模，這類方法為實際工業場景中變工況等原因導致的跨域監控問題提供了新的思路。本文系統梳理了面向工業監控典型監督任務的深度遷移學習方法，并將其分為基于模型遷移、基于樣例遷移與基于特征遷移的工業監控方法。在此基礎上，對不同類方法的基本研究思想、在故障診斷與軟測量任務中的研究進展進行了詳細闡述。隨后，從實際工業場景的復雜欠數據問題、可遷移性的量化與負遷移問題、工業過程的動態特性問題等角度，指出了當前基于深度遷移學習的工業監控研究中存在的挑戰，并對該領域的未來研究方向做出進一步展望。

1. 引言

隨著現代工業不斷向高端化、復雜化趨勢發展，系統運行的安全性、可靠性面臨著更大挑戰 [1～ 3]。作為保障工業安全可靠運行的必要手段，以數據驅動的故障診斷與軟測量為典型代表的工業監控任務在近年來獲得了大量關注 [4～6]。故障診斷旨在識別出當前系統所發生的故障類型，而軟測量往往利用過程中較易測得的變量實現對質量變量的回歸建模。其中，質量變量一般指在工業過程中與產品質量緊密相關的、需加以監控的過程變量，這類變量往往具有獲取成本較高、測量具有一定延遲等特點 [7]。由于這兩類任務往往基于工業過程歷史運行過程中積累的標注樣本，有監督機器學習方法目前在這兩類任務中得到了廣泛應用 [8～10]。近十年來，得益于深度學習算法的蓬勃發展與各類工業傳感器的廣泛部署，基于深度學習的方法在工業監控領域大放異彩。例如，基于各類卷積神經網絡 [11～14]、遞歸神經網絡 [15, 16] 與 Transformer [17] 的方法在工業故障診斷、工業過程軟測量任務中相較傳統機器學習方法獲得了顯著性能提升。然而，這些方法往往假設訓練數據與測試數據具有相同的分布 [18]。在實際工業場景中，操作條件改變、給料變化等復雜變工況現象 [19～22] 導致了顯著的訓練與測試數據分布不一致問題。這一問題為傳統深度學習方法的廣泛應用帶來了挑戰。

近年來，隨著深度遷移學習方法的興起，通過挖掘與遷移相似源域的知識來完成對目標域的建模，為解決上述問題提供了新的思路 [23]。一般來說，深度遷移學習方法以深度神經網絡為基礎，通過利用源域中的數據或模型，進一步結合目標域中的有限數據，以完成知識的遷移過程。不同于傳統基于機器學習的工業監控方法對不同域單獨建模并決策，基于深度遷移學習的工業過程監控方法往往利用源域中的知識來協助目標域中模型的建立。這一過程本質上模仿了人類可以利用從歷史經驗中學習到的知識以輕松適應新的場景這一能力。基于此理念，近年來深度遷移學習方法在工業監控領域中受到了大量關注。在谷歌學術網站1)中分別以 ““deep transfer learning” “fault diagnosis” OR “soft sensor”” 和 ““深度遷移學習” “故障診斷” OR “軟測量”” 作為組合關鍵詞進行中英文文獻搜索，可以得到相關領域歷年中英文發表文章數量的發展趨勢。如圖1所示，在過去的五年中，本領域的相關研究經歷了飛速發展，其中，英文文獻數量從 2017 年的 4 篇增長至 2021 年的 990 篇，中文文獻數量從 0 篇增長至 28 篇，顯示出相關學者對本領域的關注不斷提升。當前，國內外學者針對基于深度遷移學習的故障診斷與軟測量問題進行了大量的研究，也有一些工作對相關研究進行了整理與綜述。例如，文獻 [23] 根據傳統遷移學習中的不同任務場景，將遷移學習分為歸納式、直推式以及無監督的遷移學習。Tan 等人 [24] 根據在深度遷移學習任務中使用的具體方法不同，將深度遷移學習進一步分為基于樣例、基于映射、基于網絡與基于對抗的方法。在機械設備的故障診斷方面，目前已有若干前人工作 [25,26]。例如，Li 等人 [27] 對深度遷移學習的分類與工業應用場景進行了總結與綜述。此外，針對流程工業的軟測量問題，Curreri 等人 [28] 根據遷移學習在不同類型工業過程中的應用進行了梳理與討論。Maschler 等人 [29] 對深度遷移學習在工業自動化領域的若干研究進行了簡要回顧，并討論了該類方法在印刷電路組件制造等任務中的應用。總體來看，目前工業領域中的大多數綜述工作主要關注機械設備的故障診斷問題，從深度遷移學習的角度出發對工業監控中的工業故障診斷與工業過程軟測量領域研究進行梳理總結的文章相對較少。基于此，本文面向工業監控中的兩種典型有監督任務，即故障診斷與軟測量，對深度遷移學習方法展開了相關綜述。其中，故障診斷和軟測量任務一方面對提高系統安全性、提升產品質量有重要意義；另一方面其建模往往基于工業過程歷史運行過程中積累的有監督樣本，屬于工業監控中有監督學習的典型代表。此外，在這兩個場景中的深度遷移學習相關研究也在近年來獲得了大量學者的研究關注，屬于工業監控領域的熱門研究方向之一。

本文的結構框架如圖2所示。首先，對基于深度遷移學習的工業監控方法現狀進行介紹。其中，首先對深度遷移學習進行概述，進而將面向工業監控典型監督任務的深度遷移學習方法分為三個類別，即基于模型、基于樣例與基于特征遷移的工業監控方法。在每種類別下分別對故障診斷與軟測量兩種應用場景進行介紹。其次，從跨域工業監控中的復雜欠數據問題、可遷移性的量化與負遷移問題，以及工業過程的動態特性問題等角度，對當前基于深度遷移學習的工業監控方法所面臨的挑戰進行了分析。最后對本領域的未來研究方向，包括多源信息融合的跨域工業監控以及語義知識與數據聯合驅動的跨域工業監控做出進一步展望。

**基于深度遷移學習的工業監控方法總結 **

在本小節中，將基于模型遷移、基于樣例遷移與基于特征遷移的工業監控方法的應用任務、典型工作、方法特點與適用場景總結于表1中。如表所示，總體來看，基于模型遷移的工業監控方法往往要求目標域中包含少量標注數據。若源域中包含充足標注數據，即可基于源域工況建立基礎模型；反之，可利用 ImageNet 預訓練模型或計算仿真等方式實現源域模型的構建。對于樣例遷移類方法，往往針對源域與目標域均具有標注樣本的情況，通過對源域與目標域數據進行權重學習，從而實現可遷移樣例的挖掘。此外，樣例遷移學習對域間差異較大或不同域間具有不同故障標簽空間的場景較為適用。最后，基于特征遷移的工業監控方法相較于其余兩類方法，在近年來獲得了更多的研究關注。該類方法目前的主流方式是通過利用域差異度量指標或域對抗訓練的方式進行遷移，較適用于目標域中只有無標注樣本的場景。

付費5元查看完整內容

AI與軍事 · 人工智能 · 軍事后勤 ·

2023 年 1 月 1 日

[付費5元查看完整內容]人工智能技術在軍事及后勤領域的應用研究?

專知會員服務

專知，提供專業可信的知識分發服務，讓認知協作更快更好！

人工智能技術的飛速發展令其成為軍事領域應用的熱門技術之一，人工智能技術為軍事后勤領域提供更好發展條件的同時，也對其提出更高要求。論文先分析了當前人工智能技術在軍事領域的發展方向，闡述了在軍事后勤領域關于人工智能技術的運用，提出對智能化后勤進一步發展的啟示，要想在未來戰爭中占據優勢，必須合理地在提高監控、后勤保障、態勢感知以及網絡作戰等方面將人工智能技術積極多元的運用起來。

1. 引言

人工智能技術在大數據時代的飛速發展，已經滲透到了醫療保障、物流運輸、教育服務、數據通信、智能汽車、智能監控及工業應用等各行各業，彰顯出了人工智能作為新興科技的價值和發展潛力［1］。此外，在軍事領域人工智能技術發揮著不可替代的作用，例如網絡通信安防、智能文件管理、智能識別以及情報分析等［2］。推動人工技術更新迭代的重要因素之一是其帶來可觀的經濟效益，人工智能技術在市場上的發展趨勢一直高居不下，為市場創造出不可估量的財富，截止2019年底，數據顯示我國實體經濟產業在人工智能板塊的規模高達 570億元。近年來，人工智能技術的運用在不知不覺中改變了國民的生活，對于軍事領域來說，更加需要利用人工智能技術為軍隊提供支撐［3］。美國第 45 任總統特朗普在 2020 年初批準了一項法規，限制所有關于人工智能類的軟件出口，其中包括各種無人機、衛星和傳感器以及能夠自動識別軍用、民用目標的軟件，這一舉措就是為了阻止其他國家利用美國相關技術，研制出功能更強、水準更高、成本更低的軍事領域人工智能產品［4］。從中不難看出，人工智能技術已是當前各個國家大力發展的對象，人工智能技術運用的成敗在未來戰爭中將成為軍隊能否取得制勝先機的關鍵要素之一［5］。

2 人工智能技術在軍事領域的應用發展方向

自人工智能問世后，這幾十年的時間中有不少專家都在研究、分析人工智能可以代替人類工作的可能性，其中以 CarlB.Frey 和 MichaelOsborne 兩位學者牽頭的“TheFutureofEmployment”研究最具代表性，如表 1 所示，羅列了部分軍地部分工種崗位被人工智能替代的可能性。表 1 雖然只是對部分和軍事領域類似的工種進行了預測，但是也不難看出人工智能在軍事領域的發展方向。人工智能對于指揮、管理的工種替代可能性較小，對于部分支援、保障類的工作任務可替代性就比較高一些。人工智能已經是現代戰爭中和未來戰爭中不可或缺的一部分［7］，當前人工智能在軍事領域的發展方向，可以大致概括為以下幾個方面。

1）作戰平臺

人工智能在軍事領域的應用一直以來受到各界關注，各國在陸、空、海以及太空等其他系統中大量的融入人工智能技術［8］。利用人工智能技術可以開發出更加高效、減少人工操作的智能化戰爭系統，除此之外在減少人工維護的工作量同時，還提高了戰爭系統各方面的性能，未來隨著技術的發展，或許還能夠自動與高速武器開展協同工作。

2）網絡安全

在整個軍事系統里，最容易遭到惡意攻擊的無疑是網絡系統，一旦受到攻擊，有可能軍事系統會受到破壞，一些重要、機密的信息也可能會丟失。在網絡安全這一板塊配置人工智能系統不僅可以保護計算機以及各個程序、數據不被惡意訪問，還可以利用人工智能技術開發對應的反擊程序來應對這些非法攻擊。

3）目標識別

目前許多研究人員為了提高在復雜的作戰環境中對于目標識別的精準度在不斷地朝著開發人工智能技術。利用這項技術可以讓軍隊在分析文檔信息、數據或者其他非結構化內容的時候，更加深層次地理解潛在作戰領域的可能性，同時還可以提升軍事系統識別目標位置的性能。正在開發人工智能技術以提高復雜戰斗環境中目標識別的準確性。這些技術使軍隊能夠通過分析報告、文檔、新聞提要和其他形式的非結構化信息來深入了解潛在的作戰領域。此外，目標識別系統中的人工智能提高了這些系統識別目標位置的能力。支持人工智能的目標識別系統的能力包括基于概率的敵人行為預測、天氣和環境條件匯總、潛在供應線瓶頸或漏洞的預測和標記、任務方法評估以及建議的緩解策略。例如，DARPA（美國國防部高級研究計劃局）在激烈競爭環境中的目標識別和適應（TRACE）計劃使用了機器學習技術在合成孔徑雷達（SAR）圖像的幫助下自動定位和識別目標。

4）態勢感知和威脅監控

在軍事戰爭中除了要及時收發數據信息以外，在強對抗環境下還要預處理之前所收集的信息，分析、整理具有價值的數據，利用信息整合形成情報優勢。情報信息涵蓋了多方面的數據內容，例如電子情報、地理空間情報、開源情報、全動態視頻、音頻、社交媒體等方面。這些情報信息在數據中心進行存儲，可以通過索引搜索出相關的內容，發送這些數據實現數據共享。人工智能實時對這些數據進行先進分析，將通知和警告發送到設備上，分析人員在進行反饋。在向指揮官發送信息時，指揮官可以根據這些數據，分析態勢、及時判斷敵方的作戰部署，從而做到真正意義上的知己知彼，感知戰場動態。以人工智能為基礎的情報收集系統如圖 2所示。

把人工智能技術作用到執行 ISR（情報監控）任務中可以通過兩個方面進行。一方面是將人工智能技術運用到無人機、無人駕駛領域［9］，這一部分的運用主要是為了解決在極端、惡劣的天氣、環境影響下任務執行不會受到影響，從而更好地協同工作、輔助部署部隊。另一方面是用人工智能來分析和處理數據信息。在人工智能系統中，可以通過預設的功能來查找無人機偵察視屏里出現的一些異常畫面，識別目標。如果讓人類去負責這一部分的操作，不僅會耗費時間，并且效率也不高，但是利用人工智能技術就可以在短短的幾小時內完成這些任務。

5）戰斗模擬與訓練模擬

戰斗模擬與訓練模擬與訓練是一個多學科領域，它將系統工程、軟件工程和計算機科學結合起來構建計算機模型，使士兵熟悉在軍事行動中部署的各種作戰系統。美國正在將越來越多的投資應用于模擬和培訓。美國海軍和陸軍都在進行戰爭分析［10］，這促成了一批數字孿生傳感器模擬程序的啟動。美軍目前已經招募 Leidos、SAIC、AECOM和 OrbitalATK等公司來支持其相關研究計劃。圖3展示了 KWM 公司所研發的一款戰斗模擬方艙，該方艙具備適用于武器制造商的模擬系統，通過全景仿真可將載具全組人員完全納入模擬流程，能夠提供逼真的戰斗體驗，該方艙模擬練習時能提供高達每練 1000 次 CGF（兵力生成計算），可以實現指揮控制系統和無線電電路的仿真，能夠通過設備聯網進行營連排三級訓練以及綜合武器射擊模擬。圖 4 展示了該方艙所模擬出的效果。

6）智慧勤務

美國在 2018年的時候就提出要重視利用計算機技術實現軍事后勤的改變，其中最為重視的就是數字化手段對于智能化后勤發展的影響。美國在軍事價值鏈上沿用了傳統的數據（data）、信息（in?formation）、知識（knowledge）、智慧（wisdom）體系，嘗試把大量的后勤數據轉換成DIKW體系，以此來完成裝備后勤保障決策，DIKW體系如圖5所示。

智能化后勤在智能化戰爭的環境中可以進一步和作戰系統進行協作。通過信息化手段更加仔細、精準地將后勤的物資進行分類管理和統計，其中，最主要的是可以實時分析戰場情況，捕捉到潛在的數據信息，將這些內容提供給指揮員，幫助他們做出決策。如果各種條件允許的情況下，甚至可以根據當前戰況分析直接給出最佳作戰方案，此時智能化后勤是作戰系統下的子模塊之一。

4 人工智能技術在軍事后勤的具體應用

4.1 綜合情報感知

綜合情報感知涵蓋了人員信息、物資信息、戰場信息、武器裝備信息這四個方面［11］。人員信息感知實現了對后勤資源的精準調度，其具備的能力除了可以收集戰場上士兵的移動軌跡和位置外，還具備傷員定位搜救和情況遠程回送的功能；物資信息感知具備支撐物資管理、查詢等功能，實現了軍需物資從生產到使用的整個過程跟蹤與監控這一目標，物資信息包含了像槍彈、燃料、藥品等各種軍需物資在運輸和使用過程中其狀態數據內容的收集和處理；戰場信息感知實現了對于敵方在戰場上的部署、行動、武器裝備這類信息的收集和發送，為部隊在定位敵方目標以及評估敵方戰斗力等方面提供數據支撐；武器裝備信息可以實現各類武器裝備位置、武器使用狀態、各個設施的信息收集，可以在部隊武器裝備、設施方面為部隊提供支持，如圖 6 展現了一種全資產可視系統。

4.2 智能設施控制

人工智能在軍事后勤領域的運用主要體現在監控板塊，簡單來說，智能設施控制就是可以遠程監視與控制軍用智能化設施、裝備，像無人機、無人駕駛、自動化控制系統等軍用智能設施（圖 7）。利用智能設施中的傳感器系統實現對設施的遠程監視，利用智能設施的控制器和處理器傳輸的指令和程序實現對自動化執行任務的遠程控制。目前軍隊也在這一方面開展相關研究，使用人工智能輕松檢測軍用艦隊組件異常并快速分析故障原因；使用無人駕駛汽車按照設定好的地面補給［12］，規劃一線戰場和部隊基地進行物資等資源補給，從而降低后勤補給部隊人員在戰場上可能面臨的風險，同時減少運輸成本及優化人力操作的工作，如美國陸軍與 IBM公司合作，使用Watson人工智能平臺來幫助預先識別Stryker戰車的維護問題等。

4.3 戰傷醫療救護

在現實戰爭現場中，受傷的士兵大部分無法第一時間獲得醫療援助，一是因為傷員的受傷程度遠遠超出了現場醫護人員的救治能力范圍，二是有可能因為該片區醫護人員數量配備不足。所以在戰場上要先對受傷的士兵進行分類，受傷較為嚴重的士兵應該最先得到醫療救護。因此人工智能技術為醫療救助開辟了新領域，美國的遠程醫療與先進技術研究中心與CR（組合變量）分析公司在軍事醫療領域開展合作，研發自動加固戰斗傷員護理系統，該系統主要是針對戰場上傷員的診斷和指令，但是就目前的技術發展限制，該系統還沒有完全獨立出來成為一個完整的自動醫療救助系統，更像是一款智能軟件，它能輔助醫護人員診斷傷員的受傷情況，監測傷員身體情況并且及時為病人提供治療服務。同時，為了更好地在遠程手術以及人員疏散活動中給人類士兵提供保障服務，美國特別重視將人工智能技術與機器人手術系統（RSS）及機器人地面平臺（RGP）進行集成，在惡劣的環境下，利用人工智能配置的醫療系統可以分析、整理出軍人的歷史病例輔助醫生進行治療等。

4.4 信息分析融合

信息分析與融合能力包括多級信息融合與綜合信息統計分析。在戰場上，將傷員的地理位置、移動軌跡以及心跳速率等信息進行融合，從而分析、判斷傷員的受傷情況是否嚴重，利用多類型傳感器將聲音、光照、電磁、心率等產生的信息進行融合；戰場上想要更加精準的判別敵方的行動部署等信息，就要對戰場上敵方士兵、人員或者設備的活動軌跡以及武器裝置的類型這類信息進行融合、分析，幫助指揮員更準備判斷當前戰場上的態勢。

5 啟示

5.1 智能化戰爭模式改變后勤保障理念

智能化戰爭將成為未來戰爭中的核心部分，而后勤保障部分的服務對象也將是各種智能化作戰裝備所構成。在智能化戰爭中，其以“靈活”為核心的工作機理也將替代之前戰爭中以“快”為核心的理念［13］，因此給傳統的后勤保障系統帶來了挑戰，后勤系統要不斷調整各個模塊下的功能需求，以適應智能武器裝備的快速改變，不斷地推動后勤朝著智能化的趨勢發展。當前智能化戰爭要求后勤保障的領域廣、內容多、方法多、對象多元化以及時效性高等，所以必須利用新一代計算機技術和智能技術搭建一套完整的后勤保障體系，滿足資源可視化、可控化，可以自動生成作戰方案的現實需求。不難想象，在未來戰爭中或許國家會投放大量的無人機、機器人等智能化武器到戰場上，因此就會有大量的任務分配給后勤保障模塊，例如裝卸任務、物資運輸、戰地醫療服務和裝置維修等等。利用人工智能技術分析、整理繁雜的后勤保障需求，在進一步分析解刨當前作戰環境、條件后，可以更加高效地去組織開展智能化后勤保障的行動。

5.2 智能化后勤需要高新技術支撐賦能

在各國分別頒布了關于人工智能技術、大數據等國防戰略相關條例后，我國在 2017 年也發布了《新一代人工智能發展規劃》，該規劃中詳細的向人們展示了人工智能技術將在醫療保障、物流運輸、教育服務、智能汽車、智能監控各行各業發光發熱。智能化后勤裝備在當前戰爭中已經顯露鋒芒，例如炒菜機器人、無人機運輸、無人值守機房等，從傳統裝卸、運輸物資等方面延伸到了工程保障和生化探測等領域，其功能多維度發展。新一代計算機技術的發展，云計算、物聯網技術和機器學習等技術作用到軍事領域，可以更加精準地保障作戰部隊，搭建起多方位保障體系，在無人操作的環境下實現作戰以及保障任務。雖然目前技術還需要不斷發展，但是在解決這些技術問題后，智能機器人醫生、智能運輸配送等技術將真正走向戰場上，執行各種復雜且難度大的任務。

5.3 后勤智能化建設依賴配套發展途徑

從當前人工智能技術在我國裝備后勤的應用來看，為了更好建設智能化后勤，適應未來戰爭需求，可以首先從以下途徑開展： 1）頒布相關條例，統一標準。現有的一些裝備數據相關條例以及標準大部分都是有戰區等自行制定的，缺少規范、統一的條例，導致在后勤裝備管理維修過程中許多數據記錄留檔過于簡單，導致數據記錄不夠精準，在后面的分析過程中會降低數據的可靠性。因此需要制定統一的標準，加強頂層設計，給人工智能技術的運用打下基礎。 2）構建、完善信息系統。當前現有的裝備系統功能不一、種類繁多，每個系統的標準規范都有所差別，導致信息系統在數據共享、聯通性能方面較差，致使大部分數據都沒有完全發揮其作用。為了更好地發揮后勤裝備數據的優勢，推動智能化后勤裝備系統的建設，必須要搭建、整合統一的信息系統平臺。 3）加強軍地合作。將后勤系統和人工智能技術等高新技術結合發揮軍地融合的優勢，解決后勤管理系統在記錄記錄、傳輸、存儲、分析數據的過程中出現的各類疑難雜癥，促進智能化后勤裝備體系的構建。

6 結語

隨著計算機技術發展進程的不斷推進，我國也更加重視計算機技術在軍事領域的運用和研究，物聯網技術、大數據、云計算以及人工智能技術也將成為我國軍事研究的重點技術之一。這些技術的運用可以更好地保障作戰部隊，實現在無人操作的環境里完成所要執行的任務，豐富、擴展智能化后勤的保障手段。由此可見，信息化、智能化的戰爭是未來戰爭的主要核心部分，必須合理地將人工智能技術運用起來，在提高監視、后勤保障、態勢感知以及網絡作戰等方面加強人工智能技術的運用與研究。目前在軍事領域，人工智能技術的運用還需要我們長時間的研究、分析和總結，所以我們更要緊抓這場計算機技術的改革，在技術實現和加強戰略合作兩方面進行研究，為了提高我國的國防實力將人工智能技術更加深入地利用到未來戰爭中。

付費5元查看完整內容

強化學習 · 無人車 ·

2022 年 12 月 8 日

[付費5元查看完整內容]「強化學習在無人車領域」的應用與展望

專知會員服務

專知，提供專業可信的知識分發服務，讓認知協作更快更好！

無人車（ＵＧＶ）可替代人類自主地執行民用和軍事任務，對未來智能交通及陸軍裝備發展有重要戰略意義。隨著人工智能技術的日益成熟，采用強化學習技術成為了無人車智能決策領域最受關注的發展趨勢之一。本文首先簡要概述了強化學習的發展歷程、基礎原理和核心算法；隨后，分析總結了強化學習在無人車智能決策中的研究進展，包括障礙物規避、變道與超車、車道保持和道路交叉口通行四種典型場景；最后，針對基于強化學習的智能決策面臨的問題和挑戰，探討并展望了未來的研究工作與潛在的研究方向。

1. 引言

無人車是指不具有人類駕駛機構并可以自主執行運輸、公交、物流、清掃、巡邏、救援、作戰、偵察等民用或軍用任務的智能車輛。在民用領域，無人車已成為未來智能交通與智慧城市建設的核心要素。在軍用領域，無人車也已成為各軍事大國競相角逐的新一代陸軍裝備。無人車的核心技術主要有環境感知、智能決策、路徑規劃、動力學控制、集群調度等相關技術。其中，智能決策是無人車的關鍵核心技術之一，其性能是衡量無人車智能化水平的重要標準。智能決策系統根據任務調度信息、環境感知信息和無人車狀態信息等，做出合理、安全的駕駛決策，并輸出車輛控制指令，以控制車輛完成指定任務。無人車智能決策系統的算法主要包含規則驅動［１－２］和數據驅動兩類算法［３－４］。由規則驅動的決策系統基于既定規則構建，其根據人類駕駛經驗及交通規則等建立相應的駕駛行為決策庫，結合感知系統得到的環境信息進行車輛狀態的劃分，依據預設的規則邏輯確認車輛行為［５］。這類基于規則的決策系統無法枚舉和覆蓋所有交通場景，且在交通復雜、不確定性強的路況中，常因規則數目冗雜和行為決策庫觸發條件的重疊而導致決策無法求解、決策系統的自適應性和魯棒性不足等問題。基于強化學習的決策方法是數據驅動的無人車決策系統的代表，該方法將無人車決策過程視為黑箱，利用機器學習建立由傳感器到轉向系統、驅動系統、制動系統等執行機構的映射，實現基于高維度感知數據對執行機構的直接控制。這類決策算法把整個自動駕駛過程與神經網絡深度融合，通過由數據驅動的仿真訓練使神經網絡學習在不同交通場景下的智能決策能力。

強化學習技術是人工智能領域的研究熱點，適用于解決復雜的序貫決策問題，在機器人控制［６－７］、調度優化［８－９］、多智能體協同［１０－１１］等領域中，取得了令人矚目的成果。強化學習的基本思路是智能體依靠探索試錯以及環境交互的方式，結合反饋信號學習最優策略。近些年，隨著強化學習的廣泛研究和應用，特別是綜合了深度學習的特征提取能力和強化學習的策略優化能力的深度強化學習（ｄｅｅｐｒｅｉｎｆｏｒｃｅｍｅｎｔｌｅａｒｎｉｎｇ，ＤＲＬ）取得突破性進展之后，采用強化學習技術解決無人車智能決策問題成為無人車領域最受關注的研究方向之一。

本文旨在綜述強化學習在無人車領域的應用。首先介紹了強化學習的發展歷史、基礎原理和核心算法；然后分析總結了強化學習在無人車智能決策問題中的研究現狀，包括避障、變道與超車、車道保持及道路交叉口通行四個典型的決策場景；最后探討并展望了未來的研究工作和潛在的研究方向。

１強化學習的基本理論

強化學習是動物心理學、最優控制理論和時序差分學習等學科交叉的產物［１２］。強化學習的“試錯”思想源于動物心理學家對試錯行為的研究，最早可追溯到Ｐａｖｌｏｖ的條件反射實驗。１９１１年美國心理學家Ｔｈｏｒｎｄｉｋｅ提出效應定律，第一次明確地闡述了試錯行為的本質是學習。最優控制理論，是現代控制體系的關鍵分支之一。在２０世紀５０年代初，美國數學家Ｂｅｌｌｍａｎ等提出求解最優控制的動態規劃法（ｄｙｎａｍｉｃｐｒｏｇｒａｍｍｉｎｇ，ＤＰ），該方法衍生出了強化學習試錯迭代求解的機制。時序差分學習（ｔｅｍｐｏｒａｌｄｉｆｆｅｒｅｎｃｅｌｅａｒｎｉｎｇ，ＴＤＬ）是ＤＰ和蒙特卡洛方法結合的產物。１９５９年Ｓａｍｕｅｌ首次提出并實現一個包含時序差分思想的學習算法。１９８９年Ｗａｔｋｉｎｓ在他的博士論文將最優控制和ＴＤＬ整合，并提出Ｑ學習算法，這項工作正式標志著強化學習的誕生，該算法通過優化累積未來獎勵信號學習最優策略。隨后，Ｗａｔｋｉｎｓ和Ｄａｙａｎ共同證明Ｑ學習算法的收斂性。表１總結了強化學習發展歷程中的若干重要事件。

２強化學習在自動駕駛領域的應用

2.1 在避障問題中的應用

在避障問題中無人車根據自車和障礙物的位置和狀態信息，在滿足乘坐舒適性和行駛安全性的條件下，輸出轉向、制動和油門指令控制車輛規避障礙物。Ａｒｖｉｎｄ等［２２－２３］提出基于ＭＬＰＳＡＲＳＡ和基于ＭＬＰＱ學習的避障算法。設計了以車載的７個超聲波雷達的感知數據為輸入量，輸出離散的制動、轉向和加速動作的端對端決策模型，將多層感知機（ｍｕｌｔｉｌａｙｅｒｐｅｒｃｅｐｔｒｏｎ，ＭＬＰ）引入到對Ｑ函數的預測中，以提高避障策略的收斂速度。車輛在包含多個動態障礙物的仿真環境下實現自主避障，且無碰撞通行的成功率達９６％。Ｃｈａｅ等［２４］提出復雜城市場景下基于ＤＱＮ的主動制動算法，如圖４所示。使用６層的深度神經網絡架構，采用障礙物相對于主車的橫向和縱向的位置和速度作為ＤＱＮ網絡輸入，輸出無制動、弱制動、中制動和強制動四個不同強度等級的制動動作。在獎勵函數的設計中，考慮車輛的乘坐舒適性和安全性，對過早的制動行為和與障礙物發生碰撞進行懲罰。經過２０００次的迭代訓練，無人車能有效地處理行人橫穿馬路等隨機突發事件，但面對碰撞時間（ｔｉｍｅｔｏｃｏｌｌｉｓｉｏｎ，ＴＴＣ）等于１．４ｓ的緊急工況僅有７４％的避障成功率。

雖然上述基于值函數的避障算法通過將動作離散化取得較好的避障效果，但在執行動作的精度和緊急情況下的避障成功率上仍然有待提高。部分學者考慮將用于高維連續空間的基于策略的強化學習方法應用于避障問題中。Ｚｏｎｇ等［２５－２６］設計基于ＤＤＰＧ的避障算法，策略網絡以車載的多類型傳感器融合感知數據作為狀態輸入，輸出動作空間連續的轉向、油門、制動動作。相比于文［２４］，該算法解決了連續動作空間下避障決策所引發的維數災難，實現動作空間連續的車輛動作輸出，提高了決策模型輸出動作的精度。Ｐｏｒａｖ等［２７］在研究中運用變分自編碼器（ｖａｒｉａ ｔｉｏｎａｌａｕｔｏｅｎｃｏｄｅｒ，ＶＡＥ）對障礙物特征降維，將高維語義圖像映射到低維且保留原始語義信息的隱變量，將低維的隱變量及其預測狀態作為ＤＤＰＧ網絡輸入，有效剔除了環境無關因素對決策的影響，并提高了決策模型訓練收斂速度。此外，作者建立基于ＤｅｌｔａＶ模型的獎勵函數，利用碰撞前后車輛速度差值衡量車輛碰撞的嚴重程度，以量化危險駕駛行為的懲罰。相比于文［２４］，該算法在ＴＴＣ為１ｓ和０．７５ｓ的極端緊急情況，仍能保持１００％和９５％的避障成功率。

Ｆｕ等［２８］詳細分析了車輛在緊急情況下的制動過程和乘坐舒適性變化，提出包含多目標獎勵函數的ＤＤＰＧ算法，可綜合衡量制動觸發時刻、事故嚴重程度和乘坐舒適度等指標。在仿真試驗中，所提出算法在緊急情況下避障成功率相較于基于ＤＤＰＧ和ＤＱＮ的避障算法分別提高４％和１２％。余伶俐等［２９］針對無人車在避障過程中對周圍車輛駕駛意圖預判不足的問題，設計了基于蒙特卡洛預測—深度確定性策略梯度（ＭＣＰＤＤＰＧ）的決策方法。該方法假設車輛狀態的轉移滿足馬爾可夫性，將周圍車輛的位置和速度作為觀測方程參數，利用ＭＣＰ預測其他車輛的運動軌跡，有效地提高決策模型在緊急情況下的響應時間。實車試驗證明該決策方法能夠有效預估碰撞風險，降低無人車發生碰撞的概率。基于強化學習的方法雖然可通過增加避障場景庫的廣度，以盡可能多地覆蓋各種復雜避障工況。但當面臨ＴＴＣ過小等臨近碰撞的極端工況，決策模型的穩定性和安全性亟待提高。

2.2 在變道與超車問題中的應用

在變道與超車問題中，無人車根據自車和周圍車輛狀態、自車的期望速度和交通規則約束等，做出變道及超車決策，指導車輛超越前方低速車輛，以盡快地通過特定的交通流。Ｌｏｉａｃｏｎｏ等［３０］提出基于Ｑ學習的超車決策算法，建立了包含主車和前方車輛相對距離、相對速度，主車和車道邊緣橫向距離等在內的離散狀態，并以有限的離散動作驅動車輛完成超車。在ＴＯＲＣＳ賽車模擬器中驗證了該算法在直線賽道和彎道上的超車效果，在超車持續時間、超車時最高車速和超車成功率等指標上明顯優于人類駕駛員。針對求解連續空間下超車決策問題時Ｑ學習存在的計算效率低的問題。Ｌｉｕ等［３１－３２］提出基于線性函數逼近強化學習的變道決策算法。作者將變道場景建立為狀態、動作空間連續的ＭＤＰ模型，將基于多核的最小二乘策略迭代法（ｍｕｌｔｉｋｅｒｎｅｌＬＳＰＩ，ＭＫＬＳＰＩ）引入對Ｑ函數的擬合中，并基于國防科技大學研制的紅旗ＨＱ３無人車采集的實車感知數據，對決策算法開展離線測試工作，論證了算法的有效性和泛化能力。Ｍｉｎ等［３３］利用非線性值函數逼近的方法，提出基于ＤｕｅｌｉｎｇＤＱＮ的超車決策算法，構建以卷積神經網絡（ｃｏｎｖｏｌｕｔｉｏｎａｌｎｅｕｒａｌｎｅｔｗｏｒｋｓ，ＣＮＮ）和長短期記憶網絡（Ｌｏｎｇｓｈｏｒｔｔｅｒｍｍｅｍｏｒｙ，ＬＳＴＭ）提取的視覺圖像和雷達點云的特征作為狀態輸入，輸出橫向的變道操作及縱向的車速變化的決策模型。該算法改進ＤＱＮ網絡結構，利用ＤＮＮ輸出的狀態值函數和動作優勢函數近似擬合Ｑ函數，提高了策略學習的收斂速度。Ａｎ等［３４］提出車聯網環境下基于ＤＤＰＧ的變道決策算法，網絡結構如圖５所示。該算法策略網絡輸入包含兩部分，分別為由車載傳感器獲得的主車狀態信息和由Ｖ２Ｘ通信獲得的前方車輛狀態信息，并通過２個全連接的隱藏層輸出對主車油門和方向盤的控制。在Ａｉｒｓｉｍ軟件中的仿真實驗驗證該算法的有效性，但由于輸入層網絡結構固定，其僅能處理２個車輛交互這種簡單場景，缺少對更為復雜交通場景的適應性。

針對文［３４］無法處理無人車在復雜的包含多車交互場景下變道的問題。Ｗｏｌｆ等［３５］提出一種基于通用語義狀態模型的超車決策算法。該算法將駕駛場景抽象映射到一個包含交通參與者列表（車輛、行人、車道等）并疊加場景關系描述（交通參與者相對于主車的速度、位置、相對車道信息等）的跨場景、通用的語義狀態模型，實時地輸入到基于ＤＱＮ的決策模型中。在ＳＵＭＯ仿真環境中，該算法可處理存在７輛交互車輛場景下的超車決策問題。Ｈｕｅｇｌｅ等［３６－３７］提出基于ＤｅｅｐＳｅｔＱ學習和Ｓｅｔ２ＳｅｔＱ學習的超車決策算法。作者分別利用深度集（ｄｅｅｐｓｅｔｓ，ＤＳ）和圖卷積網絡（ｇｒａｐｈｃｏｎｖｏｌｕ ｔｉｏｎａｌｎｅｔｗｏｒｋ，ＧＣＮ）提取無人車感知域內多車的狀態特征，作為ＤＱＮ網絡輸入，解決了基于ＤＱＮ的決策算法因網絡結構固定，無法處理數量可變的狀態輸入的問題，提高超車決策算法在不同交通密度場景應用的可移植性。

在變道與超車場景中，復雜的環境狀態和車輛動作空間，以及多車間的交互行為，導致訓練過程中策略難以收斂。有學者將分層思想和模仿學習（ｉｍｉｔａｔｉｏｎｌｅａｒｎｉｎｇ，ＩＬ）引入到基于強化學習的決策算法中。Ｄｕａｎ等［３８］提出高速公路場景下基于分層強化學習（ｈｉｅｒａｒｃｈｉｃａｌｒｅｉｎｆｏｒｃｅｍｅｎｔｌｅａｒｎｉｎｇ，ＨＲＬ）的變道決策算法，算法框架如圖６所示。決策網絡包括主策略和子策略兩層，分別用于高層行為決策（車道內駕駛、左／右車道變換）和底層運動控制（方向盤轉角、車輛速度等控制）。ＨＲＬ將復雜的變道決策任務分解為若干個簡單的子任務，在不發生維數災難的情況下實現多任務學習，提高決策算法場景遍歷的廣度。此外，受啟發于Ａ３Ｃ算法多線程并行的訓練方式，作者利用異步并行訓練的網絡參數的平均梯度更新共享網絡參數，以加快ＨＲＬ訓練速度。宋曉琳等［３９］提出ＩＬ和強化學習結合的決策算法，將變道決策劃分為宏觀決策層和細化決策層。宏觀決策層中，作者基于專家變道決策的示范數據集構建極端梯度提升（ｅＸｔｒｅｍｅＧｒａｄｉｅｎｔＢｏｏｓｔｉｎｇ，ＸＧＢｏｏｓｔ）模型，模仿經驗豐富的專家駕駛員做出宏觀決策。細化決策層中，作者構造多個基于ＤＤＰＧ算法的子模塊，分別處理車道保持、左變道和右變道中具體執行的動作。在Ｐｒｅｓｃａｎ軟件中的仿真訓練，所提出方法策略收斂所需的步數較基于強化學習的方法降低約３２％。Ｌｉａｎｇ等［４０］提出基于可控模仿強化學習（ｃｏｎｔｒｏｌｌａｂｌｅｉｍｉｔａｔｉｖｅｒｅｉｎｆｏｒｃｅｍｅｎｔｌｅａｒｎｉｎｇ，ＣＩＲＬ）的變道決策算法。首先利用引入門控機制的ＩＬ網絡學習專家提供的駕駛示范集，通過網絡權重共享的方式將預訓練結果遷移到ＤＤＰＧ決策模型中，以初始化ＤＤＰＧ動作探索策略，解決了連續動作空間下ＤＤＰＧ算法探索效率低、對超參數敏感的問題。

針對變道與超車過程中未知和不確定性因素對無人車安全性的影響。Ｚｈａｎｇ等［４１］考慮前車異常駕駛行為對超車安全性的影響，將模糊推理系統（ｆｕｚｚｙｉｎｆｅｒｅｎｃｅｓｙｓｔｅｍ，ＦＩＳ）引入到變道決策中。其主要思想是基于車載激光雷達獲得的前方車輛的位置、速度和航向角，利用ＦＩＳ分析前方車輛的駕駛激進度，進而判斷超車風險類型，以指導基于強化學習的決策算法采取保守或激進的超車策略。Ａｌｔｈｏｆｆ等［４２－４３］考慮周圍車輛駕駛意圖未知、感知系統觀測不完整、傳感器的擾動與噪音等不確定因素，提出基于安全強化學習的變道決策算法。運用可達性分析（ｒｅａｃｈａｂｉｌｉｔｙａｎａｌｙｓｉｓ，ＲＡ）［４４－４６］預測周圍車輛在滿足物理約束和交通規則下，在設定時間內所有可能的可達集，通過判斷無人車和其他車輛的可達集是否存在交集，來驗證變道決策的安全性。從上文綜述可知，基于強化學習的決策算法在處理動態多車交互、策略收斂速度、決策安全性方面有較大的局限性，且難以從強化學習模型本身加以改進。與安全驗證、行為分析及其他機器學習方法相結合，可顯著地提高基于強化學習的變道和超車決策算法的性能。

2.3 在車道保持問題中的應用

在車道保持問題中，無人車根據車載傳感器獲得的車道線信息，輸出車輛方向盤轉角控制指令，以使車輛在車道中心線附近行駛。視覺感知是檢測車道線的最有效手段。方川［４７］提出基于ＤｏｕｂｌｅＤＱＮ的車道保持算法，以原始的ＲＧＢ圖像作為網絡輸入，分別利用當前Ｑ網絡和目標Ｑ網絡處理方向盤控制動作選擇和目標Ｑ函數預測。在仿真試驗中，車輛在直線車道及大曲率彎道的車道保持任務中均表現出良好的性能。Ｋｅｎｄａｌｌ等［４８］提出視覺感知數據輸入下基于ＤＤＰＧ的車道保持算法（如圖７），并將在虛擬環境中訓練好的算法網絡結構和參數遷移到實車上，車輛僅依靠單目相機的ＲＧＢ圖像完成了２５０ｍ的車道保持路測。然而該方法忽略視覺傳感器抗干擾能力差、易受光照影響等缺點，且決策模型場景遍歷的深度不足，難以完成特殊天氣條件下的車道保持任務。

原始視覺圖像包含大量與決策無關的環境細節，而細微的環境變化易導致決策模型錯誤，進而引發車輛駛出車道等危險駕駛行為。針對此問題，Ｗｏｌｆ［４９］利用機器視覺剔除無關環境信息，提取車道線的灰度化圖像，構建由灰度化的視覺圖像到車輛方向盤的端對端決策，降低細微的環境亮度變化及無關環境細節對決策模型的影響。并利用經驗回放機制降低訓練樣本的相關性，以減輕ＤＱＮ算法處理高維圖像數據時存在的不穩定性。視覺感知缺少車輛與道路邊緣的距離信息，而其他具有目標距離測量功能的傳感器對提取車道線信息具有重要的補充作用。楊順等［５０］研究了多源感知數據輸入下基于ＤＤＰＧ的車道保持算法，如圖８所示。策略網絡分別利用一維和二維ＣＮＮ提取低維目標級感知數據和高維視覺圖像數據的特征，并輸出每一時間步長內車輛的動作，價值網絡根據策略網絡提取的低維特征和輸出的車輛動作預測Ｑ函數。作者構建包含期望車速、車輛偏離中心距離、車輛與車道中心線的夾角在內的獎勵函數，指導車輛與環境交互。在直線車道和彎道下的仿真實驗中，車輛的橫向偏移量和車輛與車道中心線的夾角均保持在理想的范圍內。作者利用不同ＣＮＮ對多類型傳感器數據進行特征提取，并通過特征組合的方式，解決了視覺傳感器獲取車道線信息不完備、信息冗余性差的問題。

基于強化學習的車道保持算法具有重大的應用潛力，但是視覺傳感器作為主要的車道線檢測手段，其感知圖像包含豐富的環境細節，且圖像細節隨光照、天氣等環境因素顯著變化，給決策模型的穩定性和泛化能力帶來巨大的影響。引入能穩定地在復雜多變環境下提取車道線特征的方法，并有效地利用和融合其他類型傳感器數據，對提高決策性能有著重要意義。

2.4 在道路交叉口通行問題中的應用

在道路交叉口通行問題中，無人車根據交叉口各車道上車輛位置、速度及交通規則等，輸出執行機構控制指令，以控制車輛無碰撞地通過交叉口。無交通信號燈的交叉口通行是最具挑戰性的交通場景，學者們對基于強化學習的通行決策方法進行大量研究。Ｓａｘｅｎａ等［５１］設計基于近端策略優化（ｐｒｏｘｉｍａｌｐｏｌｉｃｙｏｐｔｉｍｉｚａｔｉｏｎ，ＰＰＯ）的通行決策算法。作者利用由數據驅動的仿真訓練建立交叉口中無人車周圍車輛間交互的隱式模型，并通過設置車輛的加速度和轉向角度閾值，減少不良的加速和轉向動作，提高乘坐舒適性。Ｑｉａｏ等［５２］提出課程式學習（ｃｕｒｒｉｃｕｌｕｍｌｅａｒｎｉｎｇ，ＣＬ）和ＤＲＬ結合的交叉口決策算法。作者利用ＣＬ自動生成若干由簡單到復雜的樣本，引導ＤＲＬ學習駛入并通過城市交叉路口的策略，仿真實驗中通過交叉口的成功率達９８．７％。Ｍüｌｌｅｒ等［５３］提出基于視覺場景理解的決策算法，引入編碼器—解碼器網絡來提取ＲＧＢ視覺圖像更細化的語義特征，實現原始圖像到多場景通用的語義分割圖像的映射，將語義圖像作為決策模型輸入，輸出車輛期望的軌跡。其后，作者將訓練好的決策模型遷移至小型卡車上，車輛可在多個駕駛場景（晴朗、陰天、雨雪）自主地通過交叉路口。該方法通過模塊化和抽象語義分割的方法降低真實場景傳感器噪聲等對決策的影響，提高決策算法的遷移能力。無交通信號燈的交叉口中車輛缺少交通規則約束。無人車無法獲悉其他車輛的駕駛意圖，因而無法預判其行駛軌跡，且因車輛間的相互遮擋易造成無人車的感知盲區，給決策的安全性帶來巨大隱患。Ｉｓｅｌｅ等［５４－５５］利用卡爾曼濾波（Ｋａｌｍａｎｆｉｌｔｅ ｒｉｎｇ，ＫＦ）預測可能與無人車發生碰撞車輛的行駛軌跡，并根據預測結果約束ＤＱＮ決策算法的動作空間，提高車輛在交叉口通行的安全裕度。Ｇｒｕｂｅｒ等［５６］設計基于ＲＡ的在線安全驗證方法，利用ＲＡ建立其他車輛未來時間在交叉口所有可達集，以驗證決策的安全性。其后，Ｌａｕｅｒ等［５７］提出基于ＲＡ和責任敏感安全模型（ｒｅｓｐｏｎｓｉｂｉｌｉｔｙｓｅｎｓｉｔｉｖｅｓａｆｅｔｙ，ＲＳＳ）的驗證方法，解決了ＲＡ因考慮最危險情況下周圍車輛的占用空間而導致的無人車在交叉口駕駛策略過度保守的問題。Ｓｔｉｌｌｅｒ等［５８］提出一種風險認知ＤＱＮ的交叉口決策算法，在獎勵函數中引入風險項度量感知盲區內的車輛對決策安全性的程度，減少無人車采取冒進決策行為的概率。無交通信號燈的交叉口的復雜程度高，且事故風險隱患多，給無人車決策的安全性帶來巨大挑戰。基于強化學習的決策模型無法有效預估事故風險，結合行駛軌跡預測、安全性驗證等方法對提高決策安全性具有重要意義。

３強化學習在無人車領域的應用展望

無人車可自主執行運輸、物流、清掃、巡邏、救援、作戰、偵察等民用或軍用任務，是未來智能交通與新一代陸軍裝備發展的核心要素，對汽車產業發展與國防安全建設具有重要意義。面向未來無人車技術發展需求，高效、準確、穩定的智能決策技術已經成為限制無人車行業水平提升與大規模產業應用的關鍵技術瓶頸。強化學習技術是實現無人車智能決策技術水平提升的最重要突破口之一。但是，基于強化學習的智能決策存在泛化能力弱、可解釋性差，缺少安全驗證等問題，限制了其在實車上的應用。此外，云控制、車聯網及大數據等先進技術在無人車領域的應用極大程度拓寬了強化學習技術的應用內涵，帶來了全新的挑戰與不確定性。下面指出未來強化學習技術在無人車領域的研究重點：

１）提高強化學習在無人車決策上的泛化能力當前研究多利用強化學習構建從無人車的傳感器到執行機構的端對端決策。而以復雜高維的圖像、雷達點云等原始感知數據作為決策模型的輸入，使得表征環境狀態的特征維度過多，導致決策模型過擬合于特定的訓練環境，難以遷移至新的駕駛場景。此外，模型訓練中常忽略光照變化、背景干擾等敏感環境細節以及傳感器噪音和自身擾動的影響，使得訓練好的決策模型需要人工調參后才能遷移到實車上。提高強化學習在無人車決策上的泛化能力，已經成為其在無人車應用亟需解決的關鍵問題之一。為突破決策算法在新場景中泛化能力弱的瓶頸：（１）可借鑒虛擬到現實（Ｓｉｍ２Ｒｅａｌ）領域的研究成果，利用領域自適應（ｄｏｍａｉｎａｄａｐｔａｔｉｏｎ，ＤＡ）等方法將虛擬訓練環境映射到真實行駛環境［５９］，以在訓練過程中最大限度地模擬無人車與真實場景的交互過程。（２）從原始感知數據中提取或抽象出面向通用場景的低維環境狀態表征，替代復雜高維的原始數據作為決策模型的輸入［６０］，可以降低決策模型精度對行駛環境的依賴性。

２）提升強化學習在無人車決策上的可解釋性

當前研究多利用基于復雜深度神經網絡的深度強化學習學習駕駛策略。而訓練好的決策模型因其復雜的網略結構及龐大的網略參數，導致人們難以理解模型內部的決策過程。在決策模型出現偏差和故障時，難以對錯誤源頭進行排查和分析。提高強化學習在無人車決策上的可解釋性，已成為提高其決策合理性與安全性的關鍵挑戰之一。為解決決策算法的內部運行機制可解釋性差的弱點：（１）利用概率圖模型（ｐｒｏｂａｂｉｌｉｓｔｉｃｇｒａｐｈｉｃａｌｍｏｄｅｌ，ＰＧＭ）深度綜合表征無人車行駛環境、行駛軌跡、交通參與者等的時序特征，并將高度可解釋化的隱含狀態作為模型輸入［６１－６３］，可顯著地提高模型的可解釋性。（２）利用神經網絡可視化技術以熱力圖的形式表征決策模型內部每一層的權重參數、特征圖等，以實現模型決策過程的透明化［６４］。（３）也可借鑒機器人領域的最新進展，根據人類經驗將復雜的作業任務分解為若干子任務，決策模型輸出子任務的序貫組合，以組合的順序表征無人車決策的合理性［６５］，也是值得深入探討的話題。

３）提高強化學習在無人車決策上的安全性

當前研究多圍繞感知完備等理想工況下的決策任務，且對車輛行駛中的不確定性因素考慮不足。而強化學習通過探索試錯的機制學習駕駛策略，其隨機性的探索策略常導致不安全的駕駛行為，給決策模型帶來潛在的安全風險。此外，無人車行駛環境具有高度的不確定性，具體表現為周圍車輛行駛意圖和駕駛風格的不確定性，因遮擋和感知盲區造成的感知不完整性等，給決策模型的安全性帶來巨大挑戰。提高強化學習在無人車決策上的安全性，已經成為其在無人車應用亟需解決的重要技術瓶頸之一。為提高決策算法在復雜動態場景下決策的安全性：（１）可通過在獎勵函數中引入風險項［６６］，在動作探索策略中引入安全約束［６７］，在動作執行中引入安全驗證［６８］等方法，降低決策模型做出激進和危險決策的概率。（２）利用部分可觀測ＭＤＰ（ｐａｒｔｉａｌｌｙｏｂｓｅｒｖａｂｌｅＭＤＰ，ＰＯＭＤＰ）將環境的不確定性因素作為隱變量［６９］，實現環境不完全觀測下周圍車輛的軌跡預測，可有效地提高車輛感知能力受限下決策的安全性。（３）利用基于嚴格數學定義的形式驗證精確求解當前狀態下無人車在預定時間內不安全狀態的可達范圍［７０］，驗證其決策行為的安全性，以保證系統安全驗證的完備性。

４）研究無人車大數據背景下基于強化學習的

云端決策技術基于云控制、車聯網、大數據等先進技術的云控系統（ｃｌｏｕｄｃｏｎｔｒｏｌｓｙｓｔｅｍ，ＣＣＳ）［７１］在無人車領域的應用為無人車產業化落地提供重要的技術支撐，ＣＣＳ擴大了無人車的感知域，并提供強大的算力支持，實現無人車綜合性能的顯著提升。此外，ＣＣＳ可實時地獲取并存儲各無人車的硬件和軟件系統海量的運行數據，并基于大數據分析建立云端的無人車性能預測模型、故障預警模型、交通流量預測模型、車輛集群調度模型等［７２－７３］，以提高無人車群體的安全性和效率。ＣＣＳ在無人車中的應用是未來無人車發展的重要趨勢［７４］，并極大地豐富了強化學習在無人車領域的應用場景。研究無人車大數據背景下，云端決策系統利用強化學習技術，結合多源的時空感知數據和云端的交通流量、車輛性能等大數據預測結果，實現面向群體及單車層級的決策，將是非常有意義的工作。

４結論

本文綜述了強化學習技術在無人車領域的研究現狀，重點介紹了基于強化學習技術的無人車智能決策在避障、變道與超車、車道保持等典型場景下的應用。其次，展望了強化學習技術在無人車領域的應用前景。筆者看來，強化學習技術將極大程度地提高無人車的智能決策能力，是實現無人車規模化產業應用并服務于智能交通系統建設和新一代陸軍裝備發展的重要支撐。

付費5元查看完整內容

多模態智能計算 · 海洋大數據 · 海洋知識圖譜 ·

2022 年 7 月 27 日

[付費5元查看完整內容]面向海洋的多模態智能計算：挑戰、進展和展望

專知會員服務

專知，提供專業可信的知識分發服務，讓認知協作更快更好！

海洋是高質量發展的要地，海洋科學大數據的發展為認知和經略海洋帶來機遇的同時也引入了新的挑戰。海洋科學大數據具有超多模態的顯著特征，目前尚未形成面向海洋領域特色的多模態智能計算理論體系和技術框架。因此，本文首次從多模態數據技術的視角，系統性介紹面向海洋現象/過程的智能感知、認知和預知的交叉研究進展。首先，通過梳理海洋科學大數據全生命周期的階段演進過程，明確海洋多模態智能計算的研究對象、科學問題和典型應用場景。其次，在海洋多模態大數據內容分析、推理預測和高性能計算三個典型應用場景中展開現有工作的系統性梳理和介紹。最后，針對海洋數據分布和計算模式的差異性，提出海洋多模態大數據表征建模、跨模態關聯、推理預測、高性能計算四個關鍵科學問題中的挑戰，并提出未來展望。

//www.cjig.cn/jig/ch/reader/view_abstract.aspx?flag=2&file_no=2029&journal_id=jig

海洋是高質量發展的要地，是人類社會的未來。但目前對海洋系統的精細認知不足 5%。通過觀測、監測、調查、分析和統計獲取的海洋大數據是人類認識海洋的主要途徑。如圖 1，隨著全球海洋立體“空-天-地-海-底”觀測系統的不斷發展(吳立新等, 2020)，形成了面向海洋的遙感圖像、時空序列數值、仿真數據、文獻資料、監控視音頻等大規模多模態數據。根據當前關于海洋數據量的研究，2014 年全球各種海洋數據總量約為 25PB，預計 2030 年全球海洋數據總量將達到 275PB。這表明海洋多模態數據的存量已經接近 EB 級,日增量也達到 TB 級。其中，海洋遙感圖像和時空序列數值是其主體，時空序列數值以矩陣形式呈現，通常也作為圖像對待。所以，對以圖像為主的海洋多模態大數據的深入分析和挖掘，是認知海洋動力過程、能量物質循環、藍色生命演變，實現科學重大發現、生態環境健康、應對極端天氣和氣候變化的關鍵途徑，也是支撐人類社會可持續發展的重大戰略需求。

和傳統大數據相比，海洋多模態大數據具有超巨系統（占地表 71%面積，日增量 10TB）、超多視角（“陸-海-氣-冰-地”耦合、“水文氣象聲光電磁”多態）、超跨尺度（“厘米至百公里” 空間尺度，“微秒至年代際”時間尺度）等顯著特征，導致現有的多模態智能計算技術難以應對跨尺度多模態融合分析、多學科跨領域協同推理、大算力多架構兼容應用等難題。因此，雖然我國對海觀測能力日益強大，但海洋多模態大數據價值挖掘的智能化水平不足，迫切需要針對其差異化特點，構建面向海洋的多模態智能計算理論體系和技術框架。目前，海洋多模態智能計算領域的研究剛剛起步，尚未形成體系化和差異化研究方向，現階段的工作大多關注現有多模態數據挖掘技術在海洋場景下的應用優化，并未針對海洋領域數據的分布特點開展深入研究。因此，本文通過梳理現階段海洋領域面向多模態智能計算中的內容分析、融合推理、智能計算等方面的現有工作，結合領域場景需求，提出海洋多模態智能計算的主要研究內容、現有進展、關鍵問題和未來展望

付費5元查看完整內容

深度學習 · 目標檢測 · 圖像分割 · 超分辨率 · 計算機視覺 ·

2022 年 4 月 21 日

[付費5元查看完整內容]基于深度學習的計算機視覺研究新進展

專知會員服務

專知，提供專業可信的知識分發服務，讓認知協作更快更好！

摘要

近年來，深度學習在計算機視覺各個領域中的應用成效顯著，新的深度學習方法和深度神經網絡模型不斷涌現，算法性能被不斷刷新。本文著眼于2016年以來的一些典型網絡和模型，對基于深度學習的計算機視覺研究新進展進行綜述。首先總結了針對圖像分類的主流深度神經網絡模型，包括標準模型及輕量化模型等；然后總結了針對不同計算機視覺領域的主流方法和模型，包括目標檢測、圖像分割和圖像超分辨率等；最后總結了深度神經網絡搜索方法。

關鍵詞

深度學習; 目標檢測; 圖像分割; 超分辨率; 計算機視覺

引言

近20年來，隨著深度學習技術的迅猛發展和圖形處理器（Graphics processing unit， GPU）等硬件計算設備的廣泛普及，深度學習技術幾乎已經應用到計算機視覺的各個領域，如目標檢測、圖像分割、超分辨率重建及人臉識別等，并在圖像搜索、自動駕駛、用戶行為分析、文字識別、虛擬現實和激光雷達等產品中具有不可估量的商業價值和廣闊的應用前景［1］。基于深度學習技術的計算機視覺同時可以對其他學科領域產生深遠的影響，如在計算機圖形學中的動畫仿真和實時渲染技術、材料領域的顯微圖像分析技術、醫學圖像分析處理技術、實時評估師生課堂表現和考場行為的智慧教育、分析運動員比賽表現和技術統計的智能系統等。

深度學習早在1986年就被Dechter［2］引入機器學習領域，2000年Aizenberg等［3］又在機器學習領域引入了人工神經網絡（Artificial neural network，ANN）［4］。深度學習方法由多層組成，用于學習多層次抽象的數據特征［5］。在人工神經網絡領域中，深度學習又被稱為分層學習［6］，是一種通過在不同計算階段精確地分配分數來調節網絡激活的技術［4］。深度學習常常用多種抽象結構來學習復雜的映射關系，如2009年蒙特利爾大學的Bengio教授提出的帶隱藏層的ANN［7］等。深度學習技術可以被視作一種表征學習，是機器學習的一個分支。

2005年多倫多大學的Hinton教授團隊試圖用圖模型模擬人類的大腦［8］，在文獻［9］中提出了一種逐層貪婪算法來預訓練深度信念網，克服了深度網絡難以訓練的弊端，并用自編碼器降低數據維度［10］，開啟了深度學習的熱潮，使其被廣泛應用在語音識別、計算機視覺和自然語言處理等領域。2011—2012年，深度學習技術在語音識別領域中最先取得重大突破，Dahl團隊［11］和Hinton團隊［12］先后將識別錯誤率降至20%~30%。在2012年的ImageNet大規模視覺識別挑戰競賽（ImageNet large scale visual recognition challenge，ILSVRC）中，Hinton的學生提出的AlexNet［13］以超過第二名準確率10%的巨大優勢奪得冠軍，深度學習正式進入了爆發期。近年來各大互聯網科技公司，如Google、Microsoft、Facebook、百度、阿里巴巴和騰訊等也爭相投入大規模深度學習系統的研發中。

筆者在2016年發表“深度卷積神經網絡在計算機視覺中的應用研究綜述”［1］，總結了2016年之前深度卷積神經網絡在計算機視覺中的研究成果。本文在文獻［1］的基礎上，重點綜述2016年以后基于深度學習的計算機視覺研究新進展。但為了表述的完整和邏輯的嚴謹，本文與文獻［1］內容有少量重合。

1 通用深度神經網絡模型

本文將解決圖像分類任務的神經網絡模型稱為通用網絡，這類模型通常是解決其他視覺任務的基礎模型。1989年AT&T貝爾實驗室的研究員LeCun通過反向傳播算法成功地訓練了卷積神經網絡［14］，這項工作代表了20世紀80年代神經網絡的研究成果。1998年LeCun等基于前人的工作提出了LeNet［15］，由2個卷積層和3個全連接層組成，因此也被稱為LeNet?5，其結構如圖1所示。但LeNet?5的復雜度遠遠無法和今天的深度網絡模型相比，性能也相差懸殊，但在當時取得了和支持向量機相媲美的效果，并被廣泛應用于識別手寫數字，受到了廣泛的關注。

圖1 LeNet-5結構示意圖[15]

Fig.1 Structure of LeNet-5[15]

在LeNet提出后，很長一段時間卷積神經網絡并不是計算機視覺領域的主流方法，因為LeNet只在小數據集上表現良好，在規模更大、更真實的數據集上表現一般。由于當時未普及高性能的神經網絡加速硬件設備，卷積神經網絡訓練的時間成本和空間開銷太大。因此在2012年AlexNet［13］提出之前，大多數研究者都采用SIFT［16］、HOG［17］和SURF［18］等手工方法提取特征，并花費大量的精力進行數據整理。

2007年，普林斯頓大學李飛飛團隊基于WordNet的層級結構開始搭建ImageNet數據集［19］，通過網絡抓取、人力標注和眾包平臺等各種方式，最終在2009年公開。如今ImageNet數據集包含超過14 000 000張帶標簽的高清圖像、超過22 000個類別。從2010年開始舉辦的ILSVRC圖像分類比賽成為計算機視覺領域的重要賽事，用于評估圖像分類算法的準確率。ILSVRC比賽數據集是ImageNet的一個子集，包含1 000類、數百萬張圖片。來自NEC實驗室的林元慶帶領NEC?UIUC團隊以28.2%的top?5錯誤率贏得了2010年ILSVRC冠軍。2010和2011這兩年的冠軍方案主要采用HOG［17］、LBP［20?21］等算法手動提取特征再輸入到特征向量機進行分類。

2012年的冠軍AlexNet［13］首次將深度學習技術應用到大規模圖像分類領域，證明了深度學習技術學習到的特征可以超越手工設計的特征，開啟了計算機視覺領域中的深度學習熱潮。AlexNet和LeNet結構理念相似，采用5層卷積層和3層全連接層，激活函數用ReLU取代了sigmoid，用dropout方法取代了權重衰減緩解過擬合，結構如圖2所示。AlexNet取得了17.0%的top?5錯誤率。

圖2 AlexNet結構示意圖[13] Fig.2 Structure of AlexNet[13]

2014年的冠軍團隊提出的ZFNet［22］通過反卷積可視化CNN學習到的特征，取得了11.7%的錯誤率。2015年的冠軍團隊Szegedy等提出的GoogLeNet［23］將錯誤率降到了6.7%。GoogLeNet提出了一種Inception模塊，如圖3所示。這種結構基于網絡中的網絡（Network in network，NiN）的思想［24］，有4條分支，通過不同尺寸的卷積層和最大池化層并行提取信息，1×11×1卷積層可以顯著減少參數量，降低模型復雜度。GoogLeNet一共使用9個Inception模塊，和全局平均池化層、卷積層及全連接層串聯。Szegedy提出很多改進的Inception版本，陸續使用了Batch Normalization［25］、Label Smoothing［26］和殘差連接［27］等方法。

圖3 Inception模塊示意圖[23] Fig.3 Inception block[23]

2015年的ILSVRC亞軍是由牛津大學視覺幾何團隊提出的VGGNet［28］。VGGNet重復使用了3××3的卷積核和2××2的池化層，將深度網絡加深到16~19層，如圖4所示。

圖4 VGG模塊和VGG結構示意圖 Fig.4 Block and structure of VGG

2016年，微軟亞洲研究院He等提出的ResNet［29］奪得了ILSVRC冠軍，將top?5錯誤率降至3.6%。ResNet最深可達152層，以絕對優勢獲得了目標檢測、分類和定位3個賽道的冠軍。該研究提出了殘差模塊的跳接結構，網絡學習殘差映射f(x)?xfx-x，每1個殘差模塊里有2個相同輸出通道的3××3卷積層，每個卷積層后接1個BN（Batch normalization）層和ReLU激活函數。跳接結構可以使數據更快地向前傳播，保證網絡沿著正確的方向深化，準確率可以不斷提高。ResNet的思想產生了深遠的影響，是深度學習領域的一個重要進步，奠定了訓練更深的深度網絡的基礎，其結構如圖5所示。

圖5 殘差模塊 Fig.5 Residual block

2017年提出的DenseNet［30］和ResNeXt［31］都是受ResNet［29］的啟發。DenseNet的目標不僅僅是學習殘差映射，而且是學習類似泰勒展開的更高階的項。因此DenseNet的跳接結構沒有用加法，而是用了聯結，如圖6所示。

圖6 ResNet和DenseNet結構比較 Fig.6 Structures of ResNet and DenseNet

ResNeXt［31］則是結合了ResNet［29］和Inception v4［27］，采用GoogLeNet分組卷積的思想，在簡化的Inception結構中加入殘差連接，并通過一個超參數“基數”調整ResNeXt模塊中分支的數量。這種簡化的Inception結構不需要人工設計每個分支，而是全部采用相同的拓撲結構，結構如圖7所示。ResNeXt在2016年ILSVRC的分類任務上獲得了亞軍。

圖7 ResNet殘差模塊和基數為32的ResNeXt模塊[31] Fig.7 ResNet block and ResNeXt block with cardinality of 32[31]

和ResNeXt同年提出的Xception［32］也是一種基于Inception分組卷積思想的模型。分組卷積的核心思想是將通道拆分成不同大小感受野的子通道，不僅可以提取多尺寸的特征，還可以減少參數量，降低模型復雜度。Xception模塊可以視為一種極端情況的Inception模塊，它的輸入先經過一個1××1的卷積層后進入多個完全相同的3××3卷積層分支，如圖8所示。

圖8 經典及簡化的Inception模塊和Xception模塊[32] Fig.8 Classical and simplified Inception blocks and Xception block[32]

ImageNet數據規模大，圖像類別多，因此在ImageNet上訓練的模型泛化能力較好。如今很多模型都是在ImageNet上預訓練后進行微調，有些模型微調后準確率可以超過只在目標訓練集上訓練模型的20%。受ImageNet自由開放思想的影響，很多科技巨頭也陸續開放了自己的大規模數據集：2018年谷歌發布了Open Image數據集［33］，包含了被分為6 000多類的900萬張帶有目標位置信息的圖片；JFT?300M數據集［34］包含300萬張非精確標注的圖像；DeepMind也公開了Kinetics數據集［35?36］，包含650 000張人體動作的視頻截圖。這些大規模數據集增強了深度學習模型的泛化能力，為全世界深度學習工作者和數據科學家提供了數據支持，保障了深度學習領域的蓬勃發展。

生成模型可以學習數據中隱含的特征并對數據分布進行建模，它的應用非常廣泛，可以對圖像、文本、語音等不同數據建模真實的分布，然后基于這一分布通過采樣生成新的數據。在深度學習之前就已經有許多生成模型被提出，但由于生成模型往往難以建模，因此科研人員遇到了許多挑戰。變分自編碼器（Variational autoencoder， VAE）［37］是一種當前主流的基于深度學習技術的生成模型，它是對標準自編碼器的一種變形。自編碼器將真實樣本的高級特征通過編碼器映射到低級特征，被稱為隱向量（或潛向量），然后又通過解碼器生成相同樣本的高級特征。標準自編碼器和變分自編碼器的區別在于對隱向量的約束不同。標準自編碼器關注重構損失，即

L(X,X')=∥X?X'∥22?X,X'=X-X'22 （1）式中：XX和X'X'分別為輸入圖像和重構圖像。變分自編碼器則強迫隱變量服從單位高斯分布，優化如下損失函數

L(X)=Ez~q[lg P(X|z)]?KL(q(z|X)||p(z))?X=Ez~q[lg P(X|z)]-KL(q(z|X)||p(z)) （2）式中：EE表示期望；z為隱變量；q(z|X)q(z|X)表示隱變量的建議分布，即編碼器輸出的隱變量的分布；p(z)p(z)表示標準高斯分布；P(X|z)P(X|z)表示解碼器分布；KLKL表示KL散度。式（2）等號右邊第1項表示重構圖片的精確度，用均方誤差度量；第2項表示圖片的潛變量分布和單位高斯分布之間的差異，用KL散度來度量。為了優化KL散度，變分自編碼器生成1個均值向量和1個標準差向量用于參數重構。此時在隱向量分布中采樣就可以生成新的圖片。自編碼器和變分自編碼器示意圖如圖9、10所示。

圖9 自編碼器示意圖Fig.9 Autoencoder

圖10 變分自編碼器示意圖 Fig.10 Variational autoencoder

生成對抗網絡（Generative adversarial net， GAN）［38］是另一種十分常見的基于深度學習技術的生成模型，它包括2個同時進行的組件：生成器和判別器，其結構如圖11所示。生成器從隱向量生成圖像，判別器對真偽圖像進行分類，二者相互對抗，互相促進。

圖11 生成對抗網絡示意圖 Fig.11 Generative adversarial net

變分自編碼器和生成對抗網絡近年來有了顯著的發展［39］。在計算機視覺領域中，變分自編碼器和生成對抗網絡已經被廣泛應用于圖像翻譯、超分辨率、目標檢測、視頻生成和圖像分割等領域，具有廣闊的研究價值和應用前景。

2 輕量化網絡

隨著網絡層數的加深，各種深度網絡模型的性能變得越來越好，隨之而來的問題是模型巨大的參數量和緩慢的推理速度，因此輕量化網絡的需求變得愈加強烈。輕量化網絡的設計核心是在盡可能保證模型精度的前提下，降低模型的計算復雜度和空間復雜度，從而使得深度神經網絡可以被部署在計算性能和存儲空間有限的嵌入式邊緣設備上，實現從學術界到工業界的躍遷。在分布式訓練中，小模型使得服務器之間通信產生的帶寬負擔也相對較小。目前學術界和工業界設計輕量化的深度網絡模型主要有4種方法：人工設計的輕量化神經網絡、基于神經網絡架構搜索（Neural architecture search，NAS）的自動設計神經網絡技術、卷積神經網絡壓縮和基于AutoML的自動模型壓縮。

2016年由伯克利和斯坦福的研究者提出的SqueezeNet［40］是最早進行深度模型輕量化的工作之一，其結構如圖12所示。SqueezeNet提出了一種Fire模塊用來減少參數量，其結構如圖13所示。它分成Squeeze和Expand兩部分：Squeeze層只由數個1××1卷積層構成；Expand層則包含數個1××1和3××3卷積層。Fire模塊和Inception模塊的結構很相近，二者都使用了1××1和3××3組合的拓撲結構，在使用了不同尺寸的卷積層后進行連結。在網絡結構上，SqueezeNet借鑒了VGG堆疊的形式，在2層卷積層和池化層中間堆疊了8個Fire模塊。最終SqueezeNet在ImageNet上實現了AlexNet級別的精確度，參數減少到原來的1/501/50。通過使用Deep Compression模型壓縮技術，SqueezeNet的參數量僅有50萬個，約為AlexNet的1/5001/500。

圖12 SqueezeNet網絡結構示意圖[40]

Fig.12 Structure of SqueezeNet[40]

圖13 SqueezeNet的Fire 模塊[40]

Fig.13 Fire block in SqueezeNet[40]

MobileNet［41］是谷歌于2017年提出的輕量化網絡，核心是通過用深度可分離卷積代替標準的卷積。深度可分離卷積將標準卷積拆成1個深度卷積和1個逐點卷積（也就是1××1卷積），可以將計算量降低至原來的1/8~1/91/8~1/9。標準卷積和深度可分離卷積+BN+ReLU結構如圖14所示。

圖14 標準卷積+BN+ReLU網絡和深度可分離卷積+BN+ReLU網絡[41]

Fig.14 Standard convolution+BN+ReLU network and depthwise separable convolution+BN+ReLU network[41]

深度可分離卷積的結構成為了很多輕量化網絡設計的參照，這種結構的有效性自從被Xception［32］證明后成為輕量化網絡設計的主流思想。比MobileNet晚2個月由Face++團隊提出的ShuffleNet［42］基于這一思想，使用了Channel Shuffle和分組卷積。分組卷積的思想最早由AlexNet［13］提出，初衷是為了降低單張GPU的占用，將輸入通道分成相同的幾條分支然后連結，從而減少訓練參數量。之后的Inception模塊將這一思想發揚光大，ResNeXt［31］的成功也證明了分組卷積的有效性。由于分組卷積會讓信息的流通不當，ShuffleNet設計了Channel Shuffle，將各組通道均分并進行混洗，然后依次重新構成特征圖，示意圖如圖15所示。

圖15 Channel Shuffle示意圖[42]

Fig.15 Diagrammatic sketch of Channel Shuffle[42]

圖15中，Channel Shuffle后第2個組卷積GConv2的輸入信息來自各個通道，圖15（c，b）達到了一樣的效果。ShuffleNet模塊的設計借鑒了ResNet bottleneck的結構，如圖16所示。

圖16 ShuffleNet模塊[42] Fig.16 ShuffleNet block[42]

ShuffleNet模塊摒棄了Pointwise卷積，因為對于輸入維度較高的小型網絡，1××1卷積的開銷巨大。例如在ResNeXt模塊中，1××1卷積占據了93.4%的計算量。在網絡拓撲上，SqueezeNet和MobileNet都采用了VGG（Visual geometry group）的堆疊結構，而ShuffleNet采用了ResNet的跳接結構。

2018年，MobileNet和ShuffleNet又相繼提出了改進版本。MobileNet v2［43］結構如圖17所示，采用了效率更高的殘差結構，提出了一種逆殘差模塊，并將MobileNet v1模塊的最后一個ReLU6層改成線性層。ShuffleNet v2［44］用更直接的運算速度評估模型，摒棄了之前如每秒浮點運算次數（FLOPS）等間接的指標。結構上ShuffleNet v2采用了一種Channel Split操作，將輸入的特征圖分到2個分支里，最后通過連結和Channel Shuffle合并分支并輸出。ShuffleNet v1和ShuffleNet v2結構如圖18所示。

圖17 MobileNet v2模塊[43]

Fig.17 MobileNet v2 block[43]

圖18 ShuffleNet v1和ShuffleNet v2結構[44]

Fig.18 Structures of ShuffleNet v1 and ShuffleNet v2[44]

2020年華為諾亞方舟實驗室的團隊提出了GhostNet［45］，如圖19所示，可以用更少的參數量提取更多的特征圖。首先對輸入特征圖進行卷積操作，然后進行一系列簡單的線性操作生成特征圖，從而在實現了傳統卷積層效果的同時降低了參數量和計算量。該團隊認為性能較好的主流卷積神經網絡如ResNet?50通常存在大量冗余的特征圖，正是這些特征圖保證了網絡對數據深刻的理解。Ghost模塊用更小的代價模擬了傳統卷積層的效果。

圖19 卷積層和Ghost模塊[45]

Fig.19 Convolutional layer and Ghost module[45]

人工設計的輕量化網絡MobileNet系列［41，43］和ShuffleNet系列［42，44］的基本思想主要是通過分離卷積操作減少運算量，再采用殘差跳接結構和Channel Shuffle等混合通道的操作促進分支間的交流，提高信息利用率。隨著模型規模的擴大，硬件資源變得更加稀缺，在保證精度的前提下壓縮并加速模型將會是經久不衰的熱門研究方向，也是信息化時代發展的必經之路。近年來大量的關于模型壓縮和結構優化的工作不斷涌現，如網絡剪枝［46］、張量分解［47?48］和知識遷移［49］等。輕量化模型的發展有助于深度學習技術的推廣和應用，推動深度學習技術的產業化發展。

3 面向特定任務的深度網絡模型

計算機視覺任務眾多，深度學習最開始在圖像分類實現突破，當前深度學習幾乎深入到了計算機視覺的各個領域。本節將針對目標檢測、圖像分割、圖像超分辨率和神經架構搜索等其他計算機視覺任務簡要總結深度學習方法。

3.1　目標檢測

目標檢測任務作為計算機視覺的基本任務之一，包含物體的分類、定位和檢測。近年來隨著深度學習技術的發展，目標檢測算法已經從基于手工特征的HOG［17］、SIFT［16］及LBP［20?21］等傳統算法轉向了基于深度神經網絡的機器學習技術。自2014年Girshick等提出了R?CNN［50］模型以來，目標檢測就成為了計算機視覺最受人關注的領域之一。在R?CNN之后，Girshick團隊相繼提出了Fast R?CNN［51］、Faster R?CNN［52］等一系列模型，這些模型均將目標檢測問題歸結為如何提出可能包含目標的候選區域和如何對這些區域分類兩個階段，因此這類模型也被稱作兩階段模型。

受當時性能最好的圖像分類網絡，如AlexNet［13］和VGG［28］等的影響，R?CNN系列模型的網絡結構由2個子網組成：第1個子網用普通分類網絡的卷積層提取共享特征；第2個子網的全連接層進行感興趣區域（Region of interest，RoI）的預測和回歸，中間用一個RoI池化層連接。這些網絡的結構在文獻［1］中已做介紹，這里不再贅述。在ResNet［29］、GoogLeNet［23］等性能更強的分類網絡出現后，這種全卷積網絡結構也被應用到了目標檢測任務上。然而，由于卷積層并不能有針對性地保留位置信息，這種全卷積結構的檢測精度遠低于它的分類精度。R?FCN［53］提出了一種位置敏感分數圖來增強網絡對于位置信息的表達能力，提高網絡的檢測精度，其結構如圖20所示。R?FCN［53］在PASCAL VOC 2007數據集上平均精度均值（mean Average precision， mAP）達到了83.6%，單張圖片的推理速度達到170 ms。

圖20 R-FCN結構示意圖[53] Fig.20 Structure of R-FCN[53]

如何準確識別不同尺寸的物體是目標檢測任務的難點之一。圖21（a）中的方法通過對不同尺寸的圖片提取不同尺度特征來增強不同尺度特征的語義信息，但時間和計算成本太高。圖21（b）中的單一特征圖方法即為SPPnet［54］、Fast R?CNN［51］和Faster R?CNN［52］使用的方法，即在最后一層的特征圖上進行預測。盡管速度較快，但包含的語義信息很少，不能準確地預測目標的位置。圖21（c）是SSD［55］采用的多尺度融合方法，從網絡的不同層抽取不同尺度的特征分別進行預測，這種方法不需要額外的計算，但不能很好地提取小目標敏感的淺層高分辨率特征。

圖21 多尺度檢測的常見結構[56] Fig.21 Common structures of multiscale detection[56]

特征金字塔網絡（Feature Pyramid network， FPN）［56］借鑒了ResNet跳接的思想，結合了層間特征融合與多分辨率預測，其結構如圖22所示。文獻［56］將FPN用于Faster R?CNN的區域候選網絡（Region proposal network， RPN），在每層金字塔后面接一個RPN頭。由于輸入了多尺度的特征，因此不需要生成多尺度的錨框，只需要在每個尺度上設置不同的寬高比，并共享參數。以ResNet?101為骨干網絡的Faster R?CNN+FPN在COCO test?dev上[email protected]達到了59.1%，超過不用FPN的Faster R?CNN 3.4%。實驗證明對于基于區域的目標檢測器，該特征金字塔結構的特征提取效果優于單尺度的特征提取效果。

圖22 FPN結構示意圖[56] Fig.22 Structure of FPN[56]

YOLO［57］是單階段模型的代表，它沒有提出候選區域的過程，而是直接將提出候選區域和分類統一為一個邊界框回歸的問題，將整張圖片作為網絡的輸入，在輸出層對邊界框位置信息和類別進行回歸，實現了端到端的學習過程，其示意圖如圖23所示。它首先將圖片縮放并劃分為等分的網格，然后在每張圖片上運行單獨的卷積網絡，最后用非極大值抑制得到最后的預測框。損失函數被分為3部分：坐標誤差、物體誤差和類別誤差。為了平衡類別不均衡和大小物體等帶來的影響，損失函數中添加了權重并將長寬取根號。

圖23 YOLO示意圖[57] Fig.23 Pipeline of YOLO[57]

YOLO的網絡結構借鑒了GoogLeNet的結構，用24層卷積層后接2層全連接層，將Inception模塊替換為類似網中網［24］中的1××1卷積層后接3××3卷積層，并在ImageNet上預訓練，其結構如圖24所示。在PASCAL VOC 07+12數據集上，YOLO在達到最高幀率155 幀/s時mAP可以達到52.7%，在mAP最高達到63.4%時幀率可達45幀/s。YOLO在保證了準確率的同時擁有極高的推理速度，遠超當時的兩階段模型。

圖24 YOLO網絡結構圖[57] Fig.24 Structure of YOLO[57]

YOLOv1的訓練流程簡單，背景誤檢率低，但由于只選擇交并比最高的邊界框作為輸出，每個格子最多只能預測出一個物體。當每個格子包含多個物體時，YOLOv1只能檢測出1個目標。YOLOv2［58］在YOLOv1的基礎上，骨干網絡采用了以VGG16為基礎的Darknet19，使用了批量歸一化緩解了梯度爆炸和消失的問題。YOLOv2借鑒了Faster R?CNN錨框的設計，將YOLOv1的全連接層替換為錨框預測邊界框的位置，解耦了位置和類別的回歸計算。YOLOv2［58］同時采用了多尺度訓練，提升了模型的健壯性。后續的YOLOv3［59］骨干網絡采用了Darknet53，使用了ResNet的跳接結構，并引入了FPN，一定程度上解決了YOLOv2小目標檢測精度較差的問題。YOLOv3在分辨率320 像素×像素×320 像素的輸入上以22 ms的推理時間使得mAP達到28.2%，和當時最好的單階段檢測器SSD達到相同精度，但擁有3倍的推理速度。YOLOv3以51 ms的推理時間使得[email protected]達到57.9%，相較于以198 ms的推理時間[email protected]達到57.5%的RetinaNet［60］，精度相近但YOLOv3的速度是RetinaNet［60］的近4倍。

SSD［55］是最早達到兩階段模型精度的單階段模型之一，對后期的單階段工作影響很深，其結構如圖25所示。為解決YOLOv1小目標檢測精度低的問題，基于VGG不同的卷積段采用了多尺度的特征圖，并在每個網格點生成更多的不同大小和長寬比的預測框。SSD在PASCAL VOC 2007數據集上，對于300 像素××300 像素的輸入mAP達到了74.3%，512 像素××512 像素的輸入mAP達到了76.9%。在COCO trainval35k數據集上預訓練再在PASCAL VOC 07+12上微調后，SSD最終mAP達到了81.6%。

圖25 SSD網絡結構圖[55] Fig.25 Structure of SSD[55]

和兩階段模型相比，單階段模型只需要進行一次類別預測和位置回歸，因此卷積運算的共享程度更高，擁有更快的速度和更小的內存占用。最新的單階段模型如FCOS［61］、VFNet［62］等工作已經可以達到接近兩階段模型精度，同時擁有更好的實時性，更適合在移動端部署。

目標檢測技術從傳統的手工特征算法到如今的深度學習算法，精度越來越高的同時速度也越來越快。在過去幾年中，工業界已經出現了成熟的基于目標檢測技術的應用，如人臉檢測識別、行人檢測、交通信號檢測、文本檢測和遙感目標檢測等。這些應用不僅便利了人們的生活，也為學術界提供了啟發和指導。

在未來的研究工作中，小目標檢測和視頻目標檢測依舊是研究的熱點問題。同時，為了加快推理速度并在移動端嵌入式設備部署模型，目標檢測的輕量化一直備受工業界的關注。在采集到多模態的信息（如文字、圖像、點云等）后，如何通過更好的信息融合來提高檢測性能也是未來的一個重點研究方向。

3.2　圖像分割

本文的圖像分割指圖像語義分割任務，其要求將整張圖片的所有像素分類為預先定義的多個類別之一。由于是像素級的稠密分類任務，相比圖像分類和目標檢測更加困難，是圖像處理和計算機視覺中的一個重要課題，在場景理解、醫學圖像分析、機器人感知及視頻監控等領域有著廣泛的應用。近年來，由于深度學習技術在計算機視覺領域應用中取得的成功，人們也進行了大量的工作研究基于深度學習模型的圖像分割方法。

U?Net［63］和全卷積網絡（Fully convolutional network， FCN）［64］都是在2015年提出的網絡，啟發了后來的很多圖像分割和目標檢測的工作。FCN已在文獻［1］中進行介紹，此處不再贅述。U?Net最初是一個用于醫學圖像分割的卷積神經網絡，分別贏得了ISBI 2015細胞追蹤挑戰賽和齲齒檢測挑戰賽的冠軍。U?Net可視為一個編碼器?解碼器結構，編碼器有4個子模塊，每個子模塊通過一個最大池化層下采樣，解碼器再通過上采樣的4個子模塊增大分辨率直到與輸入圖像的分辨率保持一致，其結構如圖26所示。由于卷積采用的是Valid模式，實際輸出圖像的分辨率低于輸入圖像的分辨率。U?Net網絡同時還采取了跳接結構（即圖26中的灰色箭頭），將上采樣結果與編碼器中具有相同分辨率的子模塊的輸出進行連接，作為解碼器中下一個子模塊的輸入。

圖26 U-Net結構示意圖[63] Fig.26 Structure of U-Net[63]

由于人體結構相對固定，分割目標在圖像內的分布很有規律，醫學圖像大多語義明確，需要低分辨率的信息用于目標物體的識別。同時醫學圖像形態復雜，往往要求高精度的分割，需要高分辨率的信息用于精準分割。U?Net融合了高低分辨率的信息，因此對醫學圖像分割的效果很好。

Mask R?CNN［65］是R?CNN團隊的又一次探索，他們在之前Faster R?CNN［52］的基礎上，將其擴展到更精細的像素級別的分類，從而從目標檢測領域拓展到圖像分割領域。通過使用RoIAlign代替RoIPooling，得到更好的定位效果，并在Faster R?CNN上添加了二進制的Mask，表征像素是否在目標范圍內完成圖像分割的任務。Mask R?CNN網絡結構圖和分支結構圖如圖27、28所示。圖27 Mask R-CNN網絡示意圖[65]Fig.27 Structure of Mask R-CNN[65] 圖28 Mask R-CNN分支示意圖[65]Fig.28 Structure of Mask R-CNN’s branches[65]

深度卷積神經網絡中池化層和上采樣層的設計對于圖像分割的設計有致命缺陷。因為參數不可學習，而且池化會導致像素的空間信息和內部的數據結構丟失，上采樣也無法重建小物體信息，因此圖像分割的精度一直處于瓶頸。針對這一問題，2016年的DeepLab［66］又提出了一種空洞卷積，避免了池化層帶來的信息損失，并使用全連接的條件隨機場（Conditional random field， CRF）優化分割精度，其結構如圖29所示。

圖29 空洞卷積示意圖（卷積核尺寸為3，輸入步長為2，輸出步長為1）[66] Fig.29 Dilated convolution (kernel size=3, input stride=2, output stride=1)[66]

空洞卷積可以在避免使用池化層損失信息的情況下增大感受野，同時不增加參數數量。作為后處理，DeepLabv1將每個像素點作為節點，像素之間的關系作為節點間的連線，構成一個條件隨機場，再用一個二元勢函數描述像素點之間的關系，將相似像素分配相同的標簽，從而在分割邊界取得良好的效果。DeepLabv1速度很快，幀率達到8 幀/s，在PASCAL VOC 2012數據集上平均交并比（Mean intersection over union，mIoU）達到了71.6%，它的“深度卷積神經網絡+條件隨機場”結構對之后很多工作產生了深遠的影響。

2017年劍橋大學提出的SegNet［67］的主要動機是針對道路和室內場景理解，設計一個像素級別的圖像分割網絡，同時保證內存和計算時間方面上的高效。SegNet采用“編碼器?解碼器”的全卷積結構，編碼網絡采用VGG16［28］的卷積層，解碼器從相應的編碼器獲取最大池化索引后上采樣，產生稀疏特征映射。復用池化索引減少了端到端訓練的參數量，并改善了邊界的劃分。SegNet在道路場景分割數據集CamVid 11 Road Class Segmentation［68］上mIoU達到60.1%，邊界F1得分（Boundary F1 score，BF）達到46.84%；在室內場景分割數據集SUN RGB?D Indoor Scenes［69］上幾乎所有當時的深層網絡結構都表現不佳，但SegNet依然在絕大多數的指標上超過了其他網絡。SegNet結構如圖30所示。

圖30 SegNet結構示意圖[67] Fig.30 Structure of SegNet[67]

2017年香港中文大學提出了PSPNet［70］，該網絡采用金字塔池化模塊，用大小為1××1、2××2、3××3和6××6的4層金字塔分別提取不同尺度的信息，然后通過雙線性插值恢復長寬，把不同層的特征連結起來得到全局信息，這種結構比全局池化更具有代表性，融合了多尺度的信息。PSPNet在PASCAL VOC 2012數據集上mIoU達到了82.6%，在MS COCO數據集上預訓練后達到85.4%。PSPNet結構如圖31所示。

圖31 PSPNet結構示意圖[70] Fig.31 Structure of PSPNet[70]

DeepLabv2［71］在DeepLabv1［66］和PSPNet［70］的基礎上用ResNet101代替VGG16，并提出了一種帶有空洞卷積的空間金字塔池化模塊（Atrous spatial Pyramid pooling， ASPP），用多尺度的方法以不同的速率并行地提取特征圖信息，極大地增加了感受野，其結構如圖32所示。DeepLabv2使用不同的學習率，相比DeepLabv1， mIoU達到了79.7%，提升了8.1%，但二者都使用了全連接條件隨機場模塊。

圖32 空洞空間金字塔池化示意圖[71] Fig.32 Structure of ASPP[71]

DeepLabv3［72］重新審視了空洞卷積的作用，將其級聯模塊應用在ResNet最后一個模塊之后。不使用空洞卷積和使用空洞卷積的級聯模塊示意圖如圖33所示。

圖33 不使用和使用空洞卷積的級聯模塊示意圖[72] Fig.33 Structures of cascade modules without and with atrous convolution[72]

DeepLabv3改進了ASPP模塊，應用BN層，并將DeepLabv2中Rate=24的3××3卷積模塊替換為1××1卷積模塊和全局池化模塊，克服了像素點相對距離增大時有效權重減少的問題。DeepLabv3去掉了后處理的DenseCRF模塊，并最終在PASCAL VOC 2012數據集上mIoU達到了86.9%，相較DeepLabv2進一步提升了7.2%。改進的ASPP模塊示意圖如圖34所示。

圖34 改進的ASPP模塊示意圖[72] Fig.34 Improved ASPP module[72]

DeepLabv3+［73］相對于DeepLabv3，采用了“編碼器?解碼器”的結構，編碼器中包含豐富的語義信息，解碼器則輸出圖像的邊緣細節信息。空間金字塔池化模塊，“編碼器?解碼器”結構和帶有空洞卷積的“編碼器?解碼器”結構如圖35所示，DeepLabv3+結構如圖36所示。

圖35 DeepLabv3+使用了空間金字塔池化模塊，“編碼器-解碼器”結構和空洞卷積[73] Fig.35 DeepLabv3+ employing spatial Pyramid pooling, encoder-decoder and atrous convolution[73]

圖36 DeepLabv3+示意圖[73] Fig.36 Structure of DeepLabv3+[73]

DeepLabv3+將之前的骨干網絡ResNet101替換為Xception，并結合深度可分離卷積的思想提出了空洞深度可分離卷積，在減少參數量的同時進一步增大感受野。和DeepLabv3一樣，DeepLabv3+也沒有使用DenseCRF后處理模塊。最終DeepLabv3+在PASCAL VOC 2012數據集上mIoU達到了89.0%，相較DeepLabv3提升了2.1%。深度卷積、逐點卷積和空洞深度可分離卷積示意圖如圖37所示。

圖37 空洞深度可分離卷積示意圖[73] Fig.37 Structure of atrous depthwise separable convolution[73]

2019年曠視科技提出了一種名為DFANet［74］的高效CNN架構，通過子網和子級聯的方式聚合多尺度特征，極大地減少了參數量，其結構如圖38所示。DFANet采用“編碼器?解碼器”結構，解碼器的骨干網絡采用3個改良的輕量級Xception融合結構，編碼器則是一個高效的上采樣模塊，用于融合高層和底層的語義信息。在CityScapes［75］測試數據集上，對于1 024像素××1 024像素的輸入圖片，DFANet在一塊NVIDIA Titan X上mIoU達到71.3%，FLOPS僅為3.4××109，幀率達到100 幀/s；在CamVid［68］測試數據集上，對于960像素××720像素的輸入圖片，DFANet在8 ms的計算時間內mIoU達到64.7%，幀率達到120 幀/s。

圖38 DFANet結構示意圖[74] Fig.38 Structure of DFANet[74]

2020年筆者提出一種輕量級網絡LRNNet［76］。其中分解卷積塊FCB（圖39（a））利用1××3和3××1的空間分解卷積處理短距離特征，并利用空洞深度分離卷積處理遠距離特征，實現了參數量和計算量更少、深度更快、準確率更高的特征提取；高效的簡化Non?Local模塊LRN（圖39（b））利用區域主奇異向量作為Non?Local模塊的Key和Value，在降低Non?Local模塊的計算量和內存占用的同時，保持其處理遠距離關聯的效果。在Cityscapes［75］測試集上，LRNNet的mIoU達到了72.2%，而網絡僅有68萬個參數，并在1張GTX 1080Ti卡上達到71 幀/s的推理速度；在CamVid［68］測試集上，對于360像素××480像素的輸入，LRNNet的mIoU達到了69.2%，參數量也為68萬個，在1張GTX 1080Ti卡上幀率達到76.5 幀/s。

圖39 LRNNet中的FCB和LRN模塊[76] Fig.39 FCB and LRN modules in LRNNet[76]

圖像分割是像素級的稠密分類任務，在搜集數據集時需要真值標注每個像素，但由于這個要求極其耗時且非常昂貴，許多研究人員開始用弱監督學習和半監督學習的方法訓練網絡。常見的弱標注有圖像類別標簽、邊界框、顯著圖和類激活圖（Class activation map，CAM）等。

2015年谷歌和UCLA團隊的工作［77］是最早開始研究基于弱監督學習技術的圖像分割算法之一。該工作基于DeepLab模型［66］，研究了弱標注（類別標簽、邊界框等）與少量強標注（像素級標簽）和大量弱標注混合對DCNN圖像分割模型的影響，并在半監督和弱監督的設定下提出了一種期望最大化方法（Expectation?maximization，EM）。這項工作證實了僅使用圖像級標簽的弱標注存在性能差距，而在半監督設定下使用少量強標注和大量弱標注混合可以獲得優越的性能，在MS COCO數據集上使用5 000張強標注圖片和118 287張弱標注圖片mIoU超過70%。

盡管類別標簽的獲取成本很低，但這類標注信息僅僅標明某類目標存在，不能表示出目標的位置和形狀，這往往會導致分割效果不夠理想，存在邊界模糊等問題。當出現目標遮擋的情況時，僅使用圖像級標簽獲取完整的目標邊界會更加困難。為了補充監督信息中缺少的位置和形狀信息，使用圖像的顯著性信息是一種常見的手段。文獻［78］提出了一個僅使用類別標簽和顯著圖信息的圖像分割模型，其結構如圖40所示。該模型將圖像的顯著圖定義為一個人最有可能先看到的目標的二進制掩膜，用預訓練的目標檢測網絡提取出顯著性區域，通過種子信息確定目標的類別和位置。該工作同樣基于DeepLab［66］的網絡結構，提出的模型測試精度mIoU達到56.7%，實現了全監督模型80%的性能。

圖40 高層信息指導的圖像分割網絡結構圖[78] Fig.40 High-level guided segmentation architecture[78]

定位線索的另一個流行的選擇是使用CAM。主流的弱監督方法通過將CAM作為分割種子，突出局部的顯著部分，然后逐漸生長直到覆蓋整個目標區域，從而補充了缺失的目標形狀信息。2018年提出的AffinityNet［79］結合了類別標簽和CAM信息，首先計算圖像的CAM作為監督源訓練AffinityNet，通過構建圖像的語義相似度矩陣，結合隨機游走進行擴散，不斷獎勵或懲罰從而修改CAM，最終恢復出目標的形狀。AffinityNet流程如圖41所示。

圖41 AffinityNet流程示意圖[79] Fig.41 Pipeline of AffinityNet[79]

深度學習技術在圖像分割領域取得了顯著成就，但仍然面臨不小的挑戰。當前的大規模數據集如MS COCO［80］和PASCAL VOC［81］并不能滿足工業界的需求，而具有多目標和重疊目標的數據集對于圖像分割而言更具有應用價值，這可以使得圖像分割技術更好地處理密集目標場景和現實生活中常見的重疊目標場景。基于小樣本學習技術的圖像分割算法同樣具有廣闊的前景，因為在許多應用領域，例如醫學圖像分析領域，獲取學習樣本的成本較高，難度也較大。圖像分割技術的實時性也是一個難題，目前大多數模型并不能達到實時性的要求，但在很多應用場景下，速度的重要性遠高于精度。

3.3　超分辨率

超分辨率技術是計算機視覺領域提高圖像和視頻分辨率的重要處理技術之一，研究如何將低分辨率的圖像或圖像序列恢復出具有更多細節信息的高分辨率圖像或圖像序列，在高清電視、監控視頻、醫學成像、遙感衛星成像、顯微成像及老舊圖像視頻修復等領域有著重要的應用價值。傳統上超分辨率屬于底層視覺領域，但本文敘述順序從圖像分類、目標檢測、圖像分割到超分辨率，輸出逐級復雜，依次為圖像標簽、目標位置和類別標簽、與輸入同大小的分割圖、比輸入圖像大的高分辨率圖像等。與前幾個任務不同，超分辨率需要生成和恢復輸入中不存在的信息。

超分辨率的概念最早出現在光學領域，1952年Francia第一次提出了用于提高光學分辨率的超分辨率的概念［82］。1964年前后，Harris［83］和Goodman［84］分別提出了后來稱為Harris?Goodman頻譜外推的方法，這被認為是最早的圖像復原方法，但這種技術只能在一些理想情況下進行仿真，實際效果不太理想，因此并未得到推廣。1984年Tsai等［85］首次利用單幅低分辨率圖像的頻域信息重建出高分辨率圖像后，超分辨率重建技術才得到廣泛的認可和應用，如今它已經成為圖像增強和計算機視覺領域中最重要的研究方向之一。

傳統的超分辨率方法包括基于預測、基于邊緣、基于統計、基于塊和基于稀疏表示等方法。根據輸入輸出的不同，超分辨率問題可以分為基于重建的超分辨率問題、視頻超分辨率問題和單幅圖像超分辨率問題。根據是否依賴訓練樣本，超分辨率問題則又可以分為增強邊緣的超分辨率問題（無訓練樣本）和基于學習的超分辨率問題（有訓練樣本）。

最簡單、應用最廣泛的經典單幅圖像超分辨率方法是插值法，包括Lanczos、Bicubic、Bilinear和Nearest等，這種方法操作簡單、實施性好，但并不能恢復出清晰的邊緣和細節信息，因此很多其他用于增強細節的傳統算法相繼被提出。文獻［86］提出了基于塊的方法，也被稱為基于鄰域嵌入的方法。這種方法使用流形學習中的局部線性嵌入，假設高、低維度中圖像塊的線性關系可以保持，用低分辨率圖像的特征（梯度等）重構高分辨率圖像。文獻［87?88］提出了基于稀疏表示的方法，也被成為字典學習。這種方法將低分辨率圖像和高分辨率圖像表示為字典DD與原子αα，高分辨率圖像可表示為x=Dhighx=Dhigh，低分辨率圖像為y=Dlowy=Dlow，假設不同分辨率的同一幅圖像的原子αα，在訓練完字典DhighDhigh和DlowDlow后，用低分辨率的圖像得到αα，隨后得到重構的高清圖像。基于學習的超分辨率技術［89］如圖42所示，上、下采樣方法示意圖［90］如圖43所示。

圖42 基于學習的超分辨率技術[89] Fig.42 Learning-based super-resolution[89]

圖43 超分辨率問題中的上采樣和下采樣方法[90] Fig.43 Upsampling and downsampling in super-resolution[90]

經典的超分辨率方法要求研究者具備深厚的相關領域先驗知識。隨著深度學習技術的興起，用神經網絡方法重建的圖像質量超過了傳統方法，速度也更快，這使得大批學者轉向對深度學習技術在超分辨率領域的應用研究。香港中文大學Dong等于2015年首次將卷積神經網絡用于單幅圖像超分辨率重建，提出了SRCNN［91］，該網絡僅僅用了3個卷積層，利用傳統稀疏編碼，依次進行圖像塊提取、非線性映射和圖像重建，實現了從低分辨率圖像到高分辨率圖像的端到端映射，流程圖如圖44所示。SRCNN激活函數采用ReLU，損失函數采用均方誤差。

圖44 SRCNN流程圖[91] Fig.44 Pipeline of SRCNN[91]

2016年Dong團隊在之前SRCNN的基礎上提出了更快、實時性更好的FSRCNN［92］，在原始網絡的最后加入反卷積層放大尺寸，摒棄了Bicubic插值方法，使用了更多的映射層和更小的卷積核，改變了特征維度，并共享其中的映射層，FSRCNN改進示意圖如圖45所示。訓練時FSRCNN只需要微調最后的反卷積層，因此訓練速度很快。FSRCNN激活函數采用PReLU，損失函數仍采用均方誤差。

圖45 FSRCNN對SRCNN的改進[92] Fig.45 FSRCNN’s improvement on SRCNN[92]

2016年提出的ESPCN［93］在SRCNN基礎上進一步提高了速度，其結構如圖46所示。該工作提出了一種亞像素卷積層，可以直接在低分辨率圖像上提取特征，從而避免在高分辨率圖像上進行卷積，降低了計算復雜度。ESPCN激活函數采用tanh，損失函數仍然采用均方誤差。

圖46 ESPCN示意圖[93] Fig.46 Structure of ESPCN[93]

SRCNN的網絡輸入是經過上采樣的低分辨率圖像，計算復雜度很高，因此FSRCNN和ESPCN都選擇在網絡末端上采樣以降低計算復雜度。但如果在上采樣后沒有足夠深的網絡提取特征，圖像信息就會損失。為了更好地使用更深的網絡，很多工作引入了殘差網絡。2016年首爾國立大學Kim等提出的VDSR［94］是第一個引入全局殘差的模型，其結構如圖47所示。Kim等指出，高低分辨率圖像攜帶的低頻信息很相近，因此事實上網絡只需要學習高頻信息之間的殘差即可。VSDR思想啟發了很多之后利用殘差結構的工作。

圖47 VSDR網絡結構圖[94] Fig.47 Structure of VSDR[94]

CARN［95］是NTIRE2018超分辨率挑戰賽的冠軍方案，該方案使用全局和局部級聯，將ResNet的殘差塊替換成級聯模塊和1×11×1卷積模塊組合，并提出了一種殘差?E模塊，可以提升CARN的效率。CARN的改進如圖48所示，其局部級聯模塊如圖49所示。

圖48 CARN對于ResNet的改進[95] Fig.48 Improvement of CARN based on ResNet[95]

圖49 殘差-E模塊與其他常見模塊的對比[95] Fig.49 Comparison between residual-E block and other common blocks[95]

EDVR［96］是商湯科技2019年提出的一種用于視頻修復的通用框架，在NITRE 2019 的4個賽道中均以較大的優勢獲得了冠軍。視頻修復任務包括超分辨率、去噪聲等任務，早期的研究者們簡單地將視頻修復視作圖像修復的延伸，幀間冗余的時間信息并沒能被充分利用。EDVR通過增強的可變形卷積網絡實現視頻的修復和增強，適用于各種視頻修復任務，如超分辨率、去模糊等任務。EDVR框架示意圖如圖50所示。

圖50 EVDR框架示意圖[96] Fig.50 Pipeline of EDVR[96]

EDVR提出了PCD（Pyramid， cascading and deformable）對齊模塊和TSA（Temporal and spatial attention）融合模塊，其結構如圖51所示。PCD模塊受TDAN［97］的啟發，用一種金字塔結構從低尺度到高尺度使用可變形卷積將每個相鄰幀與參考幀對齊。TSA模塊則用于在多個對齊的特征層之間融合信息，通過計算每個相鄰幀與參考幀特征之間的元素相關性引入時間注意力機制，相關系數代表每個位置上相鄰幀特征信息量的大小。在融合時間特征后進一步應用空間注意力機制，從而更有效地利用跨通道空間信息。

圖51 EVDR中的PCD模塊和 TSA模塊[96] Fig.51 PCD and TSA modules in EVDR[96]

三維卷積是一種常見的利用視頻時空間信息的方法，但這種方法往往復雜度較高，限制了模型的深度。2019年提出的FSTRN［98］通過使用一種快速時空間殘差模塊將三維卷積用于視頻超分辨率任務，將每個三維濾波器分解為2個維數更低的3位濾波器乘積，從而降低復雜度，實現更深的網絡和更好的性能。此外，FSTRN還提出了一種跨空間殘差學習方法，直接連接低分辨率空間和高分辨率空間，減輕了特征融合和上采樣部分的計算負擔。FSTRN結構如圖52所示。

圖52 FSTRN結構示意圖[98] Fig.52 Pipeline of FSTRN[98]

隨著深度學習技術的興起，近20年來超分辨率領域發展迅速，出現了很多具有優異性能的模型，但距離實際應用還有一定的距離。圖像配準技術對于多幀圖像超分辨率的重建效果至關重要，目前還沒有成熟的解決方案。另一個難點則是大量未知的密集計算限制了視頻超分辨率重建的計算效率，難以達到實時性的要求。超分辨率算法的魯棒性和可遷移性仍然是下階段的研究熱點，現有的評價標準，如均方誤差、峰值噪聲比、結構相似性等還不能客觀地衡量重建效果，有時甚至會出現和人眼視覺相違背的情況。

4 神經架構搜索

深度學習技術在圖像分類、語音識別及機器翻譯等諸多領域上取得了舉世矚目的成功，可以自動地學習數據信息，讓研究人員擺脫特征工程，這離不開GoogLeNet、ResNet等經典的深度神經網絡模型。然而一個具有優異性能的網絡結構往往需要花費研究人員大量的時間資金投入，同時需要具備扎實的專業知識和豐富的經驗。因此人們開始研究讓機器代替人類，根據數據集和算法自動設計網絡結構。神經架構搜索技術（Neural architecture search，NAS）設計的模型如今已經在很多任務上取得了超過人工設計深度模型的性能，如圖像分割領域的Auto?DeepLab［99］，目標檢測領域的NAS?FPN［100］。神經架構搜索技術是機器學習自動化（Automated machine learning，AutoML）的子領域，代表了機器學習未來發展的方向。神經架構搜索技術的流程如圖53所示，首先從一個搜索空間中通過某種策略搜索候選網絡架構，然后對其精度、速度等指標進行評估，通過迭代不斷優化直到找到最優的網絡架構。

圖53 神經架構搜索流程圖

Fig.53 Pipeline of NAS

搜索空間內定義了優化問題的變量，如網絡架構參數和超參數，這些變量決定了模型的性能。常見的網絡架構有鏈式結構和分支結構等，每一個節點的網絡架構參數包括卷積層、池化層和激活函數等，超參數包括卷積的尺寸、步長、加法或連結等。典型的網絡架構［101］如圖54所示。

圖54 網絡架構[101]

Fig.54 Network architecture[101]

搜索策略被用于探索神經架構空間，常見的策略包括隨機搜索、貝葉斯優化、遺傳算法、強化學習［102?103］和梯度算法等，其中強化學習、遺傳算法及梯度算法是目前主流的搜索策略。在性能評估時，由于訓練和驗證的時間成本較高，因此常常需要采用評估策略降低評估成本，如減少迭代次數、在訓練集的子集上訓練、減少卷積核數量等，但這些策略往往會導致一些偏差，可能會對最終的優劣次序產生影響。更高級的策略包括權重共享、通過迭代時的表現推斷最終性能以及通過模塊預測網絡性能等方法。

DARTS［104］是第一個基于連續松弛的搜索空間的神經網絡架構技術。早期傳統的NAS方法如NasNet［105］、PNAS［106］和ENAS［107］等大多在離散不可微的搜索空間上應用強化學習、進化算法等搜索策略，由于搜索空間內待搜索的參數不可導，因此一個性能優異的模型往往需要耗費大量的計算資源和時間成本。事實上，當時的研究者們將神經架構搜索技術視為一個在離散空間上的黑箱優化問題，每次架構的迭代優化都需要性能評估，效率十分低下。而DARTS使用了松弛連續的結構表示，使用梯度下降優化網絡在驗證集上的性能，實現了端到端的網絡搜索，大大減少了迭代次數，把搜索時間從數千個GPU日降低到數個GPU日。

DARTS流程如圖55所示。其中：圖（a）表示邊上的初始未知操作；圖（b）在每條邊上放置候選操作的組合，連續松弛搜索空間，不斷放寬搜索條件；圖（c）通過解決一個雙層規劃問題聯合優化混合概率與網絡權重；圖（d）用學到的混合概率求得最終的網絡架構。DARTS是一種簡單的NAS方法，適用于CNN和RNN，在CIFAR?10數據集［108］上用4個GPU日達到了2.76%的測試誤差，參數量僅有330萬個；在PTB數據集［109］上用1個GPU日以2 300萬個的參數量達到了55.7%的測試困惑度，達到了當時的最好性能。在CIFAR?10數據集上搜索出來的模型架構在ImageNet［19］數據集上以470萬個的參數量達到8.7%的top?5錯誤率，在PTB數據集上搜索出來的模型架構在WikiText?2數據集［110］上以3 300萬個的參數量達到69.6%的困惑度，優于很多手工設計的輕量化模型。

圖55 DARTS流程示意圖[104]

Fig.55 Pipeline of DARTS[104]

基于DARTS，一系列改進算法被相繼提出。在DARTS中，搜索在一個有8個單元的網絡上進行，搜索出來的架構通過堆疊在一個具有20個單元的網絡上被評估，但深度網絡和淺層網絡的結構往往不同。例如，在代理數據集（如CIFAR?10數據集）上搜索出來的網絡架構可能在目標數據集（如ImageNet數據集）上表現不理想。2019年華為諾亞方舟實驗室提出P?DARTS［111］，針對這一問題（被稱為Depth Gap）提出了一種漸進式搜索的方法，如圖56所示。搜索網絡的深度從最初的5個單元增加到中期的11個和后期的17個，而候選操作的數量（用不同的顏色表示）相應地從5個減少到4個和2個。在上一階段得分最低的操作將被丟棄，最后結合分數和可能的附加規則確定最終架構［111］。

圖56 P-DARTS流程示意圖[111]

Fig.56 Pipeline of P-DARTS[111]

2019年MIT提出ProxylessNAS［112］，針對DARTS只能在小型代理數據集上搜索而在大型數據集上則會出現顯存爆炸的問題提出了無代理神經架構搜索技術，在訓練時二值化路徑，用和DARTS雙層規劃類似的思想聯合訓練權重參數和架構參數，從而達到降低顯存的目的，并首次提出針對不同的硬件平臺搜索滿足特定時延的神經網絡架構方法。ProxylessNAS不再采用搜索單元然后堆疊達到更深網絡的方法，而是選擇主干網絡，如MobileNet［41］、ShuffleNet［42］等。ProxylessNAS在CIFAR?10數據集上以僅570萬個的參數量達到2.08%的測試誤差。ProxylessNAS示意圖如圖57所示。

圖57 ProxylessNAS示意圖[112]

Fig.57 Pipeline of ProxylessNAS[112]

當迭代次數過大后，DARTS設計出的網絡架構會包含很多跳接結構，使得性能變得很差，稱為DARTS的坍塌。2020年諾亞方舟實驗室提出的DARTS+［113］通過引入早停機制，即當一個正常單元出現2個或2個以上的跳接結構時就停止搜索，縮短了DARTS搜索的時間，極大地提高了DARTS的性能，其示意圖如圖58所示。

圖58 DARTS+中的早停機制示意圖[113]

Fig.58 Early Stopping in DARTS+[113]

2020年商湯研究院提出的隨機神經架構搜索SNAS［114］也是一種可微的端到端方法，但與DARTS相比，SNAS將NAS重新表述為在一個單元中搜索空間的聯合分布參數優化問題，直接優化損失函數，偏差更小。在同一輪反向傳播中SNAS同時訓練操作參數和架構參數，并提出了一種新的搜索梯度。相比基于強化學習的神經架構搜索技術，SNAS優化相同的目標函數，但更高效地只使用訓練損失作為獎勵。

PC?DARTS［115］是華為諾亞方舟實驗室2020年提出的NAS技術，在P?DARTS［111］的基礎上設計了部分通道連接機制，每次只有一部分通道進行操作搜索，這節省了訓練需要的顯存，減少了計算量，并采用邊正則化降低由于操作搜索不全造成的不確定性。PC?DARTS在CIFAR?10數據集［108］上用0.1個GPU日達到了2.57%的測試誤差，參數量僅有360萬個；在ImageNet數據集［19］上用3.8個GPU日以530萬個的參數量達到了7.3%的top?5錯誤率，取得了更快更好的搜索效果。PC?DARTS結構如圖59所示。

圖59 PC-DARTS結構示意圖[115]

Fig.59 Structure of PC-DARTS[115]

當前的神經架構搜索技術大多被用于圖像分類任務，這促使許多研究人員試圖設計出更好的人工網絡。但一方面由于搜索空間的定義被局限在現有的網絡結構設計經驗中，使得NAS設計出的網絡很難與人工網絡有本質上的區別。另一方面，NAS技術設計的網絡可解釋性很差，由于研究人員采用的數據增強、搜索空間、訓練方法及正則化策略等方法常常不同，這使得NAS設計出的架構很難被復現，不同網絡架構的性能也難以比較。由此可見，神經架構搜索領域仍然存在很多挑戰，如何解決這些問題將會是下一階段的熱門研究方向之一。

5 結束語

深度學習技術近年來在計算機視覺中的目標檢測、圖像分割、超分辨率和模型壓縮等任務上都取得了卓越的成績，充分證明了它的價值和潛力。然而深度學習領域仍然有不少難題無法解決，如對數據的依賴性強、模型難以在不同領域之間直接遷移、深度學習模型的可解釋性不強等，如何攻克這些難題將是下一階段的發展方向。為了追求極致的性能，很多科技巨頭投入了巨大的人力財力搭建巨型模型，如OpenAI發布的擁有1 750億個參數的GPT?3，谷歌發布的擁有1.6萬億個參數的Switch Transformer，快手發布的擁有1.9萬億個參數的推薦精排模型，這些模型需要大量的訓練時間和計算資源，如何設計計算硬件、系統和算法來加速訓練是一項新的挑戰。深度學習技術嚴重依賴大規模帶標簽的數據集，因此無監督學習技術、自監督技術，例如表示學習、預訓練模型等，仍然是重要的研究方向。同時深度學習技術帶來的安全隱患也引起了重視，如何在保護用戶隱私的前提下優化分布式訓練是另一個具有潛力的研究方向。

付費5元查看完整內容

智能交通管理系統 · 社會技術系統 · 信息物理社會系統 · 人工智能 · 清華大學學報 ·

2022 年 3 月 21 日

[付費5元查看完整內容]智能交通管理系統發展趨勢

專知會員服務

專知，提供專業可信的知識分發服務，讓認知協作更快更好！

數十年智能交通管理系統的發展依然存在效能不足的問題。該文聚焦城市交通系統的社會技術屬性和特征，對智能交通管理系統的發展方向進行了探索，提出了智能交通管理系統發展的三大趨勢：在技術基礎上應以信息物理社會系統為基礎，在建設目標上要實現能力的本質提升，在管理機制上要實現數據支撐的綜合驅動。在分析信息域、物理域、社會域三者之間關系的基礎上，提出了基于信息物理社會系統的智能交通管理系統體系框架，闡述了三大趨勢的具體內涵及未來發展的建議，以期對我國智能交通管理系統的發展提供借鑒。

付費5元查看完整內容

垂直知識圖譜 · 垂直領域 ·

2021 年 6 月 30 日

[付費5元查看完整內容]國內垂直領域知識圖譜發展現狀與展望

專知會員服務

專知，提供專業可信的知識分發服務，讓認知協作更快更好！

知識圖譜尤其是垂直知識圖譜技術是目前學術界和工業界研究的熱點，在人工智能領域具有廣泛的應用。為了充分展現國內在垂直知識圖譜領域研究的現狀，以垂直領域知識圖譜為研究對象，對其發展現狀和趨勢進行綜述。首先，對垂直領域知識圖譜的定義和分類、架構和關鍵技術的發展現狀進行了詳細論述；然后，針對垂直領域知識圖譜的具體應用進行了論述，并以學術信息知識圖譜和醫藥衛生知識圖譜為例進行了詳細介紹。最后對垂直領域知識圖譜發展中存在的問題和對策，以及未來的趨勢進行了探討。

付費5元查看完整內容

立體匹配 · 單目深度估計 · 視覺定位 · 同步定位與地圖估計 · 三維幾何建模 ·

2021 年 5 月 21 日

[付費5元查看完整內容]三維視覺前沿進展

專知會員服務

專知，提供專業可信的知識分發服務，讓認知協作更快更好！

在自動駕駛、機器人、數字城市、以及虛擬/混合現實等應用的驅動下，三維視覺在近年來得到了廣泛的關注。三維視覺研究主要圍繞深度圖像獲取、視覺定位與制圖、三維建模及三維理解等任務而展開。本文圍繞上述三維視覺任務，對國內外研究進展進行了詳細地綜合評述和對比分析。首先，針對深度圖像獲取任務，本文從非端到端立體匹配、端到端立體匹配及無監督立體匹配三個方面對立體匹配研究進展進行了回顧，從深度回歸網絡和深度補全網絡兩個方面對單目深度估計研究進展進行了回顧。其次，針對視覺定位與制圖任務，本文從端到端視覺定位和非端到端視覺定位兩個方面對大場景下的視覺定位研究進展進行了回顧，并從視覺同步定位與地圖構建和融合其它傳感器的同步定位與地圖構建兩個方面對同步定位與地圖構建的研究進展進行了回顧。再次，針對三維建模任務，本文從深度三維表征學習、深度三維生成模型、結構化表征學習與生成模型、以及基于深度學習的三維重建等四個方面對三維幾何建模研究進展進行了回顧，并從多視RGB重建、單深度相機和多深度相機方法、以及單視圖RGB方法等三個方面對人體動態建模研究進展進行了回顧。最后，針對三維理解任務，本文從點云語義分割和點云實例分割兩個方面對點云語義理解研究進展進行了回顧。在此基礎上，本文給出了三維視覺研究的未來發展趨勢，旨在為相關研究者提供參考。

//www.cjig.cn/jig/ch/reader/view_abstract.aspx?flag=2&file_no=2022&journal_id=jig

付費5元查看完整內容

深度學習 · 醫學影像 · 影像基因庫 · 基因組學 ·

2021 年 2 月 16 日

[付費5元查看完整內容]深度學習在醫學影像智能處理中的應用與挑戰

專知會員服務

專知，提供專業可信的知識分發服務，讓認知協作更快更好！

利用深度學習方法對醫學影像數據進行處理分析，極大地促進了精準醫療和個性化醫療的快速發展。深度學習在醫學圖像領域的應用較為廣泛，具有多病種、多模態、多組學和多功能的特點。為便于對深度學習在醫學圖像處理領域的應用進行更深入有效的探索，本文系統綜述了相關研究進展。首先，從深度學習在影像基因組學中的應用出發，理清了深度學習在醫學影像領域應用的一般思路和現狀，將醫學影像領域分為智能診斷、療效評估和預測預后等3個模塊，并對模塊內的各病種進行總結，展示了深度學習各算法的優缺點及面臨的問題和挑戰。其次，對深度學習中出現的新思路、新方法以及對傳統方法的改進進行了闡述。最后，總結了該領域現階段面臨的問題，并對未來的研究方向做出了展望。基于深度學習的醫學圖像智能處理與分析雖然取得了一些有價值的研究成果，但還需要根據臨床的實際需求，將深度學習與經典的機器學習算法及無創并且高效的多組學數據結合起來，對深度學習的理論和方法進行深入研究。

//www.cjig.cn/jig/ch/reader/view_abstract.aspx?file_no=20210206&flag=1

付費5元查看完整內容