亚洲男人的天堂2018av,欧美草比,久久久久久免费视频精选,国色天香在线看免费,久久久久亚洲av成人片仓井空

摘 要:在自然語言處理和計算機視覺領域取得顛覆性應用的生成式模型正成為數智化的新型技術基座,是未來驅動飛 行器技術智能化發展的重要引擎。本文綜述了生成式模型賦能飛行器技術應用進展情況。首先,總結了生成式模型架構 的發展歷程,詳細介紹了變分自編碼器、生成對抗網絡、擴散模型、Transformer等基本原理架構和改進方向。其次,歸 納了生成式模型在飛行器空氣動力學、航跡預測和目標檢測等領域的典型應用和變革情況;關注了參數化建模、氣動預 測模型、反設計等飛行器空氣動力設計關鍵技術的發展趨勢;探討了實時航跡預測、完整航跡預測、協同航跡預測和預 測誤差補償的智能實現方法;從現有目標檢測方法改進角度分析了生成式模型在多尺度融合、超分辨率增強和數據增強 中的作用。最后,從模型方法和應用場景拓展角度展望了生成式模型賦能智能飛行器技術未來的研究方向,針對構建可 解釋的通用大模型和推動垂直領域應用等方面提出了發展建議。 關鍵詞:生成式人工智能;飛行器技術;空氣動力設計;航跡預測;目標檢測

付費5元查看完整內容

相關內容

多生成智能體系統(MGASs)自大規模語言模型(LLMs)興起以來,已成為研究的熱點。然而,隨著新相關研究的不斷涌現,現有的綜述文章難以全面覆蓋這些進展。本文對這些研究進行了全面的綜述。我們首先討論了MGAS的定義,并提供了一個框架,涵蓋了大量的前期工作。接著,我們概述了MGAS在以下幾個方面的應用:(i)解決復雜任務,(ii)模擬特定場景,以及(iii)評估生成智能體。此外,基于以往的研究,我們還重點指出了一些挑戰,并提出了該領域未來研究的方向。

1 引言

多智能體系統(MAS)因其適應性和解決復雜分布式問題的能力,得到了顯著擴展(Balaji 和 Srinivasan,2010)。與單智能體設置(Gronauer 和 Diepold,2022)相比,MAS 更能準確地反映現實世界,因為許多實際應用自然涉及多個決策者的同時互動。然而,由于傳統強化學習(RL)智能體的參數限制以及缺乏通用知識和能力,智能體無法解決復雜的決策任務,例如與其他智能體合作進行開發(Qian 等,2024b)。近年來,大規模語言模型(LLMs),如 Llama 3(Dubey 等,2024)和 GPT-4(OpenAI 等,2024),在大量網絡語料庫上進行訓練并取得了顯著成功(Radford 等)。與強化學習相比,以 LLM 為核心控制智能體的生成智能體,即使沒有經過訓練,也能在推理、長時間決策等方面表現得更好(Shinn 等,2023)。此外,生成智能體提供了自然語言接口,便于與人類進行互動,使這些互動更加靈活且更易于解釋(Park 等,2023)。

基于這些優勢,多生成智能體系統(MGAS)應運而生。研究人員已經對這些新興工作進行了綜述,并提出了一個通用框架(Guo 等,2024)。然而,隨著相關研究數量的不斷增長,出現了一些超出原框架范圍的工作。本文基于以往對多生成智能體系統(MGASs)的綜述,提供了一個新的視角,重點討論了最新的進展并探討了潛在的研究方向。我們收集了 2023 和 2024 年在頂級人工智能會議(如 *ACL、NeurIPS、AAAI 和 ICLR)上發表的 125 篇論文,并結合一些尚未發表但有價值的 arXiv 論文。根據 MGAS 的應用目的,我們將其應用總結為:任務求解、特定問題的仿真以及生成智能體的評估。圖 1 展示了我們提出的 MGAS 應用框架。(i)解決復雜任務。多智能體將自然地將任務拆分為子任務,從而提高任務的執行性能。(ii)特定場景的仿真。研究人員將 MGAS 視為一個沙盒,用于模擬特定領域中的問題。(iii)生成智能體的評估。與傳統任務評估相比,MGAS 具備動態評估的能力,更加靈活且更難發生數據泄漏。對于每一類應用,我們將討論代表性的 MGAS、資源及其評估。 與之前的綜述(Wang 等,2024a;Zhao 等,2024c;Chuang 和 Rogers,2023;Guo 等,2024;Gao 等,2023a;Gronauer 和 Diepold,2022)相比,本文的獨特貢獻如下:(i)與當前趨勢高度相關的分類法:我們基于 MGAS 應用目的,提出了一個更為近期的分類法(如圖 1 所示)。(ii)更多的資源:我們分析了開放源代碼框架以及具有基準或數據集的研究工作,以便為研究社區提供便利。(iii)挑戰與未來:我們討論了 MGAS 中的挑戰,并闡明了未來的研究方向。

付費5元查看完整內容

摘要 文章探討了大模型作為人工智能技術的前沿應用之一,在軍事領域具有廣泛的應用前景,包括指揮控制、情報分析、戰術訓練等多個方面。然而,大模型的應用也面臨著諸多挑戰和安全風險,如計算資源需求、模型解釋性、數據安全性等方面的問題。為了充分發揮大模型在軍事領域的潛力,文章提出了一系列建議,包括加強技術創新、提升計算資源支持、保障數據安全、加強模型解釋性、應對安全風險等方面的措施。 關鍵詞 大模型,人工智能,軍事應用,指揮控制

0 引言 當今迅速發展的科技時代,人工智能(AI)技術正以前所未有的速度改變著我們的生活和工作方式。其中,大模型(Large Language Model,LLM)作為人工智能技術的重要代表之一,已經在各個領域展現出了驚人的應用潛力。在軍事領域,大模型所蘊含的強大計算能力、大規模數據處理能力和智能決策能力引發了人們對其在戰爭模擬、情報分析、戰場指揮等方面的廣泛關注[1-4]。 大模型[5-6]通常指的是擁有數億甚至數十億參數的深度學習模型,其可以通過學習大量的數據來提取特征,從而實現對復雜問題的建模和預測。隨著軍事技術的不斷發展和戰爭形態的日新月異,如何有效利用大模型技術來增強軍事力量、提高戰爭效率、保障國家安全,成為當前軍事領域面臨的重大挑戰 要課題之一。大模型的應用可以極大地提高情報分析的準確性和效率,輔助指揮員進行決策,提高指揮控制的智能化水平,同時也可以用于武器系統的目標識別、路徑規劃等領域,提高武器系統的性能。 本文將首先介紹大模型大模型的概念、特點,其次介紹大模型在軍事領域中的具體應用、情報分析、指揮控制、武器系統等方面,接著分析大模型在軍事領域應用的挑戰,如數據安全、算法偏見等,探討我國在這一領域的現狀和未來發展方向,最后總結全文并展望未來。

付費5元查看完整內容

摘要 空間飛行器軌跡優化與控制技術可通過優化設計飛行過程中的控制律,來提高飛行器總體性能,在航空航天領域具有極高的發展潛力和應用價值。圍繞該研究方向,概述了近年來國內外的主要研究成果和最新研究進展。重點關注了針對建模方法的研究以及針對求解方法的研究這兩個方向,以及新興的人工智能方法。在此基礎上,重新梳理了空間飛行器軌跡優化與控制方法的理論體系,重點分析了各類典型方法的優缺點以及最新的代表性成果。結合其研究歷程以及現有技術優勢,對空間飛行器軌跡優化與控制方法的未來發展趨勢進行了展望,指出未來空間飛行器軌跡優化與控制技術將朝著通用化、智能化、數據化、實時化的方向發展。

//www.jc2.org.cn/CN/abstract/abstract646.shtml

付費5元查看完整內容

摘要: 未來無人裝備對微型化、智能化、模塊化、低成本化的單機系統有著強烈需求。微系統以其先進架構、高度集成和大規模低成本優勢,與未來無人裝備發展需求高度契合。 對微系統的發展應用現狀進行了綜合評述,并結合無人裝備的發展需求對未來發展方向進行了展望。 首先,從射頻微系統、信息處理微系統和導航微系統等方面介紹了微系統的發展現狀;其次,總結了微系統在導彈武器系統和無人機平臺上的應用現狀;最后,結合無人裝備的發展需求,展望了微系統在智能可重構、互連標準化、低成本化、單片多功能高可靠等方面的發展趨勢。

引言

無人體系作戰是高端信息化戰爭的重要發展趨勢,無人機、無人航彈作為無人體系中的重要作戰單元,以其使用限制少、防御對抗難和人員零傷亡等優勢,在局部戰爭中嶄露頭角,現已被各軍事強國大量裝備。 隨著馬賽克戰、聯合全域作戰等新式作戰概念的發展,無人裝備對硬件小尺寸、高集成、高性能、低成本、模塊化等的需求不斷提高。 微系統能夠以“先進架構”、“智能算法”、“高度集成”和“大規模低成本”等優勢,加快無人裝備快速定制研發,降低無人裝備大規模應用成本,提升無人裝備智能化應用水平,與未來無人裝備發展需求高度契合。 微系統是以微納尺度理論為支撐,以微納制造、工藝等為基礎,融合微電子、微光子、微機電、體系架構和算法,通過三維異質/異構集成等手段,將微處理、微傳感、微執行、微能源和各種接口等進行一體化、多功能、軟硬件集成,實現高集成、高可靠、低功耗的微型化系統[1-3]。 根據功能特點不同,微系統可分為射頻微系統、信息處理微系統、導航微系統、光電微系統和能源微系統五類。 美國等發達國家二十世紀末就將微系統技術列入國防攻關重點,并在武器裝備中進行應用驗證。 國內微系統技術發展也已得到重視,彈載通信、機載綜合處理、雷達探測等方向的微系統研究工作也取得了一定成果。 本文論述射頻微系統、信息處理微系統和導航微系統的發展現狀,同時總結微系統在無人裝備領域的應用現狀,最后結合無人裝備對微系統的需求,對微系統發展方向進行分析。

付費5元查看完整內容

摘要: 以大模型在材料科學中的應用為著眼點,首先綜述了大模型,介紹了大模型的基本概念、發展過程、技術分類與特點等內容;其次從通用領域大模型和垂直領域大模型兩個角度,總結了大模型的應用,列舉分析了不同種類大模型的應用場景和功能. 再次,結合材料科學領域中的具體需求研究現狀,調研并綜述了語言大模型、視覺大模型和多模態大模型在材料科學中的應用情況,以自然語言處理和計算機視覺中的具體任務為切入,參考典型應用案例,綜合提示工程策略和零樣本知識遷移學習,厘清了當前將大模型應用至材料科學的研究范式和制約因素,并利用改進SAM視覺大模型在四種材料顯微圖像數據上進行了驗證性圖像分割與關鍵結構提取實驗,結果表明SAM帶來的零樣本分割能力對于材料微結構的精準高效表征具有巨大應用潛力. 最后,提出了大模型相關技術、方法在材料科學中的未來研究機遇,從單模態到綜合性多模態的大模型研發與調優,評估了可行性及技術難點.

//115.25.60.6/article/doi/10.13374/j.issn2095-9389.2023.09.20.002

人工智能(Artificial intelligence,AI)在各領域中的廣泛應用從科研熱點、社會關切、政策支持等維度都體現出極大的研究與應用價值[1]. 隨著人工智能的土壤——數據的指數級增長以及計算能力的躍升,以深度學習為代表的突破性人工智能算法不斷涌現[2],逐漸代替傳統的機器學習和基于規則的方法,并在眾多場景下得以大范圍實際應用[3?4],如人臉識別[5]、自動駕駛[6]、文本生成[7]等. 2022年底,OpenAI公司發布ChatGPT應用并迅速進入大眾的視野[8],推出僅兩個月后月活躍用戶就已超一億,成為歷史上用戶群增長最快的消費應用. 基于語言大模型開發的人工智能產品ChatGPT被認為是人工智能技術的新突破,吸引了社會各界的重點關注,引發了國內外新一輪人工智能產品應用落地. 可以這樣說,以ChatGPT為時間起點,人工智能正式進入“大模型時代”,大模型也正在重塑各種任務并在眾多復雜的下游任務中取得了不俗的成績[9?11].

付費5元查看完整內容

邊緣智能作為一項新興技術,正受到國內外學者的廣泛關注,其作為人工智能技術與邊緣計算技術的結 合,有望促進人工智能技術在各行業的部署,加速產業智能化進程。該文首先介紹了邊緣智能技術的基本原理、 系統架構及其比較優勢,梳理了邊緣智能技術的國內外研究現狀;分析了邊緣智能在軌道交通建設工程、運維調 度、智能控制、改造升級的全生命周期應用前景,詳述了邊緣智能技術在軌道交通過程管理控制、建設現場數據 采集分析、信息共享、智能運維、智能調度、自動駕駛系統、列車協同控制及改造升級等全生命周期中的賦能作 用。該文隨后設計與實現了軌道交通智能運行控制為背景下的邊緣智能平臺,測試基于深度學習和強化學習的邊 緣智能應用的功能及性能。最后,歸納了邊緣智能技術在軌道交通領域應用的問題與挑戰。該文的研究期望為軌 道交通領域的邊緣智能應用提供有益的借鑒和實踐基礎。

當前,隨著全球科技革命浪潮的興起,人工智 能逐漸在各傳統產業中占據越來越重要的位置。近 年來,軌道交通領域信息化、智能化建設的步伐逐 漸加快,也因此正面臨著越來越多的問題和挑戰。 邊緣智能技術作為一種將人工智能推向網絡邊緣的 新型技術,正成為充分發展人工智能技術時不可或 缺的一環。 邊緣智能技術的構想最早于2009年由微軟公司提出[1],他們嘗試構建了一個給予邊緣設備的移動 語音識別支持的系統。隨后,邊緣智能的概念經歷 了兩個階段的更迭[2]。第1階段,通常認為邊緣智 能的概念僅限于在數據生產的終端設備上運行人工 智能應用。隨后,學者將邊緣智能的概念擴展至包 括云計算中心、邊緣節點、終端設備的全場景架構 模式[3]。邊緣智能是通過邊緣計算技術將人工智能 技術推廣到網絡邊緣的一種新型技術[4]。邊緣智能 作為一種可以充分利用現有云、邊、端網絡帶寬資 源、計算資源的整體架構,為人工智能算法大規模 部署提供了基礎平臺。這意味著,邊緣智能技術將 解決傳統計算中心模式下單節點故障、隱私泄露、 主干網絡帶寬資源不足的情況,同時解決終端設備 計算資源緊缺的問題。

軌道交通作為一種運力大、速度高的交通方式, 在保障游客出行、貨物運輸和緩解交通壓力等方面 發揮著巨大的作用[5]。軌道交通的安全、高效運行, 是軌道交通運營的核心目標[6]。近年來,我國在建 設智能化、信息化軌道交通的建設上高速發展。為 進一步提升軌道交通運行安全性、可靠性,提高運 輸能力,減少人為失誤,智能駕駛、智能調度、智 能運維等基于人工智能算法的應用被廣泛使用[7]。 現如今,隨著大數據賦能的人工智能技術的廣泛研 究及應用,軌道交通信息化及智能化的進程得到了 進一步提高。例如,京張鐵路就將人工智能技術深 度融合至智能車站、智能列車、智能運輸、旅客智 能出行等各方面[8]。與此同時,人工智能應用帶來 的龐大的算力需求對軌道交通基礎設施提出了挑戰。 在大量人工智能技術運用到軌道交通中各個方面的 同時,一些應用場景對低時延、高算力、高信息隱私 安全的需求及傳統的軌道交通數據提出了新的要求。 軌道交通傳統數據處理方式以云計算架構為主[9]。 云計算中心具有算力強、數據存儲空間大等特點, 但依然存在以下問題嚴重阻礙了人工智能在軌道交 通中的應用:軌道交通中的智能駕駛、智能調度等 業務需要很強的實時性,云計算架構的集中式遠端 服務器由于物理傳輸時延無法消除等因素,無法滿 足系統進一步實時性的需求;軌道交通系統是極度 依賴于傳感網絡的系統,由于各種傳感設備數量的 指數式增加,軌道交通現有的通信架構無法滿足大 量、異構結構數據的上傳;基于云平臺的軌道交通 系統多依賴于集中式服務器,這給軌道交通系統的 安全性帶來極大的挑戰。同時,由于傳統軌道交通 煙囪式業務系統存在基礎設施重復建設、運維成本 高、信息孤島等問題,導致雖然軌道交通海量傳感 器產生的大數據無法賦能人工智能應用。

張春杰等人[10]對物聯網及人工智能技術在城市 軌道交通監控系統中的應用進行了討論,探索了先 進的城市軌道交通綜合監控系統的可能性。其中, 人工智能技術作為核心推動力,是無人化、智能化 監控系統的保障。魏秀琨等人[11]系統性地總結了機 器視覺在軌道交通系統狀態檢測中的應用,詳細分 析了基于人工智能的機器視覺檢測方式相較于人工 檢測方法有著更高的效率及準確率。文中詳述了人 工智能技術在弓/網系統檢測、軌道交通線路狀態 檢測上,基于機器視覺的自動化檢測方式相較于傳 統人工巡檢、接觸式檢測等方式具備顯著的成本成本, 檢測靈活性高,準確度高,設備智能程度高,并且 對正常行車干擾影響小等優勢。同時,在諸如司機 行為檢測、車站安全監控等機器視覺傳統優勢場景 下,人工智能的廣泛引用進一步推進了軌道交通智 能化等進程。然而,車載服務器算力限制、基于邊 緣計算等技術的架構設計等尚未得到充分研究等問 題,制約了人工智能技術在軌道交通中的實際應 用。周超等人[12]研究了云邊協同技術在軌道交通中 的應用,并提出了城市軌道交通的典型應用場景視 頻監控系統云邊協同技術架構。通過利用云計算高 算力及邊緣計算高實時性的優勢,對客流密度、 人員行為等任務進行合理的資源分配,完成高效的 感知識別。然而該研究中未考慮車載算力,架構 設計上欠缺了云-邊-端協同架構。以上這些研究主 要著眼于人工智能技術或邊緣計算技術在軌道交通 中的應用。然而,當前尚未有研究者嘗試將邊緣智 能技術及其計算架構引入軌道交通中,也沒有研究 者嘗試綜合分析邊緣智能技術在軌道交通中的應用 前景。 在軌道交通中采用邊緣智能的架構,由于邊緣 計算的固有特性,不僅可以有效解決軌道交通應用 對低延時、高數據安全的要求,同時可以將更多傳 感器數據應用起來,打破信息孤島,賦能智能軌道 交通。目前,我國正大力建設軌道交通信息化、智 能化發展,邊緣智能作為一種新型技術,通過靈活 的計算架構,將充分利用有限資源最大化人工智能 在軌道交通中的應用。本文研究了邊緣智能技術及 其在軌道交通中的應用。首先闡述了邊緣智能的定 義及其架構;然后對邊緣智能技術在軌道交通領域 的應用前景進行詳細分析,并介紹了本文設計與實 現的軌道交通邊緣智能應用,以及系統性能測試; 最后總結了邊緣智能在軌道交通應用中的挑戰與問 題。由于邊緣智能技術在軌道交通中的應用尚處于 極其早期的起步階段,相關研究仍有巨大空缺,因 此我們希望通過本文為研究者構建起連接邊緣智能與軌道交通的橋梁,為未來更加智能化的軌道交通 系統提供可能性。

2 邊緣智能技術概述

邊緣智能是利用邊緣計算技術運行人工智能應 用程序的一種范式,其能充分利用邊緣資源。邊緣 計算是邊緣智能的基礎,從原理上講,邊緣計算是 將計算單元部署在終端設備以及云計算中心的新型 計算范式[13]。隨著人工智能應用的大數據屬性不斷 提升,大數據使能的人工智能應用正逐漸成為主導[14]。 近年來,軌道交通大數據化已成為趨勢[15]。然而, 現有的計算架構在面臨海量數據處理時面臨著不可 避免的缺陷。終端設備由于其自身算力薄弱,無法 支撐海量數據的計算任務。與此同時,云計算架構 又面臨著巨大的主干網絡壓力以及較大的傳輸時 延。因此,通過將人工智能應用推向網絡邊緣,邊 緣智能的理念應運而生。 邊緣智能中的資源涵蓋了從云計算中心到終端 設備上所有的計算、網絡資源。邊緣智能,即將人 工智能技術應用于邊緣計算框架中。邊緣智能涵蓋 了協同訓練及協同推斷,如圖1所示,其基礎架構 可分為7層(Level):模型放置與云計算中心訓練, 并由云-邊協同推理模型(Level 1)、模型放置與云 計算中心訓練,邊緣側協同推理模型(Level 2)、模 型放置與云計算中心訓練,模型均于終端設備推理 (Level 3);基于邊緣側訓練模型的云-邊協同推理 (Level 4)、全于邊緣側推理(Level 5)、邊緣-終端 協同推理(Level 6)、全于終端設備推理(Level 7)。 在邊緣智能框架中,數據更多地留在邊緣服務 器或終端設備中處理,原始數據將避免在主干網絡 中直接傳輸。其中,隨著邊緣智能等級(Level)的提 升,網絡中數據的上傳量越少,因此由于數據傳輸 過程中的網絡攻擊帶來的信息泄露、信息被篡改的 風險也將顯著降低。特別地,在全于終端設備推理 (Level 7)模式下,所有的數據將在終端設備本地生 成、處理、推理計算,具備離線運行屬性,滿足部 分高隱私敏感性應用的運行需求。因此,對于隱私 高敏感性的數據源來說,其數據由于在主干網絡的 傳輸過程中由于數據泄露、黑客攻擊導致的隱私安 全問題將得以緩解。與此同時,相較于傳統的基于 云計算中心的計算架構模式,在邊緣智能架構中由 于邊緣服務器與終端設備間物理距離相較云計算服 務器與終端設備間顯著縮短,其數據傳輸時延將顯 著降低,具備更強的數據處理低延遲特性。將計算 過程從云計算服務器移動至邊緣服務器,極大減少 了不可避免的數據網絡傳輸時延,可以讓實時性要 求較高的應用成為可能。同時,對比傳統的邊緣計 算模式,邊緣智能將人工智能技術引入其架構之 中,依托人工智能技術將更好地完成任務卸載、資 源費配的決策,從系統架構上賦予了智能化服務的 能力。智能化的服務卸載策略將根據實際情況動態 做最優化判斷,保證用戶始終擁有最好的服務水 平。由于邊緣服務器可以對數據進行預處理,終端 設備產生的原始數據不再需要全部上傳至云計算中 心,邊緣服務器可以選擇性地上傳數據處理后的信 息至云計算中心。因此,主干網絡的壓力將得到極 大的緩解。邊緣智能同時還具有更高的隱私安全 性。綜上,在邊緣智能框架中,既可以將人工智能 軟件部署在邊緣計算框架中以實現低延遲、高隱私 安全的智能化應用,又可以應用人工智能算法實現 邊緣服務器智能切換以提升服務質量。


付費5元查看完整內容

獨特的拍攝視角和多變的成像高度使得遙感影像中包含大量尺寸極其有限的目標,如何準確有效地檢測這些小 目標對于構建智能的遙感圖像解譯系統至關重要。本文聚焦于遙感場景,對基于深度學習的小目標檢測進行了全面調研。 首先,本文根據小目標的內在特質梳理了遙感影像小目標檢測的三個主要挑戰,包括特征表示瓶頸、前背景混淆,以及回 歸分支敏感。其次,通過深入調研相關文獻,本文全面回顧了基于深度學習的遙感影像小目標檢測算法。具體說來,選取 三種代表性的遙感影像小目標檢測任務,即光學遙感圖像小目標檢測、SAR圖像小目標檢測和紅外圖像小目標檢測,系統 性總結了三個領域內的代表性方法,并根據每種算法所使用的技術思路進行分類闡述。再次,總結了遙感影像小目標檢測 常用的公開數據集,包括光學遙感圖像、SAR圖像及紅外圖像三種數據類型,借助于三種領域的代表性數據集SODA-A、 AIR-SARShip和NUAA-SIRST,進一步對主流的遙感影像目標檢測算法在面對小目標時的性能表現進行橫向對比及深入評 估。最后,對遙感影像小目標檢測的應用現狀進行總結,并展望了遙感場景下小目標檢測的發展趨勢。

//www.cjig.cn/jig/ch/reader/view_abstract.aspx?flag=2&file_no=2022&journal_id=jig

遙感影像目標檢測旨在設計相關算法獲取遙感 圖像中有價值目標的類別和位置信息,是邁向遙感 場景智能理解,構建遙感影像智能解譯系統,開展 遙感影像分析業務化應用的重要途徑(孫顯等, 2022)。遙感圖像具有幅面大、場景多樣和成像高 度多變等特點,因而包含大量尺寸極其有限的目標。 比如在同一張機場場景光學遙感圖像中,飛機和車 輛往往同時出現,而由于尺寸層面的天然差異,車 輛目標往往僅占據幾十個像素(Cheng 等,2022); 合成孔徑雷達(Synthetic Aperture Radar,SAR)的 目標成像與目標的散射特性有關,散射特性的強弱 影響目標的成像質量,例如飛機目標的機翼散射特 性弱,機身散射特征強,機翼區域的成像較為模糊, 這使得目標在 SAR 圖像中相對偏小。此外特殊的成 像機理使得目標容易受到雜波等噪聲的干擾,導致 目標邊緣模糊,使得本身尺寸就較小的車輛、船舶 等觀測目標成像區域更加受限(徐豐等,2020); 紅外探測系統中,目標與探測器之間距離較遠,因而成像目標面積很小,往往呈現點特征(李俊宏等, 2020)。這些尺寸有限的目標為遙感影像智能感知 系統帶來了巨大挑戰,也在一定程度上制約著遙感 大數據在國防體系建設、災害預警評估和農林資源 監測等領域的實際應用。 與通用目標檢測的蓬勃發展相比,小目標檢測近 年來發展緩慢,遙感圖像領域亦是如此。作為通用 目標檢測的一個子任務,現有的小目標檢測框架往 往以通用目標檢測任務中表現出色的模型為基礎, 添加針對性的設計(Cheng 等,2022)。這些基礎 模型一般由特征提取網絡和檢測網絡構成,前者通 過深度卷積神經網絡(Deep Convolution Neural Networks,DCNNs)獲得圖像的高維表征,并利用 下采樣操作減少空間冗余;后者則在前者得到的深 度特征上完成分類和回歸(Liu 等,2020;Ren 等, 2017;Lin 等,2020;Tian 等,2020)。遺憾的是, 這些深度學習加持下的優秀檢測范式在面對小目標 時,其性能往往捉襟見肘。究其原因,一方面是小 目標的內在特性導致模型很難獲得目標區域的良好 特征表示。CNN 通過堆疊卷積層和池化層獲得圖像 的高維表征——前者通過共享參數的卷積核獲得區 域表示,而遙感圖像中的小目標往往背景復雜,經 過卷積層后,目標區域的特征容易被背景或其他實 例所干擾,丟失判別信息;后者旨在減少空間冗余 并濾除噪聲響應,然而這一操作卻為小目標帶來不 可逆的信息損失(Noh 等,2015)。無論是缺乏判 別性的特征表示,還是目標區域的信息損失,都會 加劇后續分類和回歸的任務難度。另一方面,深度 學習是數據驅動的,獲得性能優異的檢測模型需要 大量注釋良好的數據用于訓練。然而,小目標往往 邊緣模糊且視覺結構強依賴于圖像質量,很難準確 獲得其輪廓信息,因而標注誤差較大,在一定程度上誤導網絡訓練。此外,現有數據集往往包含各種 尺度的目標,小目標僅占其中一小部分,導致模型 為兼顧整體精度而犧牲小目標的檢測效果。 為了更好地促進領域發展,本文選取三種代表性 的遙感影像小目標檢測任務,即光學遙感圖像小目 標檢測、SAR 圖像小目標檢測和紅外圖像小目標檢 測,以算法和數據集為研究對象,全面回顧了基于 深度學習的遙感影像目標檢測。同時,本文也對應 用現狀和發展趨勢進行了總結。

付費5元查看完整內容

無人車(UGV)可替代人類自主地執行民用和軍事任務,對未來智能 交通及陸軍裝備發展有重要戰略意義。隨著人工智能技術的日益成熟, 采用強化學習技術成為了無人車智能決策領域最受關注的發展趨勢之 一。本文首先簡要概述了強化學習的發展歷程、基礎原理和核心算法;隨后,分析總結了強化學習在無人車智能決策中的研究進展,包括障礙 物規避、變道與超車、車道保持和道路交叉口通行四種典型場景;最后, 針對基于強化學習的智能決策面臨的問題和挑戰,探討并展望了未來的 研究工作與潛在的研究方向。

1. 引言

無人車是指不具有人類駕駛機構并可以自主執 行運輸、公交、物流、清掃、巡邏、救援、作戰、偵 察等民用或軍用任務的智能車輛。在民用領域,無 人車已成為未來智能交通與智慧城市建設的核心要素。在軍用領域,無人車也已成為各軍事大國競相 角逐的新一代陸軍裝備。無人車的核心技術主要有 環境感知、智能決策、路徑規劃、動力學控制、集 群調度等相關技術。其中,智能決策是無人車的關 鍵核心技術之一,其性能是衡量無人車智能化水平 的重要標準。智能決策系統根據任務調度信息、環 境感知信息和無人車狀態信息等,做出合理、安全 的駕駛決策,并輸出車輛控制指令,以控制車輛完 成指定任務。 無人車智能決策系統的算法主要包含規則驅 動[1-2] 和數據驅動兩類算法[3-4] 。由規則驅動的決 策系統基于既定規則構建,其根據人類駕駛經驗及 交通規則等建立相應的駕駛行為決策庫,結合感知 系統得到的環境信息進行車輛狀態的劃分,依據預 設的規則邏輯確認車輛行為[5] 。這類基于規則的 決策系統無法枚舉和覆蓋所有交通場景,且在交通 復雜、不確定性強的路況中,常因規則數目冗雜和 行為決策庫觸發條件的重疊而導致決策無法求解、 決策系統的自適應性和魯棒性不足等問題。基于強 化學習的決策方法是數據驅動的無人車決策系統的 代表,該方法將無人車決策過程視為黑箱,利用機 器學習建立由傳感器到轉向系統、驅動系統、制動 系統等執行機構的映射,實現基于高維度感知數據 對執行機構的直接控制。這類決策算法把整個自動 駕駛過程與神經網絡深度融合,通過由數據驅動的 仿真訓練使神經網絡學習在不同交通場景下的智能 決策能力。

強化學習技術是人工智能領域的研究熱點,適 用于 解 決 復 雜 的 序 貫 決 策 問 題,在 機 器 人 控 制[6-7] 、調度優化[8-9] 、多智能體協同[10-11] 等領域 中,取得了令人矚目的成果。強化學習的基本思路 是智能體依靠探索試錯以及環境交互的方式,結合 反饋信號學習最優策略。近些年,隨著強化學習的 廣泛研究和應用,特別是綜合了深度學習的特征提 取能力和強化學習的策略優化能力的深度強化學習 (deepreinforcementlearning,DRL)取得突破性進展 之后,采用強化學習技術解決無人車智能決策問題 成為無人車領域最受關注的研究方向之一。

本文旨在綜述強化學習在無人車領域的應用。首先介紹了強化學習的發展歷史、基礎原理和核心 算法;然后分析總結了強化學習在無人車智能決策 問題中的研究現狀,包括避障、變道與超車、車道 保持及道路交叉口通行四個典型的決策場景;最后 探討并展望了未來的研究工作和潛在的研究方向。

1 強化學習的基本理論

強化學習是動物心理學、最優控制理論和時序 差分學習等學科交叉的產物[12] 。強化學習的“試 錯”思想源于動物心理學家對試錯行為的研究,最 早可追溯到 Pavlov的條件反射實驗。1911年美國 心理學家 Thorndike提出效應定律,第一次明確地 闡述了試錯行為的本質是學習。最優控制理論,是 現代控制體系的關鍵分支之一。在 20世紀 50年代 初,美國數學家 Bellman等提出求解最優控制的動 態規劃法(dynamicprogramming,DP),該方法衍生 出了強化學習試錯迭代求解的機制。時序差分學習 (temporaldifferencelearning,TDL)是 DP和蒙特卡 洛方法結合的產物。1959年 Samuel首次提出并實 現一個包含時序差分思想的學習算法。1989年 Watkins在他的博士論文將最優控制和 TDL整合, 并提出 Q學習算法,這項工作正式標志著強化學習 的誕生,該算法通過優化累積未來獎勵信號學習最 優策略。隨后,Watkins和 Dayan共同證明 Q學習 算法的收斂性。表 1總結了強化學習發展歷程中的 若干重要事件。

2 強化學習在自動駕駛領域的應用

2.1 在避障問題中的應用

在避障問題中無人車根據自車和障礙物的位置 和狀態信息,在滿足乘坐舒適性和行駛安全性的條 件下,輸出轉向、制動和油門指令控制車輛規避障 礙物。 Arvind等[22-23]提出基于 MLPSARSA和基于 MLPQ學習的避障算法。設計了以車載的 7個超 聲波雷達的感知數據為輸入量,輸出離散的制動、 轉向和加速動作的端對端決策模型,將多層感知機 (multilayerperceptron,MLP)引入到對 Q函數的預 測中,以提高避障策略的收斂速度。車輛在包含多 個動態障礙物的仿真環境下實現自主避障,且無碰 撞通行的成功率達 96%。 Chae等[24] 提出復雜城市場景下基于 DQN的主 動制動算法,如圖 4所示。使用 6層的深度神經網 絡架構,采用障礙物相對于主車的橫向和縱向的位 置和速度作為 DQN網絡輸入,輸出無制動、弱制 動、中制動和強制動四個不同強度等級的制動動 作。在獎勵函數的設計中,考慮車輛的乘坐舒適性 和安全性,對過早的制動行為和與障礙物發生碰撞 進行懲罰。經過 2000次的迭代訓練,無人車能有 效地處理行人橫穿馬路等隨機突發事件,但面對碰 撞時間(timetocollision,TTC)等于 1.4s的緊急工 況僅有 74%的避障成功率。

雖然上述基于值函數的避障算法通過將動作離 散化取得較好的避障效果,但在執行動作的精度和 緊急情況下的避障成功率上仍然有待提高。部分學 者考慮將用于高維連續空間的基于策略的強化學習 方法應用于避障問題中。 Zong等[25-26] 設計基于 DDPG的避障算法,策 略網絡以車載的多類型傳感器融合感知數據作為狀 態輸入,輸出動作空間連續的轉向、油門、制動動 作。相比于文[24],該算法解決了連續動作空間下 避障決策所引發的維數災難,實現動作空間連續的 車輛動作輸出,提高了決策模型輸出動作的精度。 Porav等[27] 在研究中運用變分自編碼器(varia tionalautoencoder,VAE)對障礙物特征降維,將高 維語義圖像映射到低維且保留原始語義信息的隱變 量,將低維的隱變量及其預測狀態作為 DDPG網絡 輸入,有效剔除了環境無關因素對決策的影響,并 提高了決策模型訓練收斂速度。此外,作者建立基 于 DeltaV模型的獎勵函數,利用碰撞前后車輛速 度差值衡量車輛碰撞的嚴重程度,以量化危險駕駛 行為的懲罰。相比于文[24],該算法在 TTC為 1s 和 0.75s的極端緊急情況,仍能保持 100%和 95% 的避障成功率。

Fu等[28] 詳細分析了車輛在緊急情況下的制動 過程和乘坐舒適性變化,提出包含多目標獎勵函數 的 DDPG算法,可綜合衡量制動觸發時刻、事故嚴 重程度和乘坐舒適度等指標。在仿真試驗中,所提 出算法在緊急情況下避障成功率相較于基于 DDPG 和 DQN的避障算法分別提高 4%和 12%。 余伶俐等[29] 針對無人車在避障過程中對周圍 車輛駕駛意圖預判不足的問題,設計了基于蒙特卡 洛預測—深度確定性策略梯度(MCPDDPG)的決策 方法。該方法假設車輛狀態的轉移滿足馬爾可夫 性,將周圍車輛的位置和速度作為觀測方程參數, 利用 MCP預測其他車輛的運動軌跡,有效地提高 決策模型在緊急情況下的響應時間。實車試驗證明 該決策方法能夠有效預估碰撞風險,降低無人車發 生碰撞的概率。 基于強化學習的方法雖然可通過增加避障場景 庫的廣度,以盡可能多地覆蓋各種復雜避障工況。 但當面臨 TTC過小等臨近碰撞的極端工況,決策模 型的穩定性和安全性亟待提高。

2.2 在變道與超車問題中的應用

在變道與超車問題中,無人車根據自車和周圍 車輛狀態、自車的期望速度和交通規則約束等,做出變道及超車決策,指導車輛超越前方低速車輛, 以盡快地通過特定的交通流。 Loiacono等[30] 提出基于 Q學習的超車決策算 法,建立了包含主車和前方車輛相對距離、相對速 度,主車和車道邊緣橫向距離等在內的離散狀態, 并以 有 限 的 離 散 動 作 驅 動 車 輛 完 成 超 車。在 TORCS賽車模擬器中驗證了該算法在直線賽道和 彎道上的超車效果,在超車持續時間、超車時最高 車速和超車成功率等指標上明顯優于人類駕駛員。 針對求解連續空間下超車決策問題時 Q學習 存在的計算效率低的問題。Liu等[31-32]提出基于 線性函數逼近強化學習的變道決策算法。作者將變 道場景建立為狀態、動作空間連續的 MDP模型,將 基于多核的最小二乘策略迭代法(multikernelLSPI, MKLSPI)引入對 Q函數的擬合中,并基于國防科技 大學研制的紅旗 HQ3無人車采集的實車感知數據, 對決策算法開展離線測試工作,論證了算法的有效 性和泛化能力。Min等[33]利用非線性值函數逼近 的方法,提出基于 DuelingDQN的超車決策算法, 構建以卷積神經網絡(convolutionalneuralnetworks, CNN)和長短期記憶網絡(Longshorttermmemory, LSTM)提取的視覺圖像和雷達點云的特征作為狀態 輸入,輸出橫向的變道操作及縱向的車速變化的決 策模型。該算法改進 DQN網絡結構,利用 DNN輸 出的狀態值函數和動作優勢函數近似擬合 Q函數, 提高了策略學習的收斂速度。 An等[34] 提出車聯網環境下基于 DDPG的變道 決策算法,網絡結構如圖 5所示。該算法策略網絡 輸入包含兩部分,分別為由車載傳感器獲得的主車 狀態信息和由 V2X通信獲得的前方車輛狀態信息, 并通過 2個全連接的隱藏層輸出對主車油門和方向 盤的控制。在 Airsim軟件中的仿真實驗驗證該算 法的有效性,但由于輸入層網絡結構固定,其僅能 處理 2個車輛交互這種簡單場景,缺少對更為復雜 交通場景的適應性。

針對文[34]無法處理無人車在復雜的包含多 車交互場景下變道的問題。Wolf等[35]提出一種基 于通用語義狀態模型的超車決策算法。該算法將駕 駛場景抽象映射到一個包含交通參與者列表(車 輛、行人、車道等)并疊加場景關系描述(交通參與 者相對于主車的速度、位置、相對車道信息等)的 跨場景、通用的語義狀態模型,實時地輸入到基于 DQN的決策模型中。在 SUMO仿真環境中,該算 法可處理存在 7輛交互車輛場景下的超車決策問題。Huegle等[36-37]提 出 基 于 DeepSetQ 學 習 和 Set2SetQ學習的超車決策算法。作者分別利用深 度集(deepsets,DS)和圖卷積網絡(graphconvolu tionalnetwork,GCN)提取無人車感知域內多車的狀 態特征,作為 DQN網絡輸入,解決了基于 DQN的 決策算法因網絡結構固定,無法處理數量可變的狀 態輸入的問題,提高超車決策算法在不同交通密度 場景應用的可移植性。

在變道與超車場景中,復雜的環境狀態和車輛 動作空間,以及多車間的交互行為,導致訓練過程 中策略難以收斂。有學者將分層思想和模仿學習 (imitationlearning,IL)引入到基于強化學習的決策 算法中。 Duan等[38] 提出高速公路場景下基于分層強化 學習(hierarchicalreinforcementlearning,HRL)的變 道決策算法,算法框架如圖 6所示。決策網絡包括 主策略和子策略兩層,分別用于高層行為決策(車 道內駕駛、左/右車道變換)和底層運動控制(方向 盤轉角、車輛速度等控制)。HRL將復雜的變道決 策任務分解為若干個簡單的子任務,在不發生維數 災難的情況下實現多任務學習,提高決策算法場景 遍歷的廣度。此外,受啟發于 A3C算法多線程并 行的訓練方式,作者利用異步并行訓練的網絡參數 的平均梯度更新共享網絡參數,以加快 HRL訓練 速度。 宋曉琳等[39] 提出 IL和強化學習結合的決策算 法,將變道決策劃分為宏觀決策層和細化決策層。 宏觀決策層中,作者基于專家變道決策的示范數據 集構建極端梯度提升(eXtremeGradientBoosting, XGBoost)模型,模仿經驗豐富的專家駕駛員做出宏 觀決策。細化決策層中,作者構造多個基于 DDPG 算法的子模塊,分別處理車道保持、左變道和右變道中具體執行的動作。在 Prescan軟件中的仿真訓 練,所提出方法策略收斂所需的步數較基于強化學 習的方法降低約 32%。Liang等[40] 提出基于可控模 仿 強 化 學 習 (controllable imitative reinforcement learning,CIRL)的變道決策算法。首先利用引入門 控機制的 IL網絡學習專家提供的駕駛示范集,通 過網絡權重共享的方式將預訓練結果遷移到 DDPG 決策模型中,以初始化 DDPG動作探索策略,解決 了連續動作空間下 DDPG算法探索效率低、對超參 數敏感的問題。

針對變道與超車過程中未知和不確定性因素對 無人車安全性的影響。Zhang等[41] 考慮前車異常駕 駛行為對超車安全性的影響,將模糊推理系統 (fuzzyinferencesystem,FIS)引入到變道決策中。 其主要思想是基于車載激光雷達獲得的前方車輛的 位置、速度和航向角,利用 FIS分析前方車輛的駕 駛激進度,進而判斷超車風險類型,以指導基于強 化學習的決策算法采取保守或激進的超車策略。 Althoff等[42-43] 考慮周圍車輛駕駛意圖未知、感知 系統觀測不完整、傳感器的擾動與噪音等不確定因 素,提出基于安全強化學習的變道決策算法。運 用可達性分析(reachabilityanalysis,RA)[44-46] 預測 周圍車輛在滿足物理約束和交通規則下,在設定時 間內所有可能的可達集,通過判斷無人車和其他車 輛的可達集是否存在交集,來驗證變道決策的安 全性。 從上文綜述可知,基于強化學習的決策算法在 處理動態多車交互、策略收斂速度、決策安全性方 面有較大的局限性,且難以從強化學習模型本身加 以改進。與安全驗證、行為分析及其他機器學習方 法相結合,可顯著地提高基于強化學習的變道和超車決策算法的性能。

2.3 在車道保持問題中的應用

在車道保持問題中,無人車根據車載傳感器獲 得的車道線信息,輸出車輛方向盤轉角控制指令, 以使車輛在車道中心線附近行駛。 視覺感知是檢測車道線的最有效手段。方 川[47] 提出基于 DoubleDQN的車道保持算法,以原 始的 RGB圖像作為網絡輸入,分別利用當前 Q網 絡和目標 Q網絡處理方向盤控制動作選擇和目標 Q 函數預測。在仿真試驗中,車輛在直線車道及大曲 率彎道的車道保持任務中均表現出良好的性能。 Kendall等[48]提出視覺感知數據輸入下基于 DDPG 的車道保持算法(如圖 7),并將在虛擬環境中訓練 好的算法網絡結構和參數遷移到實車上,車輛僅依 靠單目相機的 RGB圖像完成了 250m的車道保持 路測。然而該方法忽略視覺傳感器抗干擾能力差、 易受光照影響等缺點,且決策模型場景遍歷的深度 不足,難以完成特殊天氣條件下的車道保持任務。

原始視覺圖像包含大量與決策無關的環境細 節,而細微的環境變化易導致決策模型錯誤,進而 引發車輛駛出車道等危險駕駛行為。針對此問題, Wolf[49] 利用機器視覺剔除無關環境信息,提取車道 線的灰度化圖像,構建由灰度化的視覺圖像到車輛 方向盤的端對端決策,降低細微的環境亮度變化及 無關環境細節對決策模型的影響。并利用經驗回放 機制降低訓練樣本的相關性,以減輕 DQN算法處 理高維圖像數據時存在的不穩定性。 視覺感知缺少車輛與道路邊緣的距離信息,而 其他具有目標距離測量功能的傳感器對提取車道線 信息具有重要的補充作用。楊順等[50]研究了多源 感知數據輸入下基于 DDPG的車道保持算法,如圖 8所示。策略網絡分別利用一維和二維 CNN提取低 維目標級感知數據和高維視覺圖像數據的特征,并 輸出每一時間步長內車輛的動作,價值網絡根據策 略網絡提取的低維特征和輸出的車輛動作預測 Q 函數。作者構建包含期望車速、車輛偏離中心距 離、車輛與車道中心線的夾角在內的獎勵函數,指導車輛與環境交互。在直線車道和彎道下的仿真實 驗中,車輛的橫向偏移量和車輛與車道中心線的夾 角均保持在理想的范圍內。作者利用不同 CNN對 多類型傳感器數據進行特征提取,并通過特征組合 的方式,解決了視覺傳感器獲取車道線信息不完 備、信息冗余性差的問題。

基于強化學習的車道保持算法具有重大的應用 潛力,但是視覺傳感器作為主要的車道線檢測手 段,其感知圖像包含豐富的環境細節,且圖像細節 隨光照、天氣等環境因素顯著變化,給決策模型的 穩定性和泛化能力帶來巨大的影響。引入能穩定地 在復雜多變環境下提取車道線特征的方法,并有效 地利用和融合其他類型傳感器數據,對提高決策性 能有著重要意義。

2.4 在道路交叉口通行問題中的應用

在道路交叉口通行問題中,無人車根據交叉口 各車道上車輛位置、速度及交通規則等,輸出執行 機構控制指令,以控制車輛無碰撞地通過交叉口。 無交通信號燈的交叉口通行是最具挑戰性的交 通場景,學者們對基于強化學習的通行決策方法進 行大量研究。Saxena等[51]設計基于近端策略優化 (proximalpolicyoptimization,PPO)的通行決策算 法。作者利用由數據驅動的仿真訓練建立交叉口中 無人車周圍車輛間交互的隱式模型,并通過設置車 輛的加速度和轉向角度閾值,減少不良的加速和轉 向動作,提高乘坐舒適性。Qiao等[52]提出課程式 學習(curriculumlearning,CL)和 DRL結合的交叉 口決策算法。作者利用 CL自動生成若干由簡單到 復雜的樣本,引導 DRL學習駛入并通過城市交叉路口的策略,仿真實驗中通過交叉口的成功率達 98.7%。 Müller等[53]提出基于視覺場景理解的決策算 法,引入編碼器—解碼器網絡來提取 RGB視覺圖 像更細化的語義特征,實現原始圖像到多場景通用 的語義分割圖像的映射,將語義圖像作為決策模型 輸入,輸出車輛期望的軌跡。其后,作者將訓練好 的決策模型遷移至小型卡車上,車輛可在多個駕駛 場景(晴朗、陰天、雨雪)自主地通過交叉路口。該 方法通過模塊化和抽象語義分割的方法降低真實場 景傳感器噪聲等對決策的影響,提高決策算法的遷 移能力。 無交通信號燈的交叉口中車輛缺少交通規則約 束。無人車無法獲悉其他車輛的駕駛意圖,因而無 法預判其行駛軌跡,且因車輛間的相互遮擋易造成 無人車的感知盲區,給決策的安全性帶來巨大隱 患。Isele等[54-55]利用卡爾曼濾波 (Kalmanfilte ring,KF)預測可能與無人車發生碰撞車輛的行駛 軌跡,并根據預測結果約束 DQN決策算法的動作 空間,提高車輛在交叉口通行的安全裕度。Gruber 等[56] 設計基于 RA的在線安全驗證方法,利用 RA 建立其他車輛未來時間在交叉口所有可達集,以驗 證決策的安全性。其后,Lauer等[57]提出基于 RA和責任敏感安全模型(responsibilitysensitivesafety, RSS)的驗證方法,解決了 RA因考慮最危險情況下 周圍車輛的占用空間而導致的無人車在交叉口駕駛 策略過度保守的問題。Stiller等[58] 提出一種風險認 知 DQN的交叉口決策算法,在獎勵函數中引入風 險項度量感知盲區內的車輛對決策安全性的程度, 減少無人車采取冒進決策行為的概率。 無交通信號燈的交叉口的復雜程度高,且事故 風險隱患多,給無人車決策的安全性帶來巨大挑 戰。基于強化學習的決策模型無法有效預估事故風 險,結合行駛軌跡預測、安全性驗證等方法對提高 決策安全性具有重要意義。

3 強化學習在無人車領域的應用展望

無人車可自主執行運輸、物流、清掃、巡邏、 救援、作戰、偵察等民用或軍用任務,是未來智能 交通與新一代陸軍裝備發展的核心要素,對汽車產 業發展與國防安全建設具有重要意義。面向未來無 人車技術發展需求,高效、準確、穩定的智能決策 技術已經成為限制無人車行業水平提升與大規模產 業應用的關鍵技術瓶頸。強化學習技術是實現無人 車智能決策技術水平提升的最重要突破口之一。但 是,基于強化學習的智能決策存在泛化能力弱、可 解釋性差,缺少安全驗證等問題,限制了其在實車 上的應用。此外,云控制、車聯網及大數據等先進 技術在無人車領域的應用極大程度拓寬了強化學習 技術的應用內涵,帶來了全新的挑戰與不確定性。 下面指出未來強化學習技術在無人車領域的研究 重點:

1)提高強化學習在無人車決策上的泛化能力當前研究多利用強化學習構建從無人車的傳感 器到執行機構的端對端決策。而以復雜高維的圖 像、雷達點云等原始感知數據作為決策模型的輸 入,使得表征環境狀態的特征維度過多,導致決策 模型過擬合于特定的訓練環境,難以遷移至新的駕 駛場景。此外,模型訓練中常忽略光照變化、背景 干擾等敏感環境細節以及傳感器噪音和自身擾動的 影響,使得訓練好的決策模型需要人工調參后才能 遷移到實車上。提高強化學習在無人車決策上的泛 化能力,已經成為其在無人車應用亟需解決的關鍵 問題之一。為突破決策算法在新場景中泛化能力弱 的瓶頸:(1)可借鑒虛擬到現實(Sim2Real)領域的 研究成果,利用領域自適 應 (domainadaptation, DA)等方法將虛擬訓練環境映射到真實行駛環境[59] ,以在訓練過程中最大限度地模擬無人車與 真實場景的交互過程。(2)從原始感知數據中提取 或抽象出面向通用場景的低維環境狀態表征,替代 復雜高維的原始數據作為決策模型的輸入[60] ,可 以降低決策模型精度對行駛環境的依賴性。

2)提升強化學習在無人車決策上的可解釋性

當前研究多利用基于復雜深度神經網絡的深度 強化學習學習駕駛策略。而訓練好的決策模型因其 復雜的網略結構及龐大的網略參數,導致人們難以 理解模型內部的決策過程。在決策模型出現偏差和 故障時,難以對錯誤源頭進行排查和分析。提高強 化學習在無人車決策上的可解釋性,已成為提高其 決策合理性與安全性的關鍵挑戰之一。為解決決策 算法的內部運行機制可解釋性差的弱點:(1)利用 概率圖模型(probabilisticgraphicalmodel,PGM)深 度綜合表征無人車行駛環境、行駛軌跡、交通參與 者等的時序特征,并將高度可解釋化的隱含狀態作 為模型輸入[61-63] ,可顯著地提高模型的可解釋性。 (2)利用神經網絡可視化技術以熱力圖的形式表征 決策模型內部每一層的權重參數、特征圖等,以實 現模型決策過程的透明化[64] 。(3)也可借鑒機器人 領域的最新進展,根據人類經驗將復雜的作業任務 分解為若干子任務,決策模型輸出子任務的序貫組 合,以組合的順序表征無人車決策的合理性[65] ,也 是值得深入探討的話題。

3)提高強化學習在無人車決策上的安全性

當前研究多圍繞感知完備等理想工況下的決策 任務,且對車輛行駛中的不確定性因素考慮不足。 而強化學習通過探索試錯的機制學習駕駛策略,其 隨機性的探索策略常導致不安全的駕駛行為,給決 策模型帶來潛在的安全風險。此外,無人車行駛環 境具有高度的不確定性,具體表現為周圍車輛行駛 意圖和駕駛風格的不確定性,因遮擋和感知盲區造 成的感知不完整性等,給決策模型的安全性帶來巨 大挑戰。提高強化學習在無人車決策上的安全性, 已經成為其在無人車應用亟需解決的重要技術瓶頸 之一。為提高決策算法在復雜動態場景下決策的安 全性:(1)可通過在獎勵函數中引入風險項[66] ,在 動作探索策略中引入安全約束[67] ,在動作執行中 引入安全驗證[68]等方法,降低決策模型做出激進 和危險決策的概率。(2)利用部分可觀測 MDP (partiallyobservableMDP,POMDP)將環境的不確 定性因素作為隱變量[69] ,實現環境不完全觀測下 周圍車輛的軌跡預測,可有效地提高車輛感知能力受限下決策的安全性。(3)利用基于嚴格數學定義 的形式驗證精確求解當前狀態下無人車在預定時間 內不安全狀態的可達范圍[70] ,驗證其決策行為的 安全性,以保證系統安全驗證的完備性。

4)研究無人車大數據背景下基于強化學習的

云端決策技術 基于云控制、車聯網、大數據等先進技術的云 控系統(cloudcontrolsystem,CCS)[71]在無人車領 域的應用為無人車產業化落地提供重要的技術支 撐,CCS擴大了無人車的感知域,并提供強大的算 力支持,實現無人車綜合性能的顯著提升。此外, CCS可實時地獲取并存儲各無人車的硬件和軟件系 統海量的運行數據,并基于大數據分析建立云端的 無人車性能預測模型、故障預警模型、交通流量預 測模型、車輛集群調度模型等[72-73] ,以提高無人 車群體的安全性和效率。CCS在無人車中的應用是 未來無人車發展的重要趨勢[74] ,并極大地豐富了 強化學習在無人車領域的應用場景。研究無人車大 數據背景下,云端決策系統利用強化學習技術,結 合多源的時空感知數據和云端的交通流量、車輛性 能等大數據預測結果,實現面向群體及單車層級的 決策,將是非常有意義的工作。

4 結論

本文綜述了強化學習技術在無人車領域的研究 現狀,重點介紹了基于強化學習技術的無人車智能 決策在避障、變道與超車、車道保持等典型場景下 的應用。其次,展望了強化學習技術在無人車領域 的應用前景。筆者看來,強化學習技術將極大程度 地提高無人車的智能決策能力,是實現無人車規模 化產業應用并服務于智能交通系統建設和新一代陸 軍裝備發展的重要支撐。

付費5元查看完整內容

摘要

近年來,深度學習在計算機視覺各個領域中的應用成效顯著,新的深度學習方法和深度神經網絡模型不斷涌現,算法性能被不斷刷新。本文著眼于2016年以來的一些典型網絡和模型,對基于深度學習的計算機視覺研究新進展進行綜述。首先總結了針對圖像分類的主流深度神經網絡模型,包括標準模型及輕量化模型等;然后總結了針對不同計算機視覺領域的主流方法和模型,包括目標檢測、圖像分割和圖像超分辨率等;最后總結了深度神經網絡搜索方法。

關鍵詞

深度學習; 目標檢測; 圖像分割; 超分辨率; 計算機視覺

引 言

近20年來,隨著深度學習技術的迅猛發展和圖形處理器(Graphics processing unit, GPU)等硬件計算設備的廣泛普及,深度學習技術幾乎已經應用到計算機視覺的各個領域,如目標檢測、圖像分割、超分辨率重建及人臉識別等,并在圖像搜索、自動駕駛、用戶行為分析、文字識別、虛擬現實和激光雷達等產品中具有不可估量的商業價值和廣闊的應用前景[1]。基于深度學習技術的計算機視覺同時可以對其他學科領域產生深遠的影響,如在計算機圖形學中的動畫仿真和實時渲染技術、材料領域的顯微圖像分析技術、醫學圖像分析處理技術、實時評估師生課堂表現和考場行為的智慧教育、分析運動員比賽表現和技術統計的智能系統等。

深度學習早在1986年就被Dechter[2]引入機器學習領域,2000年Aizenberg等[3]又在機器學習領域引入了人工神經網絡(Artificial neural network,ANN)[4]。深度學習方法由多層組成,用于學習多層次抽象的數據特征[5]。在人工神經網絡領域中,深度學習又被稱為分層學習[6],是一種通過在不同計算階段精確地分配分數來調節網絡激活的技術[4]。深度學習常常用多種抽象結構來學習復雜的映射關系,如2009年蒙特利爾大學的Bengio教授提出的帶隱藏層的ANN[7]等。深度學習技術可以被視作一種表征學習,是機器學習的一個分支。

2005年多倫多大學的Hinton教授團隊試圖用圖模型模擬人類的大腦[8],在文獻[9]中提出了一種逐層貪婪算法來預訓練深度信念網,克服了深度網絡難以訓練的弊端,并用自編碼器降低數據維度[10],開啟了深度學習的熱潮,使其被廣泛應用在語音識別、計算機視覺和自然語言處理等領域。2011—2012年,深度學習技術在語音識別領域中最先取得重大突破,Dahl團隊[11]和Hinton團隊[12]先后將識別錯誤率降至20%~30%。在2012年的ImageNet大規模視覺識別挑戰競賽(ImageNet large scale visual recognition challenge,ILSVRC)中,Hinton的學生提出的AlexNet[13]以超過第二名準確率10%的巨大優勢奪得冠軍,深度學習正式進入了爆發期。近年來各大互聯網科技公司,如Google、Microsoft、Facebook、百度、阿里巴巴和騰訊等也爭相投入大規模深度學習系統的研發中。

筆者在2016年發表“深度卷積神經網絡在計算機視覺中的應用研究綜述”[1],總結了2016年之前深度卷積神經網絡在計算機視覺中的研究成果。本文在文獻[1]的基礎上,重點綜述2016年以后基于深度學習的計算機視覺研究新進展。但為了表述的完整和邏輯的嚴謹,本文與文獻[1]內容有少量重合。

1 通用深度神經網絡模型

本文將解決圖像分類任務的神經網絡模型稱為通用網絡,這類模型通常是解決其他視覺任務的基礎模型。1989年AT&T貝爾實驗室的研究員LeCun通過反向傳播算法成功地訓練了卷積神經網絡[14],這項工作代表了20世紀80年代神經網絡的研究成果。1998年LeCun等基于前人的工作提出了LeNet[15],由2個卷積層和3個全連接層組成,因此也被稱為LeNet?5,其結構如圖1所示。但LeNet?5的復雜度遠遠無法和今天的深度網絡模型相比,性能也相差懸殊,但在當時取得了和支持向量機相媲美的效果,并被廣泛應用于識別手寫數字,受到了廣泛的關注。

圖1 LeNet-5結構示意圖[15]

Fig.1 Structure of LeNet-5[15]

在LeNet提出后,很長一段時間卷積神經網絡并不是計算機視覺領域的主流方法,因為LeNet只在小數據集上表現良好,在規模更大、更真實的數據集上表現一般。由于當時未普及高性能的神經網絡加速硬件設備,卷積神經網絡訓練的時間成本和空間開銷太大。因此在2012年AlexNet[13]提出之前,大多數研究者都采用SIFT[16]、HOG[17]和SURF[18]等手工方法提取特征,并花費大量的精力進行數據整理。

2007年,普林斯頓大學李飛飛團隊基于WordNet的層級結構開始搭建ImageNet數據集[19],通過網絡抓取、人力標注和眾包平臺等各種方式,最終在2009年公開。如今ImageNet數據集包含超過14 000 000張帶標簽的高清圖像、超過22 000個類別。從2010年開始舉辦的ILSVRC圖像分類比賽成為計算機視覺領域的重要賽事,用于評估圖像分類算法的準確率。ILSVRC比賽數據集是ImageNet的一個子集,包含1 000類、數百萬張圖片。來自NEC實驗室的林元慶帶領NEC?UIUC團隊以28.2%的top?5錯誤率贏得了2010年ILSVRC冠軍。2010和2011這兩年的冠軍方案主要采用HOG[17]、LBP[20?21]等算法手動提取特征再輸入到特征向量機進行分類。

2012年的冠軍AlexNet[13]首次將深度學習技術應用到大規模圖像分類領域,證明了深度學習技術學習到的特征可以超越手工設計的特征,開啟了計算機視覺領域中的深度學習熱潮。AlexNet和LeNet結構理念相似,采用5層卷積層和3層全連接層,激活函數用ReLU取代了sigmoid,用dropout方法取代了權重衰減緩解過擬合,結構如圖2所示。AlexNet取得了17.0%的top?5錯誤率。

圖2 AlexNet結構示意圖[13] Fig.2 Structure of AlexNet[13]

2014年的冠軍團隊提出的ZFNet[22]通過反卷積可視化CNN學習到的特征,取得了11.7%的錯誤率。2015年的冠軍團隊Szegedy等提出的GoogLeNet[23]將錯誤率降到了6.7%。GoogLeNet提出了一種Inception模塊,如圖3所示。這種結構基于網絡中的網絡(Network in network,NiN)的思想[24],有4條分支,通過不同尺寸的卷積層和最大池化層并行提取信息,1×11×1卷積層可以顯著減少參數量,降低模型復雜度。GoogLeNet一共使用9個Inception模塊,和全局平均池化層、卷積層及全連接層串聯。Szegedy提出很多改進的Inception版本,陸續使用了Batch Normalization[25]、Label Smoothing[26]和殘差連接[27]等方法。

圖3 Inception模塊示意圖[23] Fig.3 Inception block[23]

2015年的ILSVRC亞軍是由牛津大學視覺幾何團隊提出的VGGNet[28]。VGGNet重復使用了3××3的卷積核和2××2的池化層,將深度網絡加深到16~19層,如圖4所示。

圖4 VGG模塊和VGG結構示意圖 Fig.4 Block and structure of VGG

2016年,微軟亞洲研究院He等提出的ResNet[29]奪得了ILSVRC冠軍,將top?5錯誤率降至3.6%。ResNet最深可達152層,以絕對優勢獲得了目標檢測、分類和定位3個賽道的冠軍。該研究提出了殘差模塊的跳接結構,網絡學習殘差映射f(x)?xfx-x,每1個殘差模塊里有2個相同輸出通道的3××3卷積層,每個卷積層后接1個BN(Batch normalization)層和ReLU激活函數。跳接結構可以使數據更快地向前傳播,保證網絡沿著正確的方向深化,準確率可以不斷提高。ResNet的思想產生了深遠的影響,是深度學習領域的一個重要進步,奠定了訓練更深的深度網絡的基礎,其結構如圖5所示。

圖5 殘差模塊 Fig.5 Residual block

2017年提出的DenseNet[30]和ResNeXt[31]都是受ResNet[29]的啟發。DenseNet的目標不僅僅是學習殘差映射,而且是學習類似泰勒展開的更高階的項。因此DenseNet的跳接結構沒有用加法,而是用了聯結,如圖6所示。

圖6 ResNet和DenseNet結構比較 Fig.6 Structures of ResNet and DenseNet

ResNeXt[31]則是結合了ResNet[29]和Inception v4[27],采用GoogLeNet分組卷積的思想,在簡化的Inception結構中加入殘差連接,并通過一個超參數“基數”調整ResNeXt模塊中分支的數量。這種簡化的Inception結構不需要人工設計每個分支,而是全部采用相同的拓撲結構,結構如圖7所示。ResNeXt在2016年ILSVRC的分類任務上獲得了亞軍。

圖7 ResNet殘差模塊和基數為32的ResNeXt模塊[31] Fig.7 ResNet block and ResNeXt block with cardinality of 32[31]

和ResNeXt同年提出的Xception[32]也是一種基于Inception分組卷積思想的模型。分組卷積的核心思想是將通道拆分成不同大小感受野的子通道,不僅可以提取多尺寸的特征,還可以減少參數量,降低模型復雜度。Xception模塊可以視為一種極端情況的Inception模塊,它的輸入先經過一個1××1的卷積層后進入多個完全相同的3××3卷積層分支,如圖8所示。

圖8 經典及簡化的Inception模塊和Xception模塊[32] Fig.8 Classical and simplified Inception blocks and Xception block[32]

ImageNet數據規模大,圖像類別多,因此在ImageNet上訓練的模型泛化能力較好。如今很多模型都是在ImageNet上預訓練后進行微調,有些模型微調后準確率可以超過只在目標訓練集上訓練模型的20%。受ImageNet自由開放思想的影響,很多科技巨頭也陸續開放了自己的大規模數據集:2018年谷歌發布了Open Image數據集[33],包含了被分為6 000多類的900萬張帶有目標位置信息的圖片;JFT?300M數據集[34]包含300萬張非精確標注的圖像;DeepMind也公開了Kinetics數據集[35?36],包含650 000張人體動作的視頻截圖。這些大規模數據集增強了深度學習模型的泛化能力,為全世界深度學習工作者和數據科學家提供了數據支持,保障了深度學習領域的蓬勃發展。

生成模型可以學習數據中隱含的特征并對數據分布進行建模,它的應用非常廣泛,可以對圖像、文本、語音等不同數據建模真實的分布,然后基于這一分布通過采樣生成新的數據。在深度學習之前就已經有許多生成模型被提出,但由于生成模型往往難以建模,因此科研人員遇到了許多挑戰。變分自編碼器(Variational autoencoder, VAE)[37]是一種當前主流的基于深度學習技術的生成模型,它是對標準自編碼器的一種變形。自編碼器將真實樣本的高級特征通過編碼器映射到低級特征,被稱為隱向量(或潛向量),然后又通過解碼器生成相同樣本的高級特征。標準自編碼器和變分自編碼器的區別在于對隱向量的約束不同。標準自編碼器關注重構損失,即

L(X,X')=∥X?X'∥22?X,X'=X-X'22 (1) 式中:XX和X'X'分別為輸入圖像和重構圖像。 變分自編碼器則強迫隱變量服從單位高斯分布,優化如下損失函數

L(X)=Ez~q[lg P(X|z)]?KL(q(z|X)||p(z))?X=Ez~q[lg P(X|z)]-KL(q(z|X)||p(z)) (2) 式中:EE表示期望;z為隱變量;q(z|X)q(z|X)表示隱變量的建議分布,即編碼器輸出的隱變量的分布;p(z)p(z)表示標準高斯分布;P(X|z)P(X|z)表示解碼器分布;KLKL表示KL散度。式(2)等號右邊第1項表示重構圖片的精確度,用均方誤差度量;第2項表示圖片的潛變量分布和單位高斯分布之間的差異,用KL散度來度量。為了優化KL散度,變分自編碼器生成1個均值向量和1個標準差向量用于參數重構。此時在隱向量分布中采樣就可以生成新的圖片。自編碼器和變分自編碼器示意圖如圖9、10所示。

圖9 自編碼器示意圖Fig.9 Autoencoder

圖10 變分自編碼器示意圖 Fig.10 Variational autoencoder

生成對抗網絡(Generative adversarial net, GAN)[38]是另一種十分常見的基于深度學習技術的生成模型,它包括2個同時進行的組件:生成器和判別器,其結構如圖11所示。生成器從隱向量生成圖像,判別器對真偽圖像進行分類,二者相互對抗,互相促進。

圖11 生成對抗網絡示意圖 Fig.11 Generative adversarial net

變分自編碼器和生成對抗網絡近年來有了顯著的發展[39]。在計算機視覺領域中,變分自編碼器和生成對抗網絡已經被廣泛應用于圖像翻譯、超分辨率、目標檢測、視頻生成和圖像分割等領域,具有廣闊的研究價值和應用前景。

2 輕量化網絡

隨著網絡層數的加深,各種深度網絡模型的性能變得越來越好,隨之而來的問題是模型巨大的參數量和緩慢的推理速度,因此輕量化網絡的需求變得愈加強烈。輕量化網絡的設計核心是在盡可能保證模型精度的前提下,降低模型的計算復雜度和空間復雜度,從而使得深度神經網絡可以被部署在計算性能和存儲空間有限的嵌入式邊緣設備上,實現從學術界到工業界的躍遷。在分布式訓練中,小模型使得服務器之間通信產生的帶寬負擔也相對較小。目前學術界和工業界設計輕量化的深度網絡模型主要有4種方法:人工設計的輕量化神經網絡、基于神經網絡架構搜索(Neural architecture search,NAS)的自動設計神經網絡技術、卷積神經網絡壓縮和基于AutoML的自動模型壓縮。

2016年由伯克利和斯坦福的研究者提出的SqueezeNet[40]是最早進行深度模型輕量化的工作之一,其結構如圖12所示。SqueezeNet提出了一種Fire模塊用來減少參數量,其結構如圖13所示。它分成Squeeze和Expand兩部分:Squeeze層只由數個1××1卷積層構成;Expand層則包含數個1××1和3××3卷積層。Fire模塊和Inception模塊的結構很相近,二者都使用了1××1和3××3組合的拓撲結構,在使用了不同尺寸的卷積層后進行連結。在網絡結構上,SqueezeNet借鑒了VGG堆疊的形式,在2層卷積層和池化層中間堆疊了8個Fire模塊。最終SqueezeNet在ImageNet上實現了AlexNet級別的精確度,參數減少到原來的1/501/50。通過使用Deep Compression模型壓縮技術,SqueezeNet的參數量僅有50萬個,約為AlexNet的1/5001/500。

圖12 SqueezeNet網絡結構示意圖[40]

Fig.12 Structure of SqueezeNet[40]

圖13 SqueezeNet的Fire 模塊[40]

Fig.13 Fire block in SqueezeNet[40]

MobileNet[41]是谷歌于2017年提出的輕量化網絡,核心是通過用深度可分離卷積代替標準的卷積。深度可分離卷積將標準卷積拆成1個深度卷積和1個逐點卷積(也就是1××1卷積),可以將計算量降低至原來的1/8~1/91/8~1/9。標準卷積和深度可分離卷積+BN+ReLU結構如圖14所示。

圖14 標準卷積+BN+ReLU網絡和深度可分離卷積+BN+ReLU網絡[41]

Fig.14 Standard convolution+BN+ReLU network and depthwise separable convolution+BN+ReLU network[41]

深度可分離卷積的結構成為了很多輕量化網絡設計的參照,這種結構的有效性自從被Xception[32]證明后成為輕量化網絡設計的主流思想。比MobileNet晚2個月由Face++團隊提出的ShuffleNet[42]基于這一思想,使用了Channel Shuffle和分組卷積。分組卷積的思想最早由AlexNet[13]提出,初衷是為了降低單張GPU的占用,將輸入通道分成相同的幾條分支然后連結,從而減少訓練參數量。之后的Inception模塊將這一思想發揚光大,ResNeXt[31]的成功也證明了分組卷積的有效性。由于分組卷積會讓信息的流通不當,ShuffleNet設計了Channel Shuffle,將各組通道均分并進行混洗,然后依次重新構成特征圖,示意圖如圖15所示。

圖15 Channel Shuffle示意圖[42]

Fig.15 Diagrammatic sketch of Channel Shuffle[42]

圖15中,Channel Shuffle后第2個組卷積GConv2的輸入信息來自各個通道,圖15(c,b)達到了一樣的效果。ShuffleNet模塊的設計借鑒了ResNet bottleneck的結構,如圖16所示。

圖16 ShuffleNet模塊[42] Fig.16 ShuffleNet block[42]

ShuffleNet模塊摒棄了Pointwise卷積,因為對于輸入維度較高的小型網絡,1××1卷積的開銷巨大。例如在ResNeXt模塊中,1××1卷積占據了93.4%的計算量。在網絡拓撲上,SqueezeNet和MobileNet都采用了VGG(Visual geometry group)的堆疊結構,而ShuffleNet采用了ResNet的跳接結構。

2018年,MobileNet和ShuffleNet又相繼提出了改進版本。MobileNet v2[43]結構如圖17所示,采用了效率更高的殘差結構,提出了一種逆殘差模塊,并將MobileNet v1模塊的最后一個ReLU6層改成線性層。ShuffleNet v2[44]用更直接的運算速度評估模型,摒棄了之前如每秒浮點運算次數(FLOPS)等間接的指標。結構上ShuffleNet v2采用了一種Channel Split操作,將輸入的特征圖分到2個分支里,最后通過連結和Channel Shuffle合并分支并輸出。ShuffleNet v1和ShuffleNet v2結構如圖18所示。

圖17 MobileNet v2模塊[43]

Fig.17 MobileNet v2 block[43]

圖18 ShuffleNet v1和ShuffleNet v2結構[44]

Fig.18 Structures of ShuffleNet v1 and ShuffleNet v2[44]

2020年華為諾亞方舟實驗室的團隊提出了GhostNet[45],如圖19所示,可以用更少的參數量提取更多的特征圖。首先對輸入特征圖進行卷積操作,然后進行一系列簡單的線性操作生成特征圖,從而在實現了傳統卷積層效果的同時降低了參數量和計算量。該團隊認為性能較好的主流卷積神經網絡如ResNet?50通常存在大量冗余的特征圖,正是這些特征圖保證了網絡對數據深刻的理解。Ghost模塊用更小的代價模擬了傳統卷積層的效果。

圖19 卷積層和Ghost模塊[45]

Fig.19 Convolutional layer and Ghost module[45]

人工設計的輕量化網絡MobileNet系列[41,43]和ShuffleNet系列[42,44]的基本思想主要是通過分離卷積操作減少運算量,再采用殘差跳接結構和Channel Shuffle等混合通道的操作促進分支間的交流,提高信息利用率。隨著模型規模的擴大,硬件資源變得更加稀缺,在保證精度的前提下壓縮并加速模型將會是經久不衰的熱門研究方向,也是信息化時代發展的必經之路。近年來大量的關于模型壓縮和結構優化的工作不斷涌現,如網絡剪枝[46]、張量分解[47?48]和知識遷移[49]等。輕量化模型的發展有助于深度學習技術的推廣和應用,推動深度學習技術的產業化發展。

3 面向特定任務的深度網絡模型

計算機視覺任務眾多,深度學習最開始在圖像分類實現突破,當前深度學習幾乎深入到了計算機視覺的各個領域。本節將針對目標檢測、圖像分割、圖像超分辨率和神經架構搜索等其他計算機視覺任務簡要總結深度學習方法。

3.1 目標檢測

目標檢測任務作為計算機視覺的基本任務之一,包含物體的分類、定位和檢測。近年來隨著深度學習技術的發展,目標檢測算法已經從基于手工特征的HOG[17]、SIFT[16]及LBP[20?21]等傳統算法轉向了基于深度神經網絡的機器學習技術。自2014年Girshick等提出了R?CNN[50]模型以來,目標檢測就成為了計算機視覺最受人關注的領域之一。在R?CNN之后,Girshick團隊相繼提出了Fast R?CNN[51]、Faster R?CNN[52]等一系列模型,這些模型均將目標檢測問題歸結為如何提出可能包含目標的候選區域和如何對這些區域分類兩個階段,因此這類模型也被稱作兩階段模型。

受當時性能最好的圖像分類網絡,如AlexNet[13]和VGG[28]等的影響,R?CNN系列模型的網絡結構由2個子網組成:第1個子網用普通分類網絡的卷積層提取共享特征;第2個子網的全連接層進行感興趣區域(Region of interest,RoI)的預測和回歸,中間用一個RoI池化層連接。這些網絡的結構在文獻[1]中已做介紹,這里不再贅述。在ResNet[29]、GoogLeNet[23]等性能更強的分類網絡出現后,這種全卷積網絡結構也被應用到了目標檢測任務上。然而,由于卷積層并不能有針對性地保留位置信息,這種全卷積結構的檢測精度遠低于它的分類精度。R?FCN[53]提出了一種位置敏感分數圖來增強網絡對于位置信息的表達能力,提高網絡的檢測精度,其結構如圖20所示。R?FCN[53]在PASCAL VOC 2007數據集上平均精度均值(mean Average precision, mAP)達到了83.6%,單張圖片的推理速度達到170 ms。

圖20 R-FCN結構示意圖[53] Fig.20 Structure of R-FCN[53]

如何準確識別不同尺寸的物體是目標檢測任務的難點之一。圖21(a)中的方法通過對不同尺寸的圖片提取不同尺度特征來增強不同尺度特征的語義信息,但時間和計算成本太高。圖21(b)中的單一特征圖方法即為SPPnet[54]、Fast R?CNN[51]和Faster R?CNN[52]使用的方法,即在最后一層的特征圖上進行預測。盡管速度較快,但包含的語義信息很少,不能準確地預測目標的位置。圖21(c)是SSD[55]采用的多尺度融合方法,從網絡的不同層抽取不同尺度的特征分別進行預測,這種方法不需要額外的計算,但不能很好地提取小目標敏感的淺層高分辨率特征。

圖21 多尺度檢測的常見結構[56] Fig.21 Common structures of multiscale detection[56]

特征金字塔網絡(Feature Pyramid network, FPN)[56]借鑒了ResNet跳接的思想,結合了層間特征融合與多分辨率預測,其結構如圖22所示。文獻[56]將FPN用于Faster R?CNN的區域候選網絡(Region proposal network, RPN),在每層金字塔后面接一個RPN頭。由于輸入了多尺度的特征,因此不需要生成多尺度的錨框,只需要在每個尺度上設置不同的寬高比,并共享參數。以ResNet?101為骨干網絡的Faster R?CNN+FPN在COCO test?dev上[email protected]達到了59.1%,超過不用FPN的Faster R?CNN 3.4%。實驗證明對于基于區域的目標檢測器,該特征金字塔結構的特征提取效果優于單尺度的特征提取效果。

圖22 FPN結構示意圖[56] Fig.22 Structure of FPN[56]

YOLO[57]是單階段模型的代表,它沒有提出候選區域的過程,而是直接將提出候選區域和分類統一為一個邊界框回歸的問題,將整張圖片作為網絡的輸入,在輸出層對邊界框位置信息和類別進行回歸,實現了端到端的學習過程,其示意圖如圖23所示。它首先將圖片縮放并劃分為等分的網格,然后在每張圖片上運行單獨的卷積網絡,最后用非極大值抑制得到最后的預測框。損失函數被分為3部分:坐標誤差、物體誤差和類別誤差。為了平衡類別不均衡和大小物體等帶來的影響,損失函數中添加了權重并將長寬取根號。

圖23 YOLO示意圖[57] Fig.23 Pipeline of YOLO[57]

YOLO的網絡結構借鑒了GoogLeNet的結構,用24層卷積層后接2層全連接層,將Inception模塊替換為類似網中網[24]中的1××1卷積層后接3××3卷積層,并在ImageNet上預訓練,其結構如圖24所示。在PASCAL VOC 07+12數據集上,YOLO在達到最高幀率155 幀/s時mAP可以達到52.7%,在mAP最高達到63.4%時幀率可達45幀/s。YOLO在保證了準確率的同時擁有極高的推理速度,遠超當時的兩階段模型。

圖24 YOLO網絡結構圖[57] Fig.24 Structure of YOLO[57]

YOLOv1的訓練流程簡單,背景誤檢率低,但由于只選擇交并比最高的邊界框作為輸出,每個格子最多只能預測出一個物體。當每個格子包含多個物體時,YOLOv1只能檢測出1個目標。YOLOv2[58]在YOLOv1的基礎上,骨干網絡采用了以VGG16為基礎的Darknet19,使用了批量歸一化緩解了梯度爆炸和消失的問題。YOLOv2借鑒了Faster R?CNN錨框的設計,將YOLOv1的全連接層替換為錨框預測邊界框的位置,解耦了位置和類別的回歸計算。YOLOv2[58]同時采用了多尺度訓練,提升了模型的健壯性。后續的YOLOv3[59]骨干網絡采用了Darknet53,使用了ResNet的跳接結構,并引入了FPN,一定程度上解決了YOLOv2小目標檢測精度較差的問題。YOLOv3在分辨率320 像素×像素×320 像素的輸入上以22 ms的推理時間使得mAP達到28.2%,和當時最好的單階段檢測器SSD達到相同精度,但擁有3倍的推理速度。YOLOv3以51 ms的推理時間使得[email protected]達到57.9%,相較于以198 ms的推理時間[email protected]達到57.5%的RetinaNet[60],精度相近但YOLOv3的速度是RetinaNet[60]的近4倍。

SSD[55]是最早達到兩階段模型精度的單階段模型之一,對后期的單階段工作影響很深,其結構如圖25所示。為解決YOLOv1小目標檢測精度低的問題,基于VGG不同的卷積段采用了多尺度的特征圖,并在每個網格點生成更多的不同大小和長寬比的預測框。SSD在PASCAL VOC 2007數據集上,對于300 像素××300 像素的輸入mAP達到了74.3%,512 像素××512 像素的輸入mAP達到了76.9%。在COCO trainval35k數據集上預訓練再在PASCAL VOC 07+12上微調后,SSD最終mAP達到了81.6%。

圖25 SSD網絡結構圖[55] Fig.25 Structure of SSD[55]

和兩階段模型相比,單階段模型只需要進行一次類別預測和位置回歸,因此卷積運算的共享程度更高,擁有更快的速度和更小的內存占用。最新的單階段模型如FCOS[61]、VFNet[62]等工作已經可以達到接近兩階段模型精度,同時擁有更好的實時性,更適合在移動端部署。

目標檢測技術從傳統的手工特征算法到如今的深度學習算法,精度越來越高的同時速度也越來越快。在過去幾年中,工業界已經出現了成熟的基于目標檢測技術的應用,如人臉檢測識別、行人檢測、交通信號檢測、文本檢測和遙感目標檢測等。這些應用不僅便利了人們的生活,也為學術界提供了啟發和指導。

在未來的研究工作中,小目標檢測和視頻目標檢測依舊是研究的熱點問題。同時,為了加快推理速度并在移動端嵌入式設備部署模型,目標檢測的輕量化一直備受工業界的關注。在采集到多模態的信息(如文字、圖像、點云等)后,如何通過更好的信息融合來提高檢測性能也是未來的一個重點研究方向。

3.2 圖像分割

本文的圖像分割指圖像語義分割任務,其要求將整張圖片的所有像素分類為預先定義的多個類別之一。由于是像素級的稠密分類任務,相比圖像分類和目標檢測更加困難,是圖像處理和計算機視覺中的一個重要課題,在場景理解、醫學圖像分析、機器人感知及視頻監控等領域有著廣泛的應用。近年來,由于深度學習技術在計算機視覺領域應用中取得的成功,人們也進行了大量的工作研究基于深度學習模型的圖像分割方法。

U?Net[63]和全卷積網絡(Fully convolutional network, FCN)[64]都是在2015年提出的網絡,啟發了后來的很多圖像分割和目標檢測的工作。FCN已在文獻[1]中進行介紹,此處不再贅述。U?Net最初是一個用于醫學圖像分割的卷積神經網絡,分別贏得了ISBI 2015細胞追蹤挑戰賽和齲齒檢測挑戰賽的冠軍。U?Net可視為一個編碼器?解碼器結構,編碼器有4個子模塊,每個子模塊通過一個最大池化層下采樣,解碼器再通過上采樣的4個子模塊增大分辨率直到與輸入圖像的分辨率保持一致,其結構如圖26所示。由于卷積采用的是Valid模式,實際輸出圖像的分辨率低于輸入圖像的分辨率。U?Net網絡同時還采取了跳接結構(即圖26中的灰色箭頭),將上采樣結果與編碼器中具有相同分辨率的子模塊的輸出進行連接,作為解碼器中下一個子模塊的輸入。

圖26 U-Net結構示意圖[63] Fig.26 Structure of U-Net[63]

由于人體結構相對固定,分割目標在圖像內的分布很有規律,醫學圖像大多語義明確,需要低分辨率的信息用于目標物體的識別。同時醫學圖像形態復雜,往往要求高精度的分割,需要高分辨率的信息用于精準分割。U?Net融合了高低分辨率的信息,因此對醫學圖像分割的效果很好。

Mask R?CNN[65]是R?CNN團隊的又一次探索,他們在之前Faster R?CNN[52]的基礎上,將其擴展到更精細的像素級別的分類,從而從目標檢測領域拓展到圖像分割領域。通過使用RoIAlign代替RoIPooling,得到更好的定位效果,并在Faster R?CNN上添加了二進制的Mask,表征像素是否在目標范圍內完成圖像分割的任務。Mask R?CNN網絡結構圖和分支結構圖如圖27、28所示。 圖27 Mask R-CNN網絡示意圖[65]Fig.27 Structure of Mask R-CNN[65] 圖28 Mask R-CNN分支示意圖[65]Fig.28 Structure of Mask R-CNN’s branches[65]

深度卷積神經網絡中池化層和上采樣層的設計對于圖像分割的設計有致命缺陷。因為參數不可學習,而且池化會導致像素的空間信息和內部的數據結構丟失,上采樣也無法重建小物體信息,因此圖像分割的精度一直處于瓶頸。針對這一問題,2016年的DeepLab[66]又提出了一種空洞卷積,避免了池化層帶來的信息損失,并使用全連接的條件隨機場(Conditional random field, CRF)優化分割精度,其結構如圖29所示。

圖29 空洞卷積示意圖(卷積核尺寸為3,輸入步長為2,輸出步長為1)[66] Fig.29 Dilated convolution (kernel size=3, input stride=2, output stride=1)[66]

空洞卷積可以在避免使用池化層損失信息的情況下增大感受野,同時不增加參數數量。作為后處理,DeepLabv1將每個像素點作為節點,像素之間的關系作為節點間的連線,構成一個條件隨機場,再用一個二元勢函數描述像素點之間的關系,將相似像素分配相同的標簽,從而在分割邊界取得良好的效果。DeepLabv1速度很快,幀率達到8 幀/s,在PASCAL VOC 2012數據集上平均交并比(Mean intersection over union,mIoU)達到了71.6%,它的“深度卷積神經網絡+條件隨機場”結構對之后很多工作產生了深遠的影響。

2017年劍橋大學提出的SegNet[67]的主要動機是針對道路和室內場景理解,設計一個像素級別的圖像分割網絡,同時保證內存和計算時間方面上的高效。SegNet采用“編碼器?解碼器”的全卷積結構,編碼網絡采用VGG16[28]的卷積層,解碼器從相應的編碼器獲取最大池化索引后上采樣,產生稀疏特征映射。復用池化索引減少了端到端訓練的參數量,并改善了邊界的劃分。SegNet在道路場景分割數據集CamVid 11 Road Class Segmentation[68]上mIoU達到60.1%, 邊界F1得分(Boundary F1 score,BF) 達到46.84%;在室內場景分割數據集SUN RGB?D Indoor Scenes[69]上幾乎所有當時的深層網絡結構都表現不佳,但SegNet依然在絕大多數的指標上超過了其他網絡。SegNet結構如圖30所示。

圖30 SegNet結構示意圖[67] Fig.30 Structure of SegNet[67]

2017年香港中文大學提出了PSPNet[70],該網絡采用金字塔池化模塊,用大小為1××1、2××2、3××3和6××6的4層金字塔分別提取不同尺度的信息,然后通過雙線性插值恢復長寬,把不同層的特征連結起來得到全局信息,這種結構比全局池化更具有代表性,融合了多尺度的信息。PSPNet在PASCAL VOC 2012數據集上mIoU達到了82.6%,在MS COCO數據集上預訓練后達到85.4%。PSPNet結構如圖31所示。

圖31 PSPNet結構示意圖[70] Fig.31 Structure of PSPNet[70]

DeepLabv2[71]在DeepLabv1[66]和PSPNet[70]的基礎上用ResNet101代替VGG16,并提出了一種帶有空洞卷積的空間金字塔池化模塊(Atrous spatial Pyramid pooling, ASPP),用多尺度的方法以不同的速率并行地提取特征圖信息,極大地增加了感受野,其結構如圖32所示。DeepLabv2使用不同的學習率,相比DeepLabv1, mIoU達到了79.7%,提升了8.1%,但二者都使用了全連接條件隨機場模塊。

圖32 空洞空間金字塔池化示意圖[71] Fig.32 Structure of ASPP[71]

DeepLabv3[72]重新審視了空洞卷積的作用,將其級聯模塊應用在ResNet最后一個模塊之后。不使用空洞卷積和使用空洞卷積的級聯模塊示意圖如圖33所示。

圖33 不使用和使用空洞卷積的級聯模塊示意圖[72] Fig.33 Structures of cascade modules without and with atrous convolution[72]

DeepLabv3改進了ASPP模塊,應用BN層,并將DeepLabv2中Rate=24的3××3卷積模塊替換為1××1卷積模塊和全局池化模塊,克服了像素點相對距離增大時有效權重減少的問題。DeepLabv3去掉了后處理的DenseCRF模塊,并最終在PASCAL VOC 2012數據集上mIoU達到了86.9%,相較DeepLabv2進一步提升了7.2%。改進的ASPP模塊示意圖如圖34所示。

圖34 改進的ASPP模塊示意圖[72] Fig.34 Improved ASPP module[72]

DeepLabv3+[73]相對于DeepLabv3,采用了“編碼器?解碼器”的結構,編碼器中包含豐富的語義信息,解碼器則輸出圖像的邊緣細節信息。空間金字塔池化模塊,“編碼器?解碼器”結構和帶有空洞卷積的“編碼器?解碼器”結構如圖35所示,DeepLabv3+結構如圖36所示。

圖35 DeepLabv3+使用了空間金字塔池化模塊,“編碼器-解碼器”結構和空洞卷積[73] Fig.35 DeepLabv3+ employing spatial Pyramid pooling, encoder-decoder and atrous convolution[73]

圖36 DeepLabv3+示意圖[73] Fig.36 Structure of DeepLabv3+[73]

DeepLabv3+將之前的骨干網絡ResNet101替換為Xception,并結合深度可分離卷積的思想提出了空洞深度可分離卷積,在減少參數量的同時進一步增大感受野。和DeepLabv3一樣,DeepLabv3+也沒有使用DenseCRF后處理模塊。最終DeepLabv3+在PASCAL VOC 2012數據集上mIoU達到了89.0%,相較DeepLabv3提升了2.1%。深度卷積、逐點卷積和空洞深度可分離卷積示意圖如圖37所示。

圖37 空洞深度可分離卷積示意圖[73] Fig.37 Structure of atrous depthwise separable convolution[73]

2019年曠視科技提出了一種名為DFANet[74]的高效CNN架構,通過子網和子級聯的方式聚合多尺度特征,極大地減少了參數量,其結構如圖38所示。DFANet采用“編碼器?解碼器”結構,解碼器的骨干網絡采用3個改良的輕量級Xception融合結構,編碼器則是一個高效的上采樣模塊,用于融合高層和底層的語義信息。在CityScapes[75]測試數據集上,對于1 024像素××1 024像素的輸入圖片,DFANet在一塊NVIDIA Titan X上mIoU達到71.3%,FLOPS僅為3.4××109,幀率達到100 幀/s;在CamVid[68]測試數據集上,對于960像素××720像素的輸入圖片,DFANet在8 ms的計算時間內mIoU達到64.7%,幀率達到120 幀/s。

圖38 DFANet結構示意圖[74] Fig.38 Structure of DFANet[74]

2020年筆者提出一種輕量級網絡LRNNet[76]。其中分解卷積塊FCB(圖39(a))利用1××3和3××1的空間分解卷積處理短距離特征,并利用空洞深度分離卷積處理遠距離特征,實現了參數量和計算量更少、深度更快、準確率更高的特征提取;高效的簡化Non?Local模塊LRN(圖39(b))利用區域主奇異向量作為Non?Local模塊的Key和Value,在降低Non?Local模塊的計算量和內存占用的同時,保持其處理遠距離關聯的效果。在Cityscapes[75]測試集上,LRNNet的mIoU達到了72.2%,而網絡僅有68萬個參數,并在1張GTX 1080Ti卡上達到71 幀/s的推理速度;在CamVid[68]測試集上,對于360像素××480像素的輸入,LRNNet的mIoU達到了69.2%,參數量也為68萬個,在1張GTX 1080Ti卡上幀率達到76.5 幀/s。

圖39 LRNNet中的FCB和LRN模塊[76] Fig.39 FCB and LRN modules in LRNNet[76]

圖像分割是像素級的稠密分類任務,在搜集數據集時需要真值標注每個像素,但由于這個要求極其耗時且非常昂貴,許多研究人員開始用弱監督學習和半監督學習的方法訓練網絡。常見的弱標注有圖像類別標簽、邊界框、顯著圖和類激活圖(Class activation map,CAM)等。

2015年谷歌和UCLA團隊的工作[77]是最早開始研究基于弱監督學習技術的圖像分割算法之一。該工作基于DeepLab模型[66],研究了弱標注(類別標簽、邊界框等)與少量強標注(像素級標簽)和大量弱標注混合對DCNN圖像分割模型的影響,并在半監督和弱監督的設定下提出了一種期望最大化方法(Expectation?maximization,EM)。這項工作證實了僅使用圖像級標簽的弱標注存在性能差距,而在半監督設定下使用少量強標注和大量弱標注混合可以獲得優越的性能,在MS COCO數據集上使用5 000張強標注圖片和118 287張弱標注圖片mIoU超過70%。

盡管類別標簽的獲取成本很低,但這類標注信息僅僅標明某類目標存在,不能表示出目標的位置和形狀,這往往會導致分割效果不夠理想,存在邊界模糊等問題。當出現目標遮擋的情況時,僅使用圖像級標簽獲取完整的目標邊界會更加困難。為了補充監督信息中缺少的位置和形狀信息,使用圖像的顯著性信息是一種常見的手段。文獻[78]提出了一個僅使用類別標簽和顯著圖信息的圖像分割模型,其結構如圖40所示。該模型將圖像的顯著圖定義為一個人最有可能先看到的目標的二進制掩膜,用預訓練的目標檢測網絡提取出顯著性區域,通過種子信息確定目標的類別和位置。該工作同樣基于DeepLab[66]的網絡結構,提出的模型測試精度mIoU達到56.7%,實現了全監督模型80%的性能。

圖40 高層信息指導的圖像分割網絡結構圖[78] Fig.40 High-level guided segmentation architecture[78]

定位線索的另一個流行的選擇是使用CAM。主流的弱監督方法通過將CAM作為分割種子,突出局部的顯著部分,然后逐漸生長直到覆蓋整個目標區域,從而補充了缺失的目標形狀信息。2018年提出的AffinityNet[79]結合了類別標簽和CAM信息,首先計算圖像的CAM作為監督源訓練AffinityNet,通過構建圖像的語義相似度矩陣,結合隨機游走進行擴散,不斷獎勵或懲罰從而修改CAM,最終恢復出目標的形狀。AffinityNet流程如圖41所示。

圖41 AffinityNet流程示意圖[79] Fig.41 Pipeline of AffinityNet[79]

深度學習技術在圖像分割領域取得了顯著成就,但仍然面臨不小的挑戰。當前的大規模數據集如MS COCO[80]和PASCAL VOC[81]并不能滿足工業界的需求,而具有多目標和重疊目標的數據集對于圖像分割而言更具有應用價值,這可以使得圖像分割技術更好地處理密集目標場景和現實生活中常見的重疊目標場景。基于小樣本學習技術的圖像分割算法同樣具有廣闊的前景,因為在許多應用領域,例如醫學圖像分析領域,獲取學習樣本的成本較高,難度也較大。圖像分割技術的實時性也是一個難題,目前大多數模型并不能達到實時性的要求,但在很多應用場景下,速度的重要性遠高于精度。

3.3 超分辨率

超分辨率技術是計算機視覺領域提高圖像和視頻分辨率的重要處理技術之一,研究如何將低分辨率的圖像或圖像序列恢復出具有更多細節信息的高分辨率圖像或圖像序列,在高清電視、監控視頻、醫學成像、遙感衛星成像、顯微成像及老舊圖像視頻修復等領域有著重要的應用價值。傳統上超分辨率屬于底層視覺領域,但本文敘述順序從圖像分類、目標檢測、圖像分割到超分辨率,輸出逐級復雜,依次為圖像標簽、目標位置和類別標簽、與輸入同大小的分割圖、比輸入圖像大的高分辨率圖像等。與前幾個任務不同,超分辨率需要生成和恢復輸入中不存在的信息。

超分辨率的概念最早出現在光學領域,1952年Francia第一次提出了用于提高光學分辨率的超分辨率的概念[82]。1964年前后,Harris[83]和Goodman[84]分別提出了后來稱為Harris?Goodman頻譜外推的方法,這被認為是最早的圖像復原方法,但這種技術只能在一些理想情況下進行仿真,實際效果不太理想,因此并未得到推廣。1984年Tsai等[85]首次利用單幅低分辨率圖像的頻域信息重建出高分辨率圖像后,超分辨率重建技術才得到廣泛的認可和應用,如今它已經成為圖像增強和計算機視覺領域中最重要的研究方向之一。

傳統的超分辨率方法包括基于預測、基于邊緣、基于統計、基于塊和基于稀疏表示等方法。根據輸入輸出的不同,超分辨率問題可以分為基于重建的超分辨率問題、視頻超分辨率問題和單幅圖像超分辨率問題。根據是否依賴訓練樣本,超分辨率問題則又可以分為增強邊緣的超分辨率問題(無訓練樣本) 和基于學習的超分辨率問題 (有訓練樣本)。

最簡單、應用最廣泛的經典單幅圖像超分辨率方法是插值法,包括Lanczos、Bicubic、Bilinear和Nearest等,這種方法操作簡單、實施性好,但并不能恢復出清晰的邊緣和細節信息,因此很多其他用于增強細節的傳統算法相繼被提出。文獻[86]提出了基于塊的方法,也被稱為基于鄰域嵌入的方法。這種方法使用流形學習中的局部線性嵌入,假設高、低維度中圖像塊的線性關系可以保持,用低分辨率圖像的特征(梯度等)重構高分辨率圖像。文獻[87?88]提出了基于稀疏表示的方法,也被成為字典學習。這種方法將低分辨率圖像和高分辨率圖像表示為字典DD與原子αα,高分辨率圖像可表示為x=Dhighx=Dhigh,低分辨率圖像為y=Dlowy=Dlow,假設不同分辨率的同一幅圖像的原子αα,在訓練完字典DhighDhigh和DlowDlow后,用低分辨率的圖像得到αα,隨后得到重構的高清圖像。基于學習的超分辨率技術[89]如圖42所示,上、下采樣方法示意圖[90]如圖43所示。

圖42 基于學習的超分辨率技術[89] Fig.42 Learning-based super-resolution[89]

圖43 超分辨率問題中的上采樣和下采樣方法[90] Fig.43 Upsampling and downsampling in super-resolution[90]

經典的超分辨率方法要求研究者具備深厚的相關領域先驗知識。隨著深度學習技術的興起,用神經網絡方法重建的圖像質量超過了傳統方法,速度也更快,這使得大批學者轉向對深度學習技術在超分辨率領域的應用研究。香港中文大學Dong等于2015年首次將卷積神經網絡用于單幅圖像超分辨率重建,提出了SRCNN[91],該網絡僅僅用了3個卷積層,利用傳統稀疏編碼,依次進行圖像塊提取、非線性映射和圖像重建,實現了從低分辨率圖像到高分辨率圖像的端到端映射,流程圖如圖44所示。SRCNN激活函數采用ReLU,損失函數采用均方誤差。

圖44 SRCNN流程圖[91] Fig.44 Pipeline of SRCNN[91]

2016年Dong團隊在之前SRCNN的基礎上提出了更快、實時性更好的FSRCNN[92],在原始網絡的最后加入反卷積層放大尺寸,摒棄了Bicubic插值方法,使用了更多的映射層和更小的卷積核,改變了特征維度,并共享其中的映射層,FSRCNN改進示意圖如圖45所示。訓練時FSRCNN只需要微調最后的反卷積層,因此訓練速度很快。FSRCNN激活函數采用PReLU,損失函數仍采用均方誤差。

圖45 FSRCNN對SRCNN的改進[92] Fig.45 FSRCNN’s improvement on SRCNN[92]

2016年提出的ESPCN[93]在SRCNN基礎上進一步提高了速度,其結構如圖46所示。該工作提出了一種亞像素卷積層,可以直接在低分辨率圖像上提取特征,從而避免在高分辨率圖像上進行卷積,降低了計算復雜度。ESPCN激活函數采用tanh,損失函數仍然采用均方誤差。

圖46 ESPCN示意圖[93] Fig.46 Structure of ESPCN[93]

SRCNN的網絡輸入是經過上采樣的低分辨率圖像,計算復雜度很高,因此FSRCNN和ESPCN都選擇在網絡末端上采樣以降低計算復雜度。但如果在上采樣后沒有足夠深的網絡提取特征,圖像信息就會損失。為了更好地使用更深的網絡,很多工作引入了殘差網絡。2016年首爾國立大學Kim等提出的VDSR[94]是第一個引入全局殘差的模型,其結構如圖47所示。Kim等指出,高低分辨率圖像攜帶的低頻信息很相近,因此事實上網絡只需要學習高頻信息之間的殘差即可。VSDR思想啟發了很多之后利用殘差結構的工作。

圖47 VSDR網絡結構圖[94] Fig.47 Structure of VSDR[94]

CARN[95]是NTIRE2018超分辨率挑戰賽的冠軍方案,該方案使用全局和局部級聯,將ResNet的殘差塊替換成級聯模塊和1×11×1卷積模塊組合,并提出了一種殘差?E模塊,可以提升CARN的效率。CARN的改進如圖48所示,其局部級聯模塊如圖49所示。

圖48 CARN對于ResNet的改進[95] Fig.48 Improvement of CARN based on ResNet[95]

圖49 殘差-E模塊與其他常見模塊的對比[95] Fig.49 Comparison between residual-E block and other common blocks[95]

EDVR[96]是商湯科技2019年提出的一種用于視頻修復的通用框架,在NITRE 2019 的4個賽道中均以較大的優勢獲得了冠軍。視頻修復任務包括超分辨率、去噪聲等任務,早期的研究者們簡單地將視頻修復視作圖像修復的延伸,幀間冗余的時間信息并沒能被充分利用。EDVR通過增強的可變形卷積網絡實現視頻的修復和增強,適用于各種視頻修復任務,如超分辨率、去模糊等任務。EDVR框架示意圖如圖50所示。

圖50 EVDR框架示意圖[96] Fig.50 Pipeline of EDVR[96]

EDVR提出了PCD(Pyramid, cascading and deformable)對齊模塊和TSA(Temporal and spatial attention)融合模塊,其結構如圖51所示。PCD模塊受TDAN[97]的啟發,用一種金字塔結構從低尺度到高尺度使用可變形卷積將每個相鄰幀與參考幀對齊。TSA模塊則用于在多個對齊的特征層之間融合信息,通過計算每個相鄰幀與參考幀特征之間的元素相關性引入時間注意力機制,相關系數代表每個位置上相鄰幀特征信息量的大小。在融合時間特征后進一步應用空間注意力機制,從而更有效地利用跨通道空間信息。

圖51 EVDR中的PCD模塊和 TSA模塊[96] Fig.51 PCD and TSA modules in EVDR[96]

三維卷積是一種常見的利用視頻時空間信息的方法,但這種方法往往復雜度較高,限制了模型的深度。2019年提出的FSTRN[98]通過使用一種快速時空間殘差模塊將三維卷積用于視頻超分辨率任務,將每個三維濾波器分解為2個維數更低的3位濾波器乘積,從而降低復雜度,實現更深的網絡和更好的性能。此外,FSTRN還提出了一種跨空間殘差學習方法,直接連接低分辨率空間和高分辨率空間,減輕了特征融合和上采樣部分的計算負擔。FSTRN結構如圖52所示。

圖52 FSTRN結構示意圖[98] Fig.52 Pipeline of FSTRN[98]

隨著深度學習技術的興起,近20年來超分辨率領域發展迅速,出現了很多具有優異性能的模型,但距離實際應用還有一定的距離。圖像配準技術對于多幀圖像超分辨率的重建效果至關重要,目前還沒有成熟的解決方案。另一個難點則是大量未知的密集計算限制了視頻超分辨率重建的計算效率,難以達到實時性的要求。超分辨率算法的魯棒性和可遷移性仍然是下階段的研究熱點,現有的評價標準,如均方誤差、峰值噪聲比、結構相似性等還不能客觀地衡量重建效果,有時甚至會出現和人眼視覺相違背的情況。

4 神經架構搜索

深度學習技術在圖像分類、語音識別及機器翻譯等諸多領域上取得了舉世矚目的成功,可以自動地學習數據信息,讓研究人員擺脫特征工程,這離不開GoogLeNet、ResNet等經典的深度神經網絡模型。然而一個具有優異性能的網絡結構往往需要花費研究人員大量的時間資金投入,同時需要具備扎實的專業知識和豐富的經驗。因此人們開始研究讓機器代替人類,根據數據集和算法自動設計網絡結構。神經架構搜索技術(Neural architecture search,NAS)設計的模型如今已經在很多任務上取得了超過人工設計深度模型的性能,如圖像分割領域的Auto?DeepLab[99],目標檢測領域的NAS?FPN[100]。神經架構搜索技術是機器學習自動化(Automated machine learning,AutoML)的子領域,代表了機器學習未來發展的方向。神經架構搜索技術的流程如圖53所示,首先從一個搜索空間中通過某種策略搜索候選網絡架構,然后對其精度、速度等指標進行評估,通過迭代不斷優化直到找到最優的網絡架構。

圖53 神經架構搜索流程圖

Fig.53 Pipeline of NAS

搜索空間內定義了優化問題的變量,如網絡架構參數和超參數,這些變量決定了模型的性能。常見的網絡架構有鏈式結構和分支結構等,每一個節點的網絡架構參數包括卷積層、池化層和激活函數等,超參數包括卷積的尺寸、步長、加法或連結等。典型的網絡架構[101]如圖54所示。

圖54 網絡架構[101]

Fig.54 Network architecture[101]

搜索策略被用于探索神經架構空間,常見的策略包括隨機搜索、貝葉斯優化、遺傳算法、強化學習[102?103]和梯度算法等,其中強化學習、遺傳算法及梯度算法是目前主流的搜索策略。在性能評估時,由于訓練和驗證的時間成本較高,因此常常需要采用評估策略降低評估成本,如減少迭代次數、在訓練集的子集上訓練、減少卷積核數量等,但這些策略往往會導致一些偏差,可能會對最終的優劣次序產生影響。更高級的策略包括權重共享、通過迭代時的表現推斷最終性能以及通過模塊預測網絡性能等方法。

DARTS[104]是第一個基于連續松弛的搜索空間的神經網絡架構技術。早期傳統的NAS方法如NasNet[105]、PNAS[106]和ENAS[107]等大多在離散不可微的搜索空間上應用強化學習、進化算法等搜索策略,由于搜索空間內待搜索的參數不可導,因此一個性能優異的模型往往需要耗費大量的計算資源和時間成本。事實上,當時的研究者們將神經架構搜索技術視為一個在離散空間上的黑箱優化問題,每次架構的迭代優化都需要性能評估,效率十分低下。而DARTS使用了松弛連續的結構表示,使用梯度下降優化網絡在驗證集上的性能,實現了端到端的網絡搜索,大大減少了迭代次數,把搜索時間從數千個GPU日降低到數個GPU日。

DARTS流程如圖55所示。其中:圖(a)表示邊上的初始未知操作;圖(b)在每條邊上放置候選操作的組合,連續松弛搜索空間,不斷放寬搜索條件;圖(c)通過解決一個雙層規劃問題聯合優化混合概率與網絡權重;圖(d)用學到的混合概率求得最終的網絡架構。DARTS是一種簡單的NAS方法,適用于CNN和RNN,在CIFAR?10數據集[108]上用4個GPU日達到了2.76%的測試誤差,參數量僅有330萬個;在PTB數據集[109]上用1個GPU日以2 300萬個的參數量達到了55.7%的測試困惑度,達到了當時的最好性能。在CIFAR?10數據集上搜索出來的模型架構在ImageNet[19]數據集上以470萬個的參數量達到8.7%的top?5錯誤率,在PTB數據集上搜索出來的模型架構在WikiText?2數據集[110]上以3 300萬個的參數量達到69.6%的困惑度,優于很多手工設計的輕量化模型。

圖55 DARTS流程示意圖[104]

Fig.55 Pipeline of DARTS[104]

基于DARTS,一系列改進算法被相繼提出。在DARTS中,搜索在一個有8個單元的網絡上進行,搜索出來的架構通過堆疊在一個具有20個單元的網絡上被評估,但深度網絡和淺層網絡的結構往往不同。例如,在代理數據集(如CIFAR?10數據集)上搜索出來的網絡架構可能在目標數據集(如ImageNet數據集)上表現不理想。2019年華為諾亞方舟實驗室提出P?DARTS[111],針對這一問題(被稱為Depth Gap)提出了一種漸進式搜索的方法,如圖56所示。搜索網絡的深度從最初的5個單元增加到中期的11個和后期的17個,而候選操作的數量(用不同的顏色表示)相應地從5個減少到4個和2個。在上一階段得分最低的操作將被丟棄,最后結合分數和可能的附加規則確定最終架構[111]。

圖56 P-DARTS流程示意圖[111]

Fig.56 Pipeline of P-DARTS[111]

2019年MIT提出ProxylessNAS[112],針對DARTS只能在小型代理數據集上搜索而在大型數據集上則會出現顯存爆炸的問題提出了無代理神經架構搜索技術,在訓練時二值化路徑,用和DARTS雙層規劃類似的思想聯合訓練權重參數和架構參數,從而達到降低顯存的目的,并首次提出針對不同的硬件平臺搜索滿足特定時延的神經網絡架構方法。ProxylessNAS不再采用搜索單元然后堆疊達到更深網絡的方法,而是選擇主干網絡,如MobileNet[41]、ShuffleNet[42]等。ProxylessNAS在CIFAR?10數據集上以僅570萬個的參數量達到2.08%的測試誤差。ProxylessNAS示意圖如圖57所示。

圖57 ProxylessNAS示意圖[112]

Fig.57 Pipeline of ProxylessNAS[112]

當迭代次數過大后,DARTS設計出的網絡架構會包含很多跳接結構,使得性能變得很差,稱為DARTS的坍塌。2020年諾亞方舟實驗室提出的DARTS+[113]通過引入早停機制,即當一個正常單元出現2個或2個以上的跳接結構時就停止搜索,縮短了DARTS搜索的時間,極大地提高了DARTS的性能,其示意圖如圖58所示。

圖58 DARTS+中的早停機制示意圖[113]

Fig.58 Early Stopping in DARTS+[113]

2020年商湯研究院提出的隨機神經架構搜索SNAS[114]也是一種可微的端到端方法,但與DARTS相比,SNAS將NAS重新表述為在一個單元中搜索空間的聯合分布參數優化問題,直接優化損失函數,偏差更小。在同一輪反向傳播中SNAS同時訓練操作參數和架構參數,并提出了一種新的搜索梯度。相比基于強化學習的神經架構搜索技術,SNAS優化相同的目標函數,但更高效地只使用訓練損失作為獎勵。

PC?DARTS[115]是華為諾亞方舟實驗室2020年提出的NAS技術,在P?DARTS[111]的基礎上設計了部分通道連接機制,每次只有一部分通道進行操作搜索,這節省了訓練需要的顯存,減少了計算量,并采用邊正則化降低由于操作搜索不全造成的不確定性。PC?DARTS在CIFAR?10數據集[108]上用0.1個GPU日達到了2.57%的測試誤差,參數量僅有360萬個;在ImageNet數據集[19]上用3.8個GPU日以530萬個的參數量達到了7.3%的top?5錯誤率,取得了更快更好的搜索效果。PC?DARTS結構如圖59所示。

圖59 PC-DARTS結構示意圖[115]

Fig.59 Structure of PC-DARTS[115]

當前的神經架構搜索技術大多被用于圖像分類任務,這促使許多研究人員試圖設計出更好的人工網絡。但一方面由于搜索空間的定義被局限在現有的網絡結構設計經驗中,使得NAS設計出的網絡很難與人工網絡有本質上的區別。另一方面,NAS技術設計的網絡可解釋性很差,由于研究人員采用的數據增強、搜索空間、訓練方法及正則化策略等方法常常不同,這使得NAS設計出的架構很難被復現,不同網絡架構的性能也難以比較。由此可見,神經架構搜索領域仍然存在很多挑戰,如何解決這些問題將會是下一階段的熱門研究方向之一。

5 結束語

深度學習技術近年來在計算機視覺中的目標檢測、圖像分割、超分辨率和模型壓縮等任務上都取得了卓越的成績,充分證明了它的價值和潛力。然而深度學習領域仍然有不少難題無法解決,如對數據的依賴性強、模型難以在不同領域之間直接遷移、深度學習模型的可解釋性不強等,如何攻克這些難題將是下一階段的發展方向。為了追求極致的性能,很多科技巨頭投入了巨大的人力財力搭建巨型模型,如OpenAI發布的擁有1 750億個參數的GPT?3,谷歌發布的擁有1.6萬億個參數的Switch Transformer,快手發布的擁有1.9萬億個參數的推薦精排模型,這些模型需要大量的訓練時間和計算資源,如何設計計算硬件、系統和算法來加速訓練是一項新的挑戰。深度學習技術嚴重依賴大規模帶標簽的數據集,因此無監督學習技術、自監督技術,例如表示學習、預訓練模型等,仍然是重要的研究方向。同時深度學習技術帶來的安全隱患也引起了重視,如何在保護用戶隱私的前提下優化分布式訓練是另一個具有潛力的研究方向。

付費5元查看完整內容

知識圖譜尤其是垂直知識圖譜技術是目前學術界和工業界研究的熱點,在人工智能領域具有廣泛的應用。為了充分展現國內在垂直知識圖譜領域研究的現狀,以垂直領域知識圖譜為研究對象,對其發展現狀和趨勢進行綜 述。首先,對垂直領域知識圖譜的定義和分類、架構和關鍵技術的發展現狀進行了詳細論述;然后,針對垂直領域 知識圖譜的具體應用進行了論述,并以學術信息知識圖譜和醫藥衛生知識圖譜為例進行了詳細介紹。最后對垂直領 域知識圖譜發展中存在的問題和對策,以及未來的趨勢進行了探討。

付費5元查看完整內容
北京阿比特科技有限公司