亚洲男人的天堂2018av,欧美草比,久久久久久免费视频精选,国色天香在线看免费,久久久久亚洲av成人片仓井空

機器人因其高效的感知、決策和執行能力,在人工智能、信息技術和智能制造等領域中具有巨大的應用價值。目前,機器人學習與控制已成為機器人研究領域的重要前沿技術之一。各種基于神經網絡的智能算法被設計,從而為機器人系統提供同步學習與控制的規劃框架。首先從神經動力學(ND)算法、前饋神經網絡(FNNs)、遞歸神經網絡(RNNs)和強化學習(RL)四個方面介紹了基于神經網絡的機器人學習與控制的研究現狀,回顧了近30年來面向機器人學習與控制的智能算法和相關應用技術。最后展望了該領域存在的問題和發展趨勢,以期促進機器人學習與控制理論的推廣及應用場景的拓展。

它具有感知能力、決策能力和執行能力,能夠協助 甚至替代人類完成各種復雜、繁重和危險的任務。 任何涉及重復性工作的工業系統都可以通過機器人 實現自動化作業,進而在降低人力成本的同時顯著 地提高生產效率和產品質量[1] 。這也預示著現代 智能工廠能夠根據需求擴大或縮小生產規模。典型 的機器人設備包括冗余度機器人[2] 、柔性機器人[3] 和移動機器人[4]等。近年來,機器人在軍事戰爭、 太空探索、醫療手術和其他重要行業中得到了廣泛 的應用[5-7] 。 在第四次工業革命的推動下,機器人系統,特 別是機械臂,受到世界各國的廣泛關注[8] 。機器人 技術與多學科技術相結合,逐步推動了人類社會生 產和生活方式的轉變。以機器人視覺和觸覺為代表 的機器人感知技術加速了機器人學習與控制概念的 產生和發展[9] 。因此,機器人系統能夠克服源于自 身或環境的不確定性因素,從而提高任務執行的效 率和穩定性。具體而言,機器人需要解決由磨損、 老化、故障等因素引起的結構不確定性問題和由環 境、任務等因素決定的決策問題[10] 。因此,亟需開 發其自我學習和實時校準功能。近年來,相關的學 習技術提高了具有不確定性的機器人系統的容錯能 力和決策能力[10-12] 。另一方面,在任務執行過程 中,機器人期望保持穩定且高效的工作性能。因 此,它需要基于特定的控制方案和高效的網絡算法 以實時獲得合適的控制信號。這要求機器人系統具 備優越的容錯能力和可靠的控制精度,并在此基礎 上以人工智能的模式實現復雜多變的任務[13-14] 。 近年來,腦機接口技術[15] 、手術機器人[16] 、康復 機器人[17-18] 、多機器人集群[19] 等新興概念的發展 對機器人控制技術與應用提出了實時性、精確性、 穩定性、容錯性、魯棒性等多方面實際要求。隨后 出現了一系列先進的控制技術,如遠中心控制[20] 、 視覺伺服控制[21] 、模型預測控制[22] 、阻抗控制[23] 。 因此,探索機器人學習與運動控制相結合的新模式 是近年來國內外機器人研究的重點。 基于神經網絡的機器人學習與控制技術已成為 前沿科技之一,也是智能制造、智慧醫療和無人駕 駛領域中的重要瓶頸技術之一。近 30年來,相關 的研究成果顯著地提高了機器人系統的功能性、精 確性和智能性[24] 。機器人學習技術利用數據驅動 方法分析、預測和估計帶有不確定性的模型或策 略[25] ;機器人控制技術結合學習信息與控制算法 實現功能性運動規劃[26] 。在多源傳感器的協助下, 機器人系統可以收集、處理和開發數據,進而集成 數據庫,甚至搭建數據云[27] 。隨后,基于神經網絡 的機器人算法根據測量數據實現優化的學習與控制 過程。 神經網絡具備強大的擬合能力和并行處理能 力,可以被理解為機器人的“大腦” 。面向機器人學 習與控制的主流神經網絡方法包括神經動力學 (neuraldynamics,ND)方法[28-32] 、前饋神經網絡 (feedforwardneuralnetwork,FNN)方法[33-34] 、遞歸 神經網絡(recurrentneuralnetwork,RNN)方法[35-36] 和強化學習(reinforcementlearning,RL)方法[11,37] 。 ND方法通過構建常微分方程(ordinarydifferential equation,ODE)形式或對應的離散變體系統以求解 機器人學習與控制問題,并實現實時參數辨識[28-30] 和機器人控制[31-32] 。FNN方法屬于一種機器學習 算法,能夠通過更新權值逼近機器人系統的特定函 數,從而開發相應的數據驅動技術[33-34] 。與 FNN 方法不同,RNN方法的網絡節點之間可以構建循環 連接,允許一些節點的輸出影響其后續輸入,在機 器人學習領域有顯著的應用價值[35-36] 。值得注意 的是,ND方法和 RNN方法在結構上存在交集。當 ODE形式的計算網絡的輸入神經節點數大于或等 于 2時,該系統即屬于 RNN方法,也可被稱為 ND 方法[38] 。為了便于闡述,本文分別對 ND方法與 RNN方法進行單獨介紹。RL方法能夠解決機器人 與環境交互過程中的決策問題,并通過試錯的方式 實現機器人特定技能的學習[11,37] 。以上 4種機器 人學習算法均屬于人工智能算法的范疇[39] 。其主 要任務是開發智能信息處理應用,從而設計與人類 智能相似的機器人系統。在真實場景中,機器人的 交互過程產生的學習與控制問題通常需要多種技術 協同解決[40] 。這要求機器人系統通過傳感器獲取 大量的測量數據,進而驅動學習和控制過程。因此, 機器人學習與控制系統的發展必然伴隨著傳感器技 術、神經網絡方法、數學理論等重要技術的進步[41] 。 如圖 1所示,本文回顧了用于解決機器人學習 與控制問題的神經網絡方法以及相關應用,其中, 機器人學習包括機器人模型學習和機器人策略學習 兩個方面。相關的神經網絡方法被歸納為 ND方 法、FNN方法、RNN方法和 RL方法.

付費5元查看完整內容

相關內容

人工神經網絡(Artificial Neural Network,即ANN ),是20世紀80 年代以來人工智能領域興起的研究熱點。它從信息處理角度對人腦神經元網絡進行抽象, 建立某種簡單模型,按不同的連接方式組成不同的網絡。在工程與學術界也常直接簡稱為神經網絡或類神經網絡。神經網絡是一種運算模型,由大量的節點(或稱神經元)之間相互聯接構成。每個節點代表一種特定的輸出函數,稱為激勵函數(activation function)。每兩個節點間的連接都代表一個對于通過該連接信號的加權值,稱之為權重,這相當于人工神經網絡的記憶。網絡的輸出則依網絡的連接方式,權重值和激勵函數的不同而不同。而網絡自身通常都是對自然界某種算法或者函數的逼近,也可能是對一種邏輯策略的表達。 最近十多年來,人工神經網絡的研究工作不斷深入,已經取得了很大的進展,其在模式識別、智能機器人、自動控制、預測估計、生物、醫學、經濟等領域已成功地解決了許多現代計算機難以解決的實際問題,表現出了良好的智能特性。

深度學習有潛力革新體育表現,其應用范圍從感知和理解到決策。本文提供了深度學習在體育表現方面的全面調研,主要關注三個方面:算法、數據集和虛擬環境,以及挑戰。首先,我們討論了體育表現中深度學習算法的層級結構,包括感知、理解和決策,同時比較了它們的優勢和劣勢。其次,我們列舉了體育中廣泛使用的現有數據集,并強調了它們的特性和局限性。最后,我們總結了當前的挑戰,并指出了體育中深度學習的未來趨勢。我們的調研為對體育應用中的深度學習感興趣的研究者提供了寶貴的參考資料。

人工智能(AI)在體育世界中找到了廣泛的應用,并在未來大有前景。它不斷增長的參與定將以無數的方式革新這個行業,使效率和精確性達到新的高度。AI在體育中的一個重要應用是使用深度學習技術。具體來說,這些先進的算法被用于運動員表現分析、傷病預測、比賽策略制定等領域[1]。通過捕獲和處理大量的數據,深度學習模型可以預測結果,發現模式,并制定可能并不明顯的策略。深度學習與體育產業[2],[3]的無縫整合展示了科技如何提升我們優化體育表現和決策的能力。雖然預測和優化運動員的表現有許多優點,但這仍然是一個復雜的問題。傳統上,體育專家如教練、經理、偵查員和體育健康專業人員都依賴于常規的分析方法來應對這些挑戰。然而,收集統計數據和手動分析決策是一項要求高且耗時的工作[4]。因此,由機器學習驅動的自動化系統顯然是一個有前景的解決方案,它可以通過自動化處理大規模數據來革新體育產業。

近年來,探討機器學習和深度學習在體育表現中的應用的全面調研數量明顯增加。這些調研涵蓋了廣泛的主題,包括識別特定的體育運動[5]、挖掘體育數據[6],以及在團隊體育中使用AI技術[7]。雖然有些調研關注特定的體育項目,如足球[7]和羽毛球[8],但其他的則集中在計算機視覺的特定任務上,如視頻動作識別[9]、視頻動作質量評估[10]和球體追蹤[11]。此外,還有一些研究探索了可穿戴技術[12],[13]和運動捕捉系統[14]在體育中的使用,尤其強調物聯網(IoT)。之前的研究[15],[16]使用了分層方法來分析體育表現,從較低級別的方面開始,逐步提升到更高級別的組件,同時也提供了訓練建議。為了理解深度學習在體育中的應用,我們將其分為三個層次:感知、理解和決策。此外,我們根據特定的體育學科對不同的數據集進行了分類,并概述了與深度學習方法和數據集相關的主要挑戰。此外,我們還強調了基于現有工作的深度學習未來發展方向,這些工作是建立在基礎模型上的。

這篇關于深度學習在體育表現中的全面調研的貢獻可以總結為三個關鍵方面。

? 我們提出了一個系統地將深度學習任務劃分為三類的層級結構:感知、理解和決策,覆蓋了從低級到高級的任務。 ? 我們提供了體育數據集和虛擬環境的概述。同時,本文涵蓋了數十種體育場景,處理了視覺信息和物聯網傳感器數據。 ? 我們總結了當前的挑戰和未來在各種體育領域中深度學習可行的研究方向本文的組織結構如下:第二、三、四部分介紹了體育中的感知、理解和決策任務的不同方法。第五、六部分討論了與體育相關的數據集和虛擬環境。在第七、八部分,我們強調了體育中深度學習的當前挑戰和未來趨勢。最后,我們在第九部分結束了本文。

2. 感知

感知涉及到獲取數據的基本解讀。本節將展示針對感知層級特定體育任務定制的不同深度學習方法,如圖3所示。接下來的感知部分將包括諸如運動員追蹤、運動員姿態識別、運動員實例分割、球的定位、相機校準等任務。

III. 理解

理解可以定義為理解和分析數據的過程。相比于第二部分討論的感知階段,它涉及到更高級別的任務。為了全面理解體育,實現過程可以使用原始數據,并直接或間接地整合來自感知層的任務。也就是說,它可以利用從感知網絡得到的輸出,如人體骨骼,深度圖像等。

IV. 決策

體育中的決策或決策制定過程涉及到最高級別的任務,在產生更抽象的決策之前,部署或隱含的體育感知和理解是至關重要的。本節包括了各種任務,如比賽評估,比賽預測,比賽模擬,運動員動作生成,比賽生成等,如圖5所示。

在這篇論文中,我們對體育中的深度學習進行了全面的調研,主要關注四個方面:算法、數據集、挑戰和未來的工作。我們創新性地總結了分類,并將方法從低級到高級任務劃分為感知、理解和決策。在挑戰和未來的工作中,我們提供了前沿的方法,并對體育中深度學習的未來趨勢和挑戰提供了深入的見解。

付費5元查看完整內容

近年來,無人機因其小巧靈活、智能自主等特點被廣泛應用于民用 和軍事等領域中,特別是搜索偵察過程中首要的目標跟蹤任務。無人機 視覺目標跟蹤場景的復雜性和運動目標的多變性,使得目標特征提取及 模型建立困難,對目標跟蹤性能帶來巨大的挑戰。本文首先介紹了無人 機視覺目標跟蹤的研究現狀,梳理了經典和最新的目標跟蹤算法,特別 是基于相關濾波的跟蹤算法和基于深度學習的跟蹤算法,并對比了不同 算法的優缺點。其次,歸納了常用的目標跟蹤數據集和性能評價指標。 最后,展望了無人機視覺目標跟蹤算法的未來發展趨勢。

近年來,無人機憑借其體積小、動作靈活及易于 操控等特點,在民用、軍事以及科學研究等多個領域 得到越來越廣泛的應用,例如,惡劣環境下的電力線 路檢測、大氣環境檢測、搶險救災、偵察敵情、敵方 目標跟蹤、搜索戰場情報等[1-6] 。在無人機的諸多 任務類型中,無人機目標跟蹤有著重要的研究意義, 并逐漸成為目前無人機領域熱點研究方向之一[7-8] 。**無人機的目標跟蹤能夠通過多種方式來實現,比如,在跟蹤目標上綁定電子標簽或安裝 GPS追蹤 器來輔助跟蹤,但該類方法需要與目標進行近距離 接觸,在實際跟蹤任務中往往難以做到。**隨著計算 機視覺技術的飛速發展,基于視覺的無人機目標跟 蹤已成為最接近人類行為且最為直觀的跟蹤形式。 具體地,視覺目標跟蹤是指在給定某視頻初始幀中 感興趣區域(如人、車輛等)的情況下,對視頻中的 運動目標進行特征提取,根據提取到的目標特征來 預測未來時間幀中運動目標的位置和大小,從而完 成對目標的追蹤任務[9-11] 。

無人機視覺目標跟蹤與地面目標跟蹤相比,面 臨著 4個挑戰:1)由于空中視野廣闊,干擾物體數 量較多,目標與其他物體之間、目標與背景之間相 互干擾,可區分性差,導致目標模型的可辨識性和 排他性不高,建立精準的目標模型較困難。2)當 無人機飛行在一定高度時,圖像影幅變大,分辨率 和清晰度變低,地面上的待跟蹤目標尺度變得很 小,目標特征和紋理變得稀少,使得目標特征提取 困難,特征表示不顯著,導致目標檢測和跟蹤難度 變大。3)無人機在跟蹤過程中易受到風力等外界 因素的影響,導致相機抖動、視角變化、運動模糊 等現象頻繁,從而易產生跟蹤漂移和丟失的情況, 實現魯棒、穩定、長時的無人機目標跟蹤較為困 難。4)由于無人機自身結構特點,大多數無人機 僅有一個 CPU,計算資源有限,無法承受復雜度太 高的運算,如何在保證精度的情況下開發復雜度低 的跟蹤算法是極具挑戰的。隨著無人機技術的發展 和計算機信息處理能力的提升,盡管無人機視覺目 標跟蹤算法有了突破性進展,但由于上述難點的存 在,無人機視覺目標跟蹤算法仍有很大的發展空間。 視覺目標跟蹤方法主要分為生成類跟蹤方 法[12-13] 和判別類跟蹤方法[14-16] 。生成類跟蹤方法 通常忽略背景信息的影響且假設目標外觀在一定時 間內保持不變,故該方法無法處理和適應復雜的跟 蹤變化。判別類跟蹤方法,尤其是基于相關濾波和 基于深度學習的算法,在一定程度上解決了樣本不 足的問題,且能夠提取目標中更多有用信息,顯著 提高目標跟蹤準確率和速度。判別類跟蹤算法出現 之后,經典的生成類跟蹤算法逐漸淡出,其主要原 因是因為這些算法無法適應復雜多變的跟蹤場景, 其魯棒性和準確性被前沿算法所超越。然而,由于 上述目標跟蹤挑戰的存在,判別類跟蹤算法仍存在 一些不足。為了構建一個更精準、更高效且更魯棒 的通用跟蹤器,未來研究應重點關注高效的在線訓 練和失跟后的重新檢測機制,提高目標被完全遮擋 后的跟蹤效果,同時,應關注如何引入遷移學習和 對抗學習等前沿方法來提高特征提取有效性,提高 算法對低分辨率的小目標的跟蹤性能,從而應用于 機載無人機來完成實時跟蹤任務。文[1]重點對無 人機目標跟蹤算法的共同框架進行了詳細描述,分 析了現有技術的不足,并提出了目標跟蹤未來的發 展方向。文[16]系統地介紹了基于生成類和判別 類的視覺目標跟蹤算法,但未涉及目標跟蹤效果的 相關評估標準,且未對無人機空中監視場景中的難 點進行分析。為使相關研究人員對無人機視覺目標 跟蹤領域的研究有更加清晰深入的了解,本文結合 無人機自身結構特點,首先對應用于無人機領域的 目標跟蹤算法進行了梳理總結,分析了各算法的核 心思想及優缺點。其次,考慮到跟蹤算法在無人機 平臺上的應用前景,重點對基于相關濾波的跟蹤算 法和基于深度學習的跟蹤算法進行了詳細介紹,闡 述了各算法的特點和貢獻,并對比了各算法的跟蹤 效果,圖 1為兩類目標跟蹤算法的分類框架圖,圖 中所涉及的算法縮寫及其全稱如表 1所示。接著, 歸納了無人機目標跟蹤領域的跟蹤數據集和跟蹤性 能評價標準。最后,對全文進行了總結,并對無人 機視覺目標跟蹤的發展方向進行了展望。

付費5元查看完整內容

無人車(UGV)可替代人類自主地執行民用和軍事任務,對未來智能 交通及陸軍裝備發展有重要戰略意義。隨著人工智能技術的日益成熟, 采用強化學習技術成為了無人車智能決策領域最受關注的發展趨勢之 一。本文首先簡要概述了強化學習的發展歷程、基礎原理和核心算法;隨后,分析總結了強化學習在無人車智能決策中的研究進展,包括障礙 物規避、變道與超車、車道保持和道路交叉口通行四種典型場景;最后, 針對基于強化學習的智能決策面臨的問題和挑戰,探討并展望了未來的 研究工作與潛在的研究方向。

1. 引言

無人車是指不具有人類駕駛機構并可以自主執 行運輸、公交、物流、清掃、巡邏、救援、作戰、偵 察等民用或軍用任務的智能車輛。在民用領域,無 人車已成為未來智能交通與智慧城市建設的核心要素。在軍用領域,無人車也已成為各軍事大國競相 角逐的新一代陸軍裝備。無人車的核心技術主要有 環境感知、智能決策、路徑規劃、動力學控制、集 群調度等相關技術。其中,智能決策是無人車的關 鍵核心技術之一,其性能是衡量無人車智能化水平 的重要標準。智能決策系統根據任務調度信息、環 境感知信息和無人車狀態信息等,做出合理、安全 的駕駛決策,并輸出車輛控制指令,以控制車輛完 成指定任務。 無人車智能決策系統的算法主要包含規則驅 動[1-2] 和數據驅動兩類算法[3-4] 。由規則驅動的決 策系統基于既定規則構建,其根據人類駕駛經驗及 交通規則等建立相應的駕駛行為決策庫,結合感知 系統得到的環境信息進行車輛狀態的劃分,依據預 設的規則邏輯確認車輛行為[5] 。這類基于規則的 決策系統無法枚舉和覆蓋所有交通場景,且在交通 復雜、不確定性強的路況中,常因規則數目冗雜和 行為決策庫觸發條件的重疊而導致決策無法求解、 決策系統的自適應性和魯棒性不足等問題。基于強 化學習的決策方法是數據驅動的無人車決策系統的 代表,該方法將無人車決策過程視為黑箱,利用機 器學習建立由傳感器到轉向系統、驅動系統、制動 系統等執行機構的映射,實現基于高維度感知數據 對執行機構的直接控制。這類決策算法把整個自動 駕駛過程與神經網絡深度融合,通過由數據驅動的 仿真訓練使神經網絡學習在不同交通場景下的智能 決策能力。

強化學習技術是人工智能領域的研究熱點,適 用于 解 決 復 雜 的 序 貫 決 策 問 題,在 機 器 人 控 制[6-7] 、調度優化[8-9] 、多智能體協同[10-11] 等領域 中,取得了令人矚目的成果。強化學習的基本思路 是智能體依靠探索試錯以及環境交互的方式,結合 反饋信號學習最優策略。近些年,隨著強化學習的 廣泛研究和應用,特別是綜合了深度學習的特征提 取能力和強化學習的策略優化能力的深度強化學習 (deepreinforcementlearning,DRL)取得突破性進展 之后,采用強化學習技術解決無人車智能決策問題 成為無人車領域最受關注的研究方向之一。

本文旨在綜述強化學習在無人車領域的應用。首先介紹了強化學習的發展歷史、基礎原理和核心 算法;然后分析總結了強化學習在無人車智能決策 問題中的研究現狀,包括避障、變道與超車、車道 保持及道路交叉口通行四個典型的決策場景;最后 探討并展望了未來的研究工作和潛在的研究方向。

1 強化學習的基本理論

強化學習是動物心理學、最優控制理論和時序 差分學習等學科交叉的產物[12] 。強化學習的“試 錯”思想源于動物心理學家對試錯行為的研究,最 早可追溯到 Pavlov的條件反射實驗。1911年美國 心理學家 Thorndike提出效應定律,第一次明確地 闡述了試錯行為的本質是學習。最優控制理論,是 現代控制體系的關鍵分支之一。在 20世紀 50年代 初,美國數學家 Bellman等提出求解最優控制的動 態規劃法(dynamicprogramming,DP),該方法衍生 出了強化學習試錯迭代求解的機制。時序差分學習 (temporaldifferencelearning,TDL)是 DP和蒙特卡 洛方法結合的產物。1959年 Samuel首次提出并實 現一個包含時序差分思想的學習算法。1989年 Watkins在他的博士論文將最優控制和 TDL整合, 并提出 Q學習算法,這項工作正式標志著強化學習 的誕生,該算法通過優化累積未來獎勵信號學習最 優策略。隨后,Watkins和 Dayan共同證明 Q學習 算法的收斂性。表 1總結了強化學習發展歷程中的 若干重要事件。

2 強化學習在自動駕駛領域的應用

2.1 在避障問題中的應用

在避障問題中無人車根據自車和障礙物的位置 和狀態信息,在滿足乘坐舒適性和行駛安全性的條 件下,輸出轉向、制動和油門指令控制車輛規避障 礙物。 Arvind等[22-23]提出基于 MLPSARSA和基于 MLPQ學習的避障算法。設計了以車載的 7個超 聲波雷達的感知數據為輸入量,輸出離散的制動、 轉向和加速動作的端對端決策模型,將多層感知機 (multilayerperceptron,MLP)引入到對 Q函數的預 測中,以提高避障策略的收斂速度。車輛在包含多 個動態障礙物的仿真環境下實現自主避障,且無碰 撞通行的成功率達 96%。 Chae等[24] 提出復雜城市場景下基于 DQN的主 動制動算法,如圖 4所示。使用 6層的深度神經網 絡架構,采用障礙物相對于主車的橫向和縱向的位 置和速度作為 DQN網絡輸入,輸出無制動、弱制 動、中制動和強制動四個不同強度等級的制動動 作。在獎勵函數的設計中,考慮車輛的乘坐舒適性 和安全性,對過早的制動行為和與障礙物發生碰撞 進行懲罰。經過 2000次的迭代訓練,無人車能有 效地處理行人橫穿馬路等隨機突發事件,但面對碰 撞時間(timetocollision,TTC)等于 1.4s的緊急工 況僅有 74%的避障成功率。

雖然上述基于值函數的避障算法通過將動作離 散化取得較好的避障效果,但在執行動作的精度和 緊急情況下的避障成功率上仍然有待提高。部分學 者考慮將用于高維連續空間的基于策略的強化學習 方法應用于避障問題中。 Zong等[25-26] 設計基于 DDPG的避障算法,策 略網絡以車載的多類型傳感器融合感知數據作為狀 態輸入,輸出動作空間連續的轉向、油門、制動動 作。相比于文[24],該算法解決了連續動作空間下 避障決策所引發的維數災難,實現動作空間連續的 車輛動作輸出,提高了決策模型輸出動作的精度。 Porav等[27] 在研究中運用變分自編碼器(varia tionalautoencoder,VAE)對障礙物特征降維,將高 維語義圖像映射到低維且保留原始語義信息的隱變 量,將低維的隱變量及其預測狀態作為 DDPG網絡 輸入,有效剔除了環境無關因素對決策的影響,并 提高了決策模型訓練收斂速度。此外,作者建立基 于 DeltaV模型的獎勵函數,利用碰撞前后車輛速 度差值衡量車輛碰撞的嚴重程度,以量化危險駕駛 行為的懲罰。相比于文[24],該算法在 TTC為 1s 和 0.75s的極端緊急情況,仍能保持 100%和 95% 的避障成功率。

Fu等[28] 詳細分析了車輛在緊急情況下的制動 過程和乘坐舒適性變化,提出包含多目標獎勵函數 的 DDPG算法,可綜合衡量制動觸發時刻、事故嚴 重程度和乘坐舒適度等指標。在仿真試驗中,所提 出算法在緊急情況下避障成功率相較于基于 DDPG 和 DQN的避障算法分別提高 4%和 12%。 余伶俐等[29] 針對無人車在避障過程中對周圍 車輛駕駛意圖預判不足的問題,設計了基于蒙特卡 洛預測—深度確定性策略梯度(MCPDDPG)的決策 方法。該方法假設車輛狀態的轉移滿足馬爾可夫 性,將周圍車輛的位置和速度作為觀測方程參數, 利用 MCP預測其他車輛的運動軌跡,有效地提高 決策模型在緊急情況下的響應時間。實車試驗證明 該決策方法能夠有效預估碰撞風險,降低無人車發 生碰撞的概率。 基于強化學習的方法雖然可通過增加避障場景 庫的廣度,以盡可能多地覆蓋各種復雜避障工況。 但當面臨 TTC過小等臨近碰撞的極端工況,決策模 型的穩定性和安全性亟待提高。

2.2 在變道與超車問題中的應用

在變道與超車問題中,無人車根據自車和周圍 車輛狀態、自車的期望速度和交通規則約束等,做出變道及超車決策,指導車輛超越前方低速車輛, 以盡快地通過特定的交通流。 Loiacono等[30] 提出基于 Q學習的超車決策算 法,建立了包含主車和前方車輛相對距離、相對速 度,主車和車道邊緣橫向距離等在內的離散狀態, 并以 有 限 的 離 散 動 作 驅 動 車 輛 完 成 超 車。在 TORCS賽車模擬器中驗證了該算法在直線賽道和 彎道上的超車效果,在超車持續時間、超車時最高 車速和超車成功率等指標上明顯優于人類駕駛員。 針對求解連續空間下超車決策問題時 Q學習 存在的計算效率低的問題。Liu等[31-32]提出基于 線性函數逼近強化學習的變道決策算法。作者將變 道場景建立為狀態、動作空間連續的 MDP模型,將 基于多核的最小二乘策略迭代法(multikernelLSPI, MKLSPI)引入對 Q函數的擬合中,并基于國防科技 大學研制的紅旗 HQ3無人車采集的實車感知數據, 對決策算法開展離線測試工作,論證了算法的有效 性和泛化能力。Min等[33]利用非線性值函數逼近 的方法,提出基于 DuelingDQN的超車決策算法, 構建以卷積神經網絡(convolutionalneuralnetworks, CNN)和長短期記憶網絡(Longshorttermmemory, LSTM)提取的視覺圖像和雷達點云的特征作為狀態 輸入,輸出橫向的變道操作及縱向的車速變化的決 策模型。該算法改進 DQN網絡結構,利用 DNN輸 出的狀態值函數和動作優勢函數近似擬合 Q函數, 提高了策略學習的收斂速度。 An等[34] 提出車聯網環境下基于 DDPG的變道 決策算法,網絡結構如圖 5所示。該算法策略網絡 輸入包含兩部分,分別為由車載傳感器獲得的主車 狀態信息和由 V2X通信獲得的前方車輛狀態信息, 并通過 2個全連接的隱藏層輸出對主車油門和方向 盤的控制。在 Airsim軟件中的仿真實驗驗證該算 法的有效性,但由于輸入層網絡結構固定,其僅能 處理 2個車輛交互這種簡單場景,缺少對更為復雜 交通場景的適應性。

針對文[34]無法處理無人車在復雜的包含多 車交互場景下變道的問題。Wolf等[35]提出一種基 于通用語義狀態模型的超車決策算法。該算法將駕 駛場景抽象映射到一個包含交通參與者列表(車 輛、行人、車道等)并疊加場景關系描述(交通參與 者相對于主車的速度、位置、相對車道信息等)的 跨場景、通用的語義狀態模型,實時地輸入到基于 DQN的決策模型中。在 SUMO仿真環境中,該算 法可處理存在 7輛交互車輛場景下的超車決策問題。Huegle等[36-37]提 出 基 于 DeepSetQ 學 習 和 Set2SetQ學習的超車決策算法。作者分別利用深 度集(deepsets,DS)和圖卷積網絡(graphconvolu tionalnetwork,GCN)提取無人車感知域內多車的狀 態特征,作為 DQN網絡輸入,解決了基于 DQN的 決策算法因網絡結構固定,無法處理數量可變的狀 態輸入的問題,提高超車決策算法在不同交通密度 場景應用的可移植性。

在變道與超車場景中,復雜的環境狀態和車輛 動作空間,以及多車間的交互行為,導致訓練過程 中策略難以收斂。有學者將分層思想和模仿學習 (imitationlearning,IL)引入到基于強化學習的決策 算法中。 Duan等[38] 提出高速公路場景下基于分層強化 學習(hierarchicalreinforcementlearning,HRL)的變 道決策算法,算法框架如圖 6所示。決策網絡包括 主策略和子策略兩層,分別用于高層行為決策(車 道內駕駛、左/右車道變換)和底層運動控制(方向 盤轉角、車輛速度等控制)。HRL將復雜的變道決 策任務分解為若干個簡單的子任務,在不發生維數 災難的情況下實現多任務學習,提高決策算法場景 遍歷的廣度。此外,受啟發于 A3C算法多線程并 行的訓練方式,作者利用異步并行訓練的網絡參數 的平均梯度更新共享網絡參數,以加快 HRL訓練 速度。 宋曉琳等[39] 提出 IL和強化學習結合的決策算 法,將變道決策劃分為宏觀決策層和細化決策層。 宏觀決策層中,作者基于專家變道決策的示范數據 集構建極端梯度提升(eXtremeGradientBoosting, XGBoost)模型,模仿經驗豐富的專家駕駛員做出宏 觀決策。細化決策層中,作者構造多個基于 DDPG 算法的子模塊,分別處理車道保持、左變道和右變道中具體執行的動作。在 Prescan軟件中的仿真訓 練,所提出方法策略收斂所需的步數較基于強化學 習的方法降低約 32%。Liang等[40] 提出基于可控模 仿 強 化 學 習 (controllable imitative reinforcement learning,CIRL)的變道決策算法。首先利用引入門 控機制的 IL網絡學習專家提供的駕駛示范集,通 過網絡權重共享的方式將預訓練結果遷移到 DDPG 決策模型中,以初始化 DDPG動作探索策略,解決 了連續動作空間下 DDPG算法探索效率低、對超參 數敏感的問題。

針對變道與超車過程中未知和不確定性因素對 無人車安全性的影響。Zhang等[41] 考慮前車異常駕 駛行為對超車安全性的影響,將模糊推理系統 (fuzzyinferencesystem,FIS)引入到變道決策中。 其主要思想是基于車載激光雷達獲得的前方車輛的 位置、速度和航向角,利用 FIS分析前方車輛的駕 駛激進度,進而判斷超車風險類型,以指導基于強 化學習的決策算法采取保守或激進的超車策略。 Althoff等[42-43] 考慮周圍車輛駕駛意圖未知、感知 系統觀測不完整、傳感器的擾動與噪音等不確定因 素,提出基于安全強化學習的變道決策算法。運 用可達性分析(reachabilityanalysis,RA)[44-46] 預測 周圍車輛在滿足物理約束和交通規則下,在設定時 間內所有可能的可達集,通過判斷無人車和其他車 輛的可達集是否存在交集,來驗證變道決策的安 全性。 從上文綜述可知,基于強化學習的決策算法在 處理動態多車交互、策略收斂速度、決策安全性方 面有較大的局限性,且難以從強化學習模型本身加 以改進。與安全驗證、行為分析及其他機器學習方 法相結合,可顯著地提高基于強化學習的變道和超車決策算法的性能。

2.3 在車道保持問題中的應用

在車道保持問題中,無人車根據車載傳感器獲 得的車道線信息,輸出車輛方向盤轉角控制指令, 以使車輛在車道中心線附近行駛。 視覺感知是檢測車道線的最有效手段。方 川[47] 提出基于 DoubleDQN的車道保持算法,以原 始的 RGB圖像作為網絡輸入,分別利用當前 Q網 絡和目標 Q網絡處理方向盤控制動作選擇和目標 Q 函數預測。在仿真試驗中,車輛在直線車道及大曲 率彎道的車道保持任務中均表現出良好的性能。 Kendall等[48]提出視覺感知數據輸入下基于 DDPG 的車道保持算法(如圖 7),并將在虛擬環境中訓練 好的算法網絡結構和參數遷移到實車上,車輛僅依 靠單目相機的 RGB圖像完成了 250m的車道保持 路測。然而該方法忽略視覺傳感器抗干擾能力差、 易受光照影響等缺點,且決策模型場景遍歷的深度 不足,難以完成特殊天氣條件下的車道保持任務。

原始視覺圖像包含大量與決策無關的環境細 節,而細微的環境變化易導致決策模型錯誤,進而 引發車輛駛出車道等危險駕駛行為。針對此問題, Wolf[49] 利用機器視覺剔除無關環境信息,提取車道 線的灰度化圖像,構建由灰度化的視覺圖像到車輛 方向盤的端對端決策,降低細微的環境亮度變化及 無關環境細節對決策模型的影響。并利用經驗回放 機制降低訓練樣本的相關性,以減輕 DQN算法處 理高維圖像數據時存在的不穩定性。 視覺感知缺少車輛與道路邊緣的距離信息,而 其他具有目標距離測量功能的傳感器對提取車道線 信息具有重要的補充作用。楊順等[50]研究了多源 感知數據輸入下基于 DDPG的車道保持算法,如圖 8所示。策略網絡分別利用一維和二維 CNN提取低 維目標級感知數據和高維視覺圖像數據的特征,并 輸出每一時間步長內車輛的動作,價值網絡根據策 略網絡提取的低維特征和輸出的車輛動作預測 Q 函數。作者構建包含期望車速、車輛偏離中心距 離、車輛與車道中心線的夾角在內的獎勵函數,指導車輛與環境交互。在直線車道和彎道下的仿真實 驗中,車輛的橫向偏移量和車輛與車道中心線的夾 角均保持在理想的范圍內。作者利用不同 CNN對 多類型傳感器數據進行特征提取,并通過特征組合 的方式,解決了視覺傳感器獲取車道線信息不完 備、信息冗余性差的問題。

基于強化學習的車道保持算法具有重大的應用 潛力,但是視覺傳感器作為主要的車道線檢測手 段,其感知圖像包含豐富的環境細節,且圖像細節 隨光照、天氣等環境因素顯著變化,給決策模型的 穩定性和泛化能力帶來巨大的影響。引入能穩定地 在復雜多變環境下提取車道線特征的方法,并有效 地利用和融合其他類型傳感器數據,對提高決策性 能有著重要意義。

2.4 在道路交叉口通行問題中的應用

在道路交叉口通行問題中,無人車根據交叉口 各車道上車輛位置、速度及交通規則等,輸出執行 機構控制指令,以控制車輛無碰撞地通過交叉口。 無交通信號燈的交叉口通行是最具挑戰性的交 通場景,學者們對基于強化學習的通行決策方法進 行大量研究。Saxena等[51]設計基于近端策略優化 (proximalpolicyoptimization,PPO)的通行決策算 法。作者利用由數據驅動的仿真訓練建立交叉口中 無人車周圍車輛間交互的隱式模型,并通過設置車 輛的加速度和轉向角度閾值,減少不良的加速和轉 向動作,提高乘坐舒適性。Qiao等[52]提出課程式 學習(curriculumlearning,CL)和 DRL結合的交叉 口決策算法。作者利用 CL自動生成若干由簡單到 復雜的樣本,引導 DRL學習駛入并通過城市交叉路口的策略,仿真實驗中通過交叉口的成功率達 98.7%。 Müller等[53]提出基于視覺場景理解的決策算 法,引入編碼器—解碼器網絡來提取 RGB視覺圖 像更細化的語義特征,實現原始圖像到多場景通用 的語義分割圖像的映射,將語義圖像作為決策模型 輸入,輸出車輛期望的軌跡。其后,作者將訓練好 的決策模型遷移至小型卡車上,車輛可在多個駕駛 場景(晴朗、陰天、雨雪)自主地通過交叉路口。該 方法通過模塊化和抽象語義分割的方法降低真實場 景傳感器噪聲等對決策的影響,提高決策算法的遷 移能力。 無交通信號燈的交叉口中車輛缺少交通規則約 束。無人車無法獲悉其他車輛的駕駛意圖,因而無 法預判其行駛軌跡,且因車輛間的相互遮擋易造成 無人車的感知盲區,給決策的安全性帶來巨大隱 患。Isele等[54-55]利用卡爾曼濾波 (Kalmanfilte ring,KF)預測可能與無人車發生碰撞車輛的行駛 軌跡,并根據預測結果約束 DQN決策算法的動作 空間,提高車輛在交叉口通行的安全裕度。Gruber 等[56] 設計基于 RA的在線安全驗證方法,利用 RA 建立其他車輛未來時間在交叉口所有可達集,以驗 證決策的安全性。其后,Lauer等[57]提出基于 RA和責任敏感安全模型(responsibilitysensitivesafety, RSS)的驗證方法,解決了 RA因考慮最危險情況下 周圍車輛的占用空間而導致的無人車在交叉口駕駛 策略過度保守的問題。Stiller等[58] 提出一種風險認 知 DQN的交叉口決策算法,在獎勵函數中引入風 險項度量感知盲區內的車輛對決策安全性的程度, 減少無人車采取冒進決策行為的概率。 無交通信號燈的交叉口的復雜程度高,且事故 風險隱患多,給無人車決策的安全性帶來巨大挑 戰。基于強化學習的決策模型無法有效預估事故風 險,結合行駛軌跡預測、安全性驗證等方法對提高 決策安全性具有重要意義。

3 強化學習在無人車領域的應用展望

無人車可自主執行運輸、物流、清掃、巡邏、 救援、作戰、偵察等民用或軍用任務,是未來智能 交通與新一代陸軍裝備發展的核心要素,對汽車產 業發展與國防安全建設具有重要意義。面向未來無 人車技術發展需求,高效、準確、穩定的智能決策 技術已經成為限制無人車行業水平提升與大規模產 業應用的關鍵技術瓶頸。強化學習技術是實現無人 車智能決策技術水平提升的最重要突破口之一。但 是,基于強化學習的智能決策存在泛化能力弱、可 解釋性差,缺少安全驗證等問題,限制了其在實車 上的應用。此外,云控制、車聯網及大數據等先進 技術在無人車領域的應用極大程度拓寬了強化學習 技術的應用內涵,帶來了全新的挑戰與不確定性。 下面指出未來強化學習技術在無人車領域的研究 重點:

1)提高強化學習在無人車決策上的泛化能力當前研究多利用強化學習構建從無人車的傳感 器到執行機構的端對端決策。而以復雜高維的圖 像、雷達點云等原始感知數據作為決策模型的輸 入,使得表征環境狀態的特征維度過多,導致決策 模型過擬合于特定的訓練環境,難以遷移至新的駕 駛場景。此外,模型訓練中常忽略光照變化、背景 干擾等敏感環境細節以及傳感器噪音和自身擾動的 影響,使得訓練好的決策模型需要人工調參后才能 遷移到實車上。提高強化學習在無人車決策上的泛 化能力,已經成為其在無人車應用亟需解決的關鍵 問題之一。為突破決策算法在新場景中泛化能力弱 的瓶頸:(1)可借鑒虛擬到現實(Sim2Real)領域的 研究成果,利用領域自適 應 (domainadaptation, DA)等方法將虛擬訓練環境映射到真實行駛環境[59] ,以在訓練過程中最大限度地模擬無人車與 真實場景的交互過程。(2)從原始感知數據中提取 或抽象出面向通用場景的低維環境狀態表征,替代 復雜高維的原始數據作為決策模型的輸入[60] ,可 以降低決策模型精度對行駛環境的依賴性。

2)提升強化學習在無人車決策上的可解釋性

當前研究多利用基于復雜深度神經網絡的深度 強化學習學習駕駛策略。而訓練好的決策模型因其 復雜的網略結構及龐大的網略參數,導致人們難以 理解模型內部的決策過程。在決策模型出現偏差和 故障時,難以對錯誤源頭進行排查和分析。提高強 化學習在無人車決策上的可解釋性,已成為提高其 決策合理性與安全性的關鍵挑戰之一。為解決決策 算法的內部運行機制可解釋性差的弱點:(1)利用 概率圖模型(probabilisticgraphicalmodel,PGM)深 度綜合表征無人車行駛環境、行駛軌跡、交通參與 者等的時序特征,并將高度可解釋化的隱含狀態作 為模型輸入[61-63] ,可顯著地提高模型的可解釋性。 (2)利用神經網絡可視化技術以熱力圖的形式表征 決策模型內部每一層的權重參數、特征圖等,以實 現模型決策過程的透明化[64] 。(3)也可借鑒機器人 領域的最新進展,根據人類經驗將復雜的作業任務 分解為若干子任務,決策模型輸出子任務的序貫組 合,以組合的順序表征無人車決策的合理性[65] ,也 是值得深入探討的話題。

3)提高強化學習在無人車決策上的安全性

當前研究多圍繞感知完備等理想工況下的決策 任務,且對車輛行駛中的不確定性因素考慮不足。 而強化學習通過探索試錯的機制學習駕駛策略,其 隨機性的探索策略常導致不安全的駕駛行為,給決 策模型帶來潛在的安全風險。此外,無人車行駛環 境具有高度的不確定性,具體表現為周圍車輛行駛 意圖和駕駛風格的不確定性,因遮擋和感知盲區造 成的感知不完整性等,給決策模型的安全性帶來巨 大挑戰。提高強化學習在無人車決策上的安全性, 已經成為其在無人車應用亟需解決的重要技術瓶頸 之一。為提高決策算法在復雜動態場景下決策的安 全性:(1)可通過在獎勵函數中引入風險項[66] ,在 動作探索策略中引入安全約束[67] ,在動作執行中 引入安全驗證[68]等方法,降低決策模型做出激進 和危險決策的概率。(2)利用部分可觀測 MDP (partiallyobservableMDP,POMDP)將環境的不確 定性因素作為隱變量[69] ,實現環境不完全觀測下 周圍車輛的軌跡預測,可有效地提高車輛感知能力受限下決策的安全性。(3)利用基于嚴格數學定義 的形式驗證精確求解當前狀態下無人車在預定時間 內不安全狀態的可達范圍[70] ,驗證其決策行為的 安全性,以保證系統安全驗證的完備性。

4)研究無人車大數據背景下基于強化學習的

云端決策技術 基于云控制、車聯網、大數據等先進技術的云 控系統(cloudcontrolsystem,CCS)[71]在無人車領 域的應用為無人車產業化落地提供重要的技術支 撐,CCS擴大了無人車的感知域,并提供強大的算 力支持,實現無人車綜合性能的顯著提升。此外, CCS可實時地獲取并存儲各無人車的硬件和軟件系 統海量的運行數據,并基于大數據分析建立云端的 無人車性能預測模型、故障預警模型、交通流量預 測模型、車輛集群調度模型等[72-73] ,以提高無人 車群體的安全性和效率。CCS在無人車中的應用是 未來無人車發展的重要趨勢[74] ,并極大地豐富了 強化學習在無人車領域的應用場景。研究無人車大 數據背景下,云端決策系統利用強化學習技術,結 合多源的時空感知數據和云端的交通流量、車輛性 能等大數據預測結果,實現面向群體及單車層級的 決策,將是非常有意義的工作。

4 結論

本文綜述了強化學習技術在無人車領域的研究 現狀,重點介紹了基于強化學習技術的無人車智能 決策在避障、變道與超車、車道保持等典型場景下 的應用。其次,展望了強化學習技術在無人車領域 的應用前景。筆者看來,強化學習技術將極大程度 地提高無人車的智能決策能力,是實現無人車規模 化產業應用并服務于智能交通系統建設和新一代陸 軍裝備發展的重要支撐。

付費5元查看完整內容

視覺目標檢測旨在定位和識別圖像中存在的物體,屬于計算機視覺領域的經典任務之一,也是許多計算機視覺任務的前提與基礎,在自動駕駛、視頻監控等領域具有重要的應用價值,受到研究人員的廣泛關注。隨著深度學習技術的飛速發展,目標檢測取得了巨大的進展。首先,本文總結了深度目標檢測在訓練和測試過程中的基本流程。訓練階段包括數據預處理、檢測網絡、標簽分配與損失函數計算等過程,測試階段使用經過訓練的檢測器生成檢測結果并對檢測結果進行后處理。然后,回顧基于單目相機的視覺目標檢測方法,主要包括基于錨點框的方法、無錨點框的方法和端到端預測的方法等。同時,總結了目標檢測中一些常見的子模塊設計方法。在基于單目相機的視覺目標檢測方法之后,介紹了基于雙目相機的視覺目標檢測方法。在此基礎上,分別對比了單目目標檢測和雙目目標檢測的國內外研究進展情況,并展望了視覺目標檢測技術發展趨勢。通過總結和分析,希望能夠為相關研究人員進行視覺目標檢測相關研究提供參考。

視覺目標檢測是計算機視覺的經典任務,旨在 定位圖像中存在物體的位置并識別物體的具體類 別。 目標檢測是許多計算機視覺任務及相關應用的 基礎與前提,直接決定相關視覺任務及應用的性能 好壞。 因此,視覺目標檢測技術受到了學術界、工業 界等各領域、乃至世界各國政府的廣泛關注。 在學 術界,目標檢測一直是各大計算機視覺會議及期刊 的研究熱點之一,每年有大量的目標檢測相關論文 發表。 根據谷歌學術顯示,研究人員近 10 年來在目 標檢測方面發表論文 15 000 余篇。 在工業界,國內 外科技巨頭(如谷歌、臉書、華為和百度等)、初創公 司(如商湯、曠視等)紛紛在目標檢測相關領域投入 大量人力財力。 與此同時,目標檢測技術是新一代 人工智能的重要共性關鍵技術,世界各國競相競爭。

在過去的幾十年中,目標檢測經歷了基于手工 設計特征的方法到基于深度特征的方法等不同發展 階段。 早期,目標檢測方法通常采用手工設計特征 加淺層分類器的技術路線,例如支持向量機(support vector machines,SVM) 和 AdaBoost 等,涌現了包括 Haar 特征(Viola 和 Jones,2004)、方向梯度直方圖 (histograms of oriented gradients,HOG) 特征( Dalal 和 Triggs,2005)等一系列經典的目標檢測特征描述 子。 2012 年以來,深度學習技術取得了飛速的發 展,并行計算資源不斷迭代更新,大規模數據庫及評 測標準相繼構建與公開。 基于上述技術、算力和數 據的鋪墊,視覺目標檢測開始在精度與效率等方面 取得了顯著的進展,先后涌現出區域卷積神經網絡 (region-based convolutional neural network,R-CNN) (Girshick 等,2014)、SSD( single shot detector) ( Liu 等,2016)、YOLO( you only look once) (Redmon 等, 2016)、 DETR ( detection transformer ) ( Carion 等, 2020)等一系列經典的研究工作。 相比于傳統手工 設計特征的方法,基于深度學習的方法避免了煩瑣 的手工設計過程,能夠自動學習更具有區分力的深 度特征。 與此同時,基于深度學習的方法將特征提 取和分類器學習統一在一個框架中,能夠進行端到 端的學習。

隨著技術的不斷發展與成熟,深度目標檢測技 術開始在實際應用中發揮重要作用。 近些年,國內外涌現了一批以目標檢測等視覺技術為核心技術的 科技創業公司,如曠視科技、商湯科技等。 同時,視 覺目標檢測是自動駕駛汽車環境感知重要的內容之 一,以特斯拉為代表的一批科技公司甚至采用純視 覺目標感知的技術路線開展自動駕駛研究。 盡管目 標檢測技術已經開始走向實際應用,但是當前目標 檢測的性能仍然無法到達人類視覺的性能,存在巨 大改進與提升的空間。 鑒于基于深度學習的目標檢測技術在學術界和 產業界取得了巨大成功,本文對基于深度學習的視 覺目標檢測技術進行了系統的總結和分析,包括國 內外研究現狀以及未來的發展趨勢等。 根據視覺目 標檢測采用視覺傳感器的數量不同,將視覺目標檢 測分為兩類:基于單目相機的視覺目標檢測和基于 雙目相機的視覺目標檢測。 相比于單目相機,雙目 相機能夠提供 3 維信息。 因此,基于雙目相機的視 覺目標檢測能夠提供精準的目標 3 維信息,在自動 駕駛等領域能夠更好地滿足應用需求。

首先介紹目標檢測的基本流程,包括訓練和測 試過程。 接著,系統地總結和分析單目視覺目標檢 測。 然后,介紹雙目視覺目標檢測。 最終,對比國內 外發展現狀,并對發展趨勢進行展望。

付費5元查看完整內容

摘要

近年來,深度學習在計算機視覺各個領域中的應用成效顯著,新的深度學習方法和深度神經網絡模型不斷涌現,算法性能被不斷刷新。本文著眼于2016年以來的一些典型網絡和模型,對基于深度學習的計算機視覺研究新進展進行綜述。首先總結了針對圖像分類的主流深度神經網絡模型,包括標準模型及輕量化模型等;然后總結了針對不同計算機視覺領域的主流方法和模型,包括目標檢測、圖像分割和圖像超分辨率等;最后總結了深度神經網絡搜索方法。

關鍵詞

深度學習; 目標檢測; 圖像分割; 超分辨率; 計算機視覺

引 言

近20年來,隨著深度學習技術的迅猛發展和圖形處理器(Graphics processing unit, GPU)等硬件計算設備的廣泛普及,深度學習技術幾乎已經應用到計算機視覺的各個領域,如目標檢測、圖像分割、超分辨率重建及人臉識別等,并在圖像搜索、自動駕駛、用戶行為分析、文字識別、虛擬現實和激光雷達等產品中具有不可估量的商業價值和廣闊的應用前景[1]。基于深度學習技術的計算機視覺同時可以對其他學科領域產生深遠的影響,如在計算機圖形學中的動畫仿真和實時渲染技術、材料領域的顯微圖像分析技術、醫學圖像分析處理技術、實時評估師生課堂表現和考場行為的智慧教育、分析運動員比賽表現和技術統計的智能系統等。

深度學習早在1986年就被Dechter[2]引入機器學習領域,2000年Aizenberg等[3]又在機器學習領域引入了人工神經網絡(Artificial neural network,ANN)[4]。深度學習方法由多層組成,用于學習多層次抽象的數據特征[5]。在人工神經網絡領域中,深度學習又被稱為分層學習[6],是一種通過在不同計算階段精確地分配分數來調節網絡激活的技術[4]。深度學習常常用多種抽象結構來學習復雜的映射關系,如2009年蒙特利爾大學的Bengio教授提出的帶隱藏層的ANN[7]等。深度學習技術可以被視作一種表征學習,是機器學習的一個分支。

2005年多倫多大學的Hinton教授團隊試圖用圖模型模擬人類的大腦[8],在文獻[9]中提出了一種逐層貪婪算法來預訓練深度信念網,克服了深度網絡難以訓練的弊端,并用自編碼器降低數據維度[10],開啟了深度學習的熱潮,使其被廣泛應用在語音識別、計算機視覺和自然語言處理等領域。2011—2012年,深度學習技術在語音識別領域中最先取得重大突破,Dahl團隊[11]和Hinton團隊[12]先后將識別錯誤率降至20%~30%。在2012年的ImageNet大規模視覺識別挑戰競賽(ImageNet large scale visual recognition challenge,ILSVRC)中,Hinton的學生提出的AlexNet[13]以超過第二名準確率10%的巨大優勢奪得冠軍,深度學習正式進入了爆發期。近年來各大互聯網科技公司,如Google、Microsoft、Facebook、百度、阿里巴巴和騰訊等也爭相投入大規模深度學習系統的研發中。

筆者在2016年發表“深度卷積神經網絡在計算機視覺中的應用研究綜述”[1],總結了2016年之前深度卷積神經網絡在計算機視覺中的研究成果。本文在文獻[1]的基礎上,重點綜述2016年以后基于深度學習的計算機視覺研究新進展。但為了表述的完整和邏輯的嚴謹,本文與文獻[1]內容有少量重合。

1 通用深度神經網絡模型

本文將解決圖像分類任務的神經網絡模型稱為通用網絡,這類模型通常是解決其他視覺任務的基礎模型。1989年AT&T貝爾實驗室的研究員LeCun通過反向傳播算法成功地訓練了卷積神經網絡[14],這項工作代表了20世紀80年代神經網絡的研究成果。1998年LeCun等基于前人的工作提出了LeNet[15],由2個卷積層和3個全連接層組成,因此也被稱為LeNet?5,其結構如圖1所示。但LeNet?5的復雜度遠遠無法和今天的深度網絡模型相比,性能也相差懸殊,但在當時取得了和支持向量機相媲美的效果,并被廣泛應用于識別手寫數字,受到了廣泛的關注。

圖1 LeNet-5結構示意圖[15]

Fig.1 Structure of LeNet-5[15]

在LeNet提出后,很長一段時間卷積神經網絡并不是計算機視覺領域的主流方法,因為LeNet只在小數據集上表現良好,在規模更大、更真實的數據集上表現一般。由于當時未普及高性能的神經網絡加速硬件設備,卷積神經網絡訓練的時間成本和空間開銷太大。因此在2012年AlexNet[13]提出之前,大多數研究者都采用SIFT[16]、HOG[17]和SURF[18]等手工方法提取特征,并花費大量的精力進行數據整理。

2007年,普林斯頓大學李飛飛團隊基于WordNet的層級結構開始搭建ImageNet數據集[19],通過網絡抓取、人力標注和眾包平臺等各種方式,最終在2009年公開。如今ImageNet數據集包含超過14 000 000張帶標簽的高清圖像、超過22 000個類別。從2010年開始舉辦的ILSVRC圖像分類比賽成為計算機視覺領域的重要賽事,用于評估圖像分類算法的準確率。ILSVRC比賽數據集是ImageNet的一個子集,包含1 000類、數百萬張圖片。來自NEC實驗室的林元慶帶領NEC?UIUC團隊以28.2%的top?5錯誤率贏得了2010年ILSVRC冠軍。2010和2011這兩年的冠軍方案主要采用HOG[17]、LBP[20?21]等算法手動提取特征再輸入到特征向量機進行分類。

2012年的冠軍AlexNet[13]首次將深度學習技術應用到大規模圖像分類領域,證明了深度學習技術學習到的特征可以超越手工設計的特征,開啟了計算機視覺領域中的深度學習熱潮。AlexNet和LeNet結構理念相似,采用5層卷積層和3層全連接層,激活函數用ReLU取代了sigmoid,用dropout方法取代了權重衰減緩解過擬合,結構如圖2所示。AlexNet取得了17.0%的top?5錯誤率。

圖2 AlexNet結構示意圖[13] Fig.2 Structure of AlexNet[13]

2014年的冠軍團隊提出的ZFNet[22]通過反卷積可視化CNN學習到的特征,取得了11.7%的錯誤率。2015年的冠軍團隊Szegedy等提出的GoogLeNet[23]將錯誤率降到了6.7%。GoogLeNet提出了一種Inception模塊,如圖3所示。這種結構基于網絡中的網絡(Network in network,NiN)的思想[24],有4條分支,通過不同尺寸的卷積層和最大池化層并行提取信息,1×11×1卷積層可以顯著減少參數量,降低模型復雜度。GoogLeNet一共使用9個Inception模塊,和全局平均池化層、卷積層及全連接層串聯。Szegedy提出很多改進的Inception版本,陸續使用了Batch Normalization[25]、Label Smoothing[26]和殘差連接[27]等方法。

圖3 Inception模塊示意圖[23] Fig.3 Inception block[23]

2015年的ILSVRC亞軍是由牛津大學視覺幾何團隊提出的VGGNet[28]。VGGNet重復使用了3××3的卷積核和2××2的池化層,將深度網絡加深到16~19層,如圖4所示。

圖4 VGG模塊和VGG結構示意圖 Fig.4 Block and structure of VGG

2016年,微軟亞洲研究院He等提出的ResNet[29]奪得了ILSVRC冠軍,將top?5錯誤率降至3.6%。ResNet最深可達152層,以絕對優勢獲得了目標檢測、分類和定位3個賽道的冠軍。該研究提出了殘差模塊的跳接結構,網絡學習殘差映射f(x)?xfx-x,每1個殘差模塊里有2個相同輸出通道的3××3卷積層,每個卷積層后接1個BN(Batch normalization)層和ReLU激活函數。跳接結構可以使數據更快地向前傳播,保證網絡沿著正確的方向深化,準確率可以不斷提高。ResNet的思想產生了深遠的影響,是深度學習領域的一個重要進步,奠定了訓練更深的深度網絡的基礎,其結構如圖5所示。

圖5 殘差模塊 Fig.5 Residual block

2017年提出的DenseNet[30]和ResNeXt[31]都是受ResNet[29]的啟發。DenseNet的目標不僅僅是學習殘差映射,而且是學習類似泰勒展開的更高階的項。因此DenseNet的跳接結構沒有用加法,而是用了聯結,如圖6所示。

圖6 ResNet和DenseNet結構比較 Fig.6 Structures of ResNet and DenseNet

ResNeXt[31]則是結合了ResNet[29]和Inception v4[27],采用GoogLeNet分組卷積的思想,在簡化的Inception結構中加入殘差連接,并通過一個超參數“基數”調整ResNeXt模塊中分支的數量。這種簡化的Inception結構不需要人工設計每個分支,而是全部采用相同的拓撲結構,結構如圖7所示。ResNeXt在2016年ILSVRC的分類任務上獲得了亞軍。

圖7 ResNet殘差模塊和基數為32的ResNeXt模塊[31] Fig.7 ResNet block and ResNeXt block with cardinality of 32[31]

和ResNeXt同年提出的Xception[32]也是一種基于Inception分組卷積思想的模型。分組卷積的核心思想是將通道拆分成不同大小感受野的子通道,不僅可以提取多尺寸的特征,還可以減少參數量,降低模型復雜度。Xception模塊可以視為一種極端情況的Inception模塊,它的輸入先經過一個1××1的卷積層后進入多個完全相同的3××3卷積層分支,如圖8所示。

圖8 經典及簡化的Inception模塊和Xception模塊[32] Fig.8 Classical and simplified Inception blocks and Xception block[32]

ImageNet數據規模大,圖像類別多,因此在ImageNet上訓練的模型泛化能力較好。如今很多模型都是在ImageNet上預訓練后進行微調,有些模型微調后準確率可以超過只在目標訓練集上訓練模型的20%。受ImageNet自由開放思想的影響,很多科技巨頭也陸續開放了自己的大規模數據集:2018年谷歌發布了Open Image數據集[33],包含了被分為6 000多類的900萬張帶有目標位置信息的圖片;JFT?300M數據集[34]包含300萬張非精確標注的圖像;DeepMind也公開了Kinetics數據集[35?36],包含650 000張人體動作的視頻截圖。這些大規模數據集增強了深度學習模型的泛化能力,為全世界深度學習工作者和數據科學家提供了數據支持,保障了深度學習領域的蓬勃發展。

生成模型可以學習數據中隱含的特征并對數據分布進行建模,它的應用非常廣泛,可以對圖像、文本、語音等不同數據建模真實的分布,然后基于這一分布通過采樣生成新的數據。在深度學習之前就已經有許多生成模型被提出,但由于生成模型往往難以建模,因此科研人員遇到了許多挑戰。變分自編碼器(Variational autoencoder, VAE)[37]是一種當前主流的基于深度學習技術的生成模型,它是對標準自編碼器的一種變形。自編碼器將真實樣本的高級特征通過編碼器映射到低級特征,被稱為隱向量(或潛向量),然后又通過解碼器生成相同樣本的高級特征。標準自編碼器和變分自編碼器的區別在于對隱向量的約束不同。標準自編碼器關注重構損失,即

L(X,X')=∥X?X'∥22?X,X'=X-X'22 (1) 式中:XX和X'X'分別為輸入圖像和重構圖像。 變分自編碼器則強迫隱變量服從單位高斯分布,優化如下損失函數

L(X)=Ez~q[lg P(X|z)]?KL(q(z|X)||p(z))?X=Ez~q[lg P(X|z)]-KL(q(z|X)||p(z)) (2) 式中:EE表示期望;z為隱變量;q(z|X)q(z|X)表示隱變量的建議分布,即編碼器輸出的隱變量的分布;p(z)p(z)表示標準高斯分布;P(X|z)P(X|z)表示解碼器分布;KLKL表示KL散度。式(2)等號右邊第1項表示重構圖片的精確度,用均方誤差度量;第2項表示圖片的潛變量分布和單位高斯分布之間的差異,用KL散度來度量。為了優化KL散度,變分自編碼器生成1個均值向量和1個標準差向量用于參數重構。此時在隱向量分布中采樣就可以生成新的圖片。自編碼器和變分自編碼器示意圖如圖9、10所示。

圖9 自編碼器示意圖Fig.9 Autoencoder

圖10 變分自編碼器示意圖 Fig.10 Variational autoencoder

生成對抗網絡(Generative adversarial net, GAN)[38]是另一種十分常見的基于深度學習技術的生成模型,它包括2個同時進行的組件:生成器和判別器,其結構如圖11所示。生成器從隱向量生成圖像,判別器對真偽圖像進行分類,二者相互對抗,互相促進。

圖11 生成對抗網絡示意圖 Fig.11 Generative adversarial net

變分自編碼器和生成對抗網絡近年來有了顯著的發展[39]。在計算機視覺領域中,變分自編碼器和生成對抗網絡已經被廣泛應用于圖像翻譯、超分辨率、目標檢測、視頻生成和圖像分割等領域,具有廣闊的研究價值和應用前景。

2 輕量化網絡

隨著網絡層數的加深,各種深度網絡模型的性能變得越來越好,隨之而來的問題是模型巨大的參數量和緩慢的推理速度,因此輕量化網絡的需求變得愈加強烈。輕量化網絡的設計核心是在盡可能保證模型精度的前提下,降低模型的計算復雜度和空間復雜度,從而使得深度神經網絡可以被部署在計算性能和存儲空間有限的嵌入式邊緣設備上,實現從學術界到工業界的躍遷。在分布式訓練中,小模型使得服務器之間通信產生的帶寬負擔也相對較小。目前學術界和工業界設計輕量化的深度網絡模型主要有4種方法:人工設計的輕量化神經網絡、基于神經網絡架構搜索(Neural architecture search,NAS)的自動設計神經網絡技術、卷積神經網絡壓縮和基于AutoML的自動模型壓縮。

2016年由伯克利和斯坦福的研究者提出的SqueezeNet[40]是最早進行深度模型輕量化的工作之一,其結構如圖12所示。SqueezeNet提出了一種Fire模塊用來減少參數量,其結構如圖13所示。它分成Squeeze和Expand兩部分:Squeeze層只由數個1××1卷積層構成;Expand層則包含數個1××1和3××3卷積層。Fire模塊和Inception模塊的結構很相近,二者都使用了1××1和3××3組合的拓撲結構,在使用了不同尺寸的卷積層后進行連結。在網絡結構上,SqueezeNet借鑒了VGG堆疊的形式,在2層卷積層和池化層中間堆疊了8個Fire模塊。最終SqueezeNet在ImageNet上實現了AlexNet級別的精確度,參數減少到原來的1/501/50。通過使用Deep Compression模型壓縮技術,SqueezeNet的參數量僅有50萬個,約為AlexNet的1/5001/500。

圖12 SqueezeNet網絡結構示意圖[40]

Fig.12 Structure of SqueezeNet[40]

圖13 SqueezeNet的Fire 模塊[40]

Fig.13 Fire block in SqueezeNet[40]

MobileNet[41]是谷歌于2017年提出的輕量化網絡,核心是通過用深度可分離卷積代替標準的卷積。深度可分離卷積將標準卷積拆成1個深度卷積和1個逐點卷積(也就是1××1卷積),可以將計算量降低至原來的1/8~1/91/8~1/9。標準卷積和深度可分離卷積+BN+ReLU結構如圖14所示。

圖14 標準卷積+BN+ReLU網絡和深度可分離卷積+BN+ReLU網絡[41]

Fig.14 Standard convolution+BN+ReLU network and depthwise separable convolution+BN+ReLU network[41]

深度可分離卷積的結構成為了很多輕量化網絡設計的參照,這種結構的有效性自從被Xception[32]證明后成為輕量化網絡設計的主流思想。比MobileNet晚2個月由Face++團隊提出的ShuffleNet[42]基于這一思想,使用了Channel Shuffle和分組卷積。分組卷積的思想最早由AlexNet[13]提出,初衷是為了降低單張GPU的占用,將輸入通道分成相同的幾條分支然后連結,從而減少訓練參數量。之后的Inception模塊將這一思想發揚光大,ResNeXt[31]的成功也證明了分組卷積的有效性。由于分組卷積會讓信息的流通不當,ShuffleNet設計了Channel Shuffle,將各組通道均分并進行混洗,然后依次重新構成特征圖,示意圖如圖15所示。

圖15 Channel Shuffle示意圖[42]

Fig.15 Diagrammatic sketch of Channel Shuffle[42]

圖15中,Channel Shuffle后第2個組卷積GConv2的輸入信息來自各個通道,圖15(c,b)達到了一樣的效果。ShuffleNet模塊的設計借鑒了ResNet bottleneck的結構,如圖16所示。

圖16 ShuffleNet模塊[42] Fig.16 ShuffleNet block[42]

ShuffleNet模塊摒棄了Pointwise卷積,因為對于輸入維度較高的小型網絡,1××1卷積的開銷巨大。例如在ResNeXt模塊中,1××1卷積占據了93.4%的計算量。在網絡拓撲上,SqueezeNet和MobileNet都采用了VGG(Visual geometry group)的堆疊結構,而ShuffleNet采用了ResNet的跳接結構。

2018年,MobileNet和ShuffleNet又相繼提出了改進版本。MobileNet v2[43]結構如圖17所示,采用了效率更高的殘差結構,提出了一種逆殘差模塊,并將MobileNet v1模塊的最后一個ReLU6層改成線性層。ShuffleNet v2[44]用更直接的運算速度評估模型,摒棄了之前如每秒浮點運算次數(FLOPS)等間接的指標。結構上ShuffleNet v2采用了一種Channel Split操作,將輸入的特征圖分到2個分支里,最后通過連結和Channel Shuffle合并分支并輸出。ShuffleNet v1和ShuffleNet v2結構如圖18所示。

圖17 MobileNet v2模塊[43]

Fig.17 MobileNet v2 block[43]

圖18 ShuffleNet v1和ShuffleNet v2結構[44]

Fig.18 Structures of ShuffleNet v1 and ShuffleNet v2[44]

2020年華為諾亞方舟實驗室的團隊提出了GhostNet[45],如圖19所示,可以用更少的參數量提取更多的特征圖。首先對輸入特征圖進行卷積操作,然后進行一系列簡單的線性操作生成特征圖,從而在實現了傳統卷積層效果的同時降低了參數量和計算量。該團隊認為性能較好的主流卷積神經網絡如ResNet?50通常存在大量冗余的特征圖,正是這些特征圖保證了網絡對數據深刻的理解。Ghost模塊用更小的代價模擬了傳統卷積層的效果。

圖19 卷積層和Ghost模塊[45]

Fig.19 Convolutional layer and Ghost module[45]

人工設計的輕量化網絡MobileNet系列[41,43]和ShuffleNet系列[42,44]的基本思想主要是通過分離卷積操作減少運算量,再采用殘差跳接結構和Channel Shuffle等混合通道的操作促進分支間的交流,提高信息利用率。隨著模型規模的擴大,硬件資源變得更加稀缺,在保證精度的前提下壓縮并加速模型將會是經久不衰的熱門研究方向,也是信息化時代發展的必經之路。近年來大量的關于模型壓縮和結構優化的工作不斷涌現,如網絡剪枝[46]、張量分解[47?48]和知識遷移[49]等。輕量化模型的發展有助于深度學習技術的推廣和應用,推動深度學習技術的產業化發展。

3 面向特定任務的深度網絡模型

計算機視覺任務眾多,深度學習最開始在圖像分類實現突破,當前深度學習幾乎深入到了計算機視覺的各個領域。本節將針對目標檢測、圖像分割、圖像超分辨率和神經架構搜索等其他計算機視覺任務簡要總結深度學習方法。

3.1 目標檢測

目標檢測任務作為計算機視覺的基本任務之一,包含物體的分類、定位和檢測。近年來隨著深度學習技術的發展,目標檢測算法已經從基于手工特征的HOG[17]、SIFT[16]及LBP[20?21]等傳統算法轉向了基于深度神經網絡的機器學習技術。自2014年Girshick等提出了R?CNN[50]模型以來,目標檢測就成為了計算機視覺最受人關注的領域之一。在R?CNN之后,Girshick團隊相繼提出了Fast R?CNN[51]、Faster R?CNN[52]等一系列模型,這些模型均將目標檢測問題歸結為如何提出可能包含目標的候選區域和如何對這些區域分類兩個階段,因此這類模型也被稱作兩階段模型。

受當時性能最好的圖像分類網絡,如AlexNet[13]和VGG[28]等的影響,R?CNN系列模型的網絡結構由2個子網組成:第1個子網用普通分類網絡的卷積層提取共享特征;第2個子網的全連接層進行感興趣區域(Region of interest,RoI)的預測和回歸,中間用一個RoI池化層連接。這些網絡的結構在文獻[1]中已做介紹,這里不再贅述。在ResNet[29]、GoogLeNet[23]等性能更強的分類網絡出現后,這種全卷積網絡結構也被應用到了目標檢測任務上。然而,由于卷積層并不能有針對性地保留位置信息,這種全卷積結構的檢測精度遠低于它的分類精度。R?FCN[53]提出了一種位置敏感分數圖來增強網絡對于位置信息的表達能力,提高網絡的檢測精度,其結構如圖20所示。R?FCN[53]在PASCAL VOC 2007數據集上平均精度均值(mean Average precision, mAP)達到了83.6%,單張圖片的推理速度達到170 ms。

圖20 R-FCN結構示意圖[53] Fig.20 Structure of R-FCN[53]

如何準確識別不同尺寸的物體是目標檢測任務的難點之一。圖21(a)中的方法通過對不同尺寸的圖片提取不同尺度特征來增強不同尺度特征的語義信息,但時間和計算成本太高。圖21(b)中的單一特征圖方法即為SPPnet[54]、Fast R?CNN[51]和Faster R?CNN[52]使用的方法,即在最后一層的特征圖上進行預測。盡管速度較快,但包含的語義信息很少,不能準確地預測目標的位置。圖21(c)是SSD[55]采用的多尺度融合方法,從網絡的不同層抽取不同尺度的特征分別進行預測,這種方法不需要額外的計算,但不能很好地提取小目標敏感的淺層高分辨率特征。

圖21 多尺度檢測的常見結構[56] Fig.21 Common structures of multiscale detection[56]

特征金字塔網絡(Feature Pyramid network, FPN)[56]借鑒了ResNet跳接的思想,結合了層間特征融合與多分辨率預測,其結構如圖22所示。文獻[56]將FPN用于Faster R?CNN的區域候選網絡(Region proposal network, RPN),在每層金字塔后面接一個RPN頭。由于輸入了多尺度的特征,因此不需要生成多尺度的錨框,只需要在每個尺度上設置不同的寬高比,并共享參數。以ResNet?101為骨干網絡的Faster R?CNN+FPN在COCO test?dev上[email protected]達到了59.1%,超過不用FPN的Faster R?CNN 3.4%。實驗證明對于基于區域的目標檢測器,該特征金字塔結構的特征提取效果優于單尺度的特征提取效果。

圖22 FPN結構示意圖[56] Fig.22 Structure of FPN[56]

YOLO[57]是單階段模型的代表,它沒有提出候選區域的過程,而是直接將提出候選區域和分類統一為一個邊界框回歸的問題,將整張圖片作為網絡的輸入,在輸出層對邊界框位置信息和類別進行回歸,實現了端到端的學習過程,其示意圖如圖23所示。它首先將圖片縮放并劃分為等分的網格,然后在每張圖片上運行單獨的卷積網絡,最后用非極大值抑制得到最后的預測框。損失函數被分為3部分:坐標誤差、物體誤差和類別誤差。為了平衡類別不均衡和大小物體等帶來的影響,損失函數中添加了權重并將長寬取根號。

圖23 YOLO示意圖[57] Fig.23 Pipeline of YOLO[57]

YOLO的網絡結構借鑒了GoogLeNet的結構,用24層卷積層后接2層全連接層,將Inception模塊替換為類似網中網[24]中的1××1卷積層后接3××3卷積層,并在ImageNet上預訓練,其結構如圖24所示。在PASCAL VOC 07+12數據集上,YOLO在達到最高幀率155 幀/s時mAP可以達到52.7%,在mAP最高達到63.4%時幀率可達45幀/s。YOLO在保證了準確率的同時擁有極高的推理速度,遠超當時的兩階段模型。

圖24 YOLO網絡結構圖[57] Fig.24 Structure of YOLO[57]

YOLOv1的訓練流程簡單,背景誤檢率低,但由于只選擇交并比最高的邊界框作為輸出,每個格子最多只能預測出一個物體。當每個格子包含多個物體時,YOLOv1只能檢測出1個目標。YOLOv2[58]在YOLOv1的基礎上,骨干網絡采用了以VGG16為基礎的Darknet19,使用了批量歸一化緩解了梯度爆炸和消失的問題。YOLOv2借鑒了Faster R?CNN錨框的設計,將YOLOv1的全連接層替換為錨框預測邊界框的位置,解耦了位置和類別的回歸計算。YOLOv2[58]同時采用了多尺度訓練,提升了模型的健壯性。后續的YOLOv3[59]骨干網絡采用了Darknet53,使用了ResNet的跳接結構,并引入了FPN,一定程度上解決了YOLOv2小目標檢測精度較差的問題。YOLOv3在分辨率320 像素×像素×320 像素的輸入上以22 ms的推理時間使得mAP達到28.2%,和當時最好的單階段檢測器SSD達到相同精度,但擁有3倍的推理速度。YOLOv3以51 ms的推理時間使得[email protected]達到57.9%,相較于以198 ms的推理時間[email protected]達到57.5%的RetinaNet[60],精度相近但YOLOv3的速度是RetinaNet[60]的近4倍。

SSD[55]是最早達到兩階段模型精度的單階段模型之一,對后期的單階段工作影響很深,其結構如圖25所示。為解決YOLOv1小目標檢測精度低的問題,基于VGG不同的卷積段采用了多尺度的特征圖,并在每個網格點生成更多的不同大小和長寬比的預測框。SSD在PASCAL VOC 2007數據集上,對于300 像素××300 像素的輸入mAP達到了74.3%,512 像素××512 像素的輸入mAP達到了76.9%。在COCO trainval35k數據集上預訓練再在PASCAL VOC 07+12上微調后,SSD最終mAP達到了81.6%。

圖25 SSD網絡結構圖[55] Fig.25 Structure of SSD[55]

和兩階段模型相比,單階段模型只需要進行一次類別預測和位置回歸,因此卷積運算的共享程度更高,擁有更快的速度和更小的內存占用。最新的單階段模型如FCOS[61]、VFNet[62]等工作已經可以達到接近兩階段模型精度,同時擁有更好的實時性,更適合在移動端部署。

目標檢測技術從傳統的手工特征算法到如今的深度學習算法,精度越來越高的同時速度也越來越快。在過去幾年中,工業界已經出現了成熟的基于目標檢測技術的應用,如人臉檢測識別、行人檢測、交通信號檢測、文本檢測和遙感目標檢測等。這些應用不僅便利了人們的生活,也為學術界提供了啟發和指導。

在未來的研究工作中,小目標檢測和視頻目標檢測依舊是研究的熱點問題。同時,為了加快推理速度并在移動端嵌入式設備部署模型,目標檢測的輕量化一直備受工業界的關注。在采集到多模態的信息(如文字、圖像、點云等)后,如何通過更好的信息融合來提高檢測性能也是未來的一個重點研究方向。

3.2 圖像分割

本文的圖像分割指圖像語義分割任務,其要求將整張圖片的所有像素分類為預先定義的多個類別之一。由于是像素級的稠密分類任務,相比圖像分類和目標檢測更加困難,是圖像處理和計算機視覺中的一個重要課題,在場景理解、醫學圖像分析、機器人感知及視頻監控等領域有著廣泛的應用。近年來,由于深度學習技術在計算機視覺領域應用中取得的成功,人們也進行了大量的工作研究基于深度學習模型的圖像分割方法。

U?Net[63]和全卷積網絡(Fully convolutional network, FCN)[64]都是在2015年提出的網絡,啟發了后來的很多圖像分割和目標檢測的工作。FCN已在文獻[1]中進行介紹,此處不再贅述。U?Net最初是一個用于醫學圖像分割的卷積神經網絡,分別贏得了ISBI 2015細胞追蹤挑戰賽和齲齒檢測挑戰賽的冠軍。U?Net可視為一個編碼器?解碼器結構,編碼器有4個子模塊,每個子模塊通過一個最大池化層下采樣,解碼器再通過上采樣的4個子模塊增大分辨率直到與輸入圖像的分辨率保持一致,其結構如圖26所示。由于卷積采用的是Valid模式,實際輸出圖像的分辨率低于輸入圖像的分辨率。U?Net網絡同時還采取了跳接結構(即圖26中的灰色箭頭),將上采樣結果與編碼器中具有相同分辨率的子模塊的輸出進行連接,作為解碼器中下一個子模塊的輸入。

圖26 U-Net結構示意圖[63] Fig.26 Structure of U-Net[63]

由于人體結構相對固定,分割目標在圖像內的分布很有規律,醫學圖像大多語義明確,需要低分辨率的信息用于目標物體的識別。同時醫學圖像形態復雜,往往要求高精度的分割,需要高分辨率的信息用于精準分割。U?Net融合了高低分辨率的信息,因此對醫學圖像分割的效果很好。

Mask R?CNN[65]是R?CNN團隊的又一次探索,他們在之前Faster R?CNN[52]的基礎上,將其擴展到更精細的像素級別的分類,從而從目標檢測領域拓展到圖像分割領域。通過使用RoIAlign代替RoIPooling,得到更好的定位效果,并在Faster R?CNN上添加了二進制的Mask,表征像素是否在目標范圍內完成圖像分割的任務。Mask R?CNN網絡結構圖和分支結構圖如圖27、28所示。 圖27 Mask R-CNN網絡示意圖[65]Fig.27 Structure of Mask R-CNN[65] 圖28 Mask R-CNN分支示意圖[65]Fig.28 Structure of Mask R-CNN’s branches[65]

深度卷積神經網絡中池化層和上采樣層的設計對于圖像分割的設計有致命缺陷。因為參數不可學習,而且池化會導致像素的空間信息和內部的數據結構丟失,上采樣也無法重建小物體信息,因此圖像分割的精度一直處于瓶頸。針對這一問題,2016年的DeepLab[66]又提出了一種空洞卷積,避免了池化層帶來的信息損失,并使用全連接的條件隨機場(Conditional random field, CRF)優化分割精度,其結構如圖29所示。

圖29 空洞卷積示意圖(卷積核尺寸為3,輸入步長為2,輸出步長為1)[66] Fig.29 Dilated convolution (kernel size=3, input stride=2, output stride=1)[66]

空洞卷積可以在避免使用池化層損失信息的情況下增大感受野,同時不增加參數數量。作為后處理,DeepLabv1將每個像素點作為節點,像素之間的關系作為節點間的連線,構成一個條件隨機場,再用一個二元勢函數描述像素點之間的關系,將相似像素分配相同的標簽,從而在分割邊界取得良好的效果。DeepLabv1速度很快,幀率達到8 幀/s,在PASCAL VOC 2012數據集上平均交并比(Mean intersection over union,mIoU)達到了71.6%,它的“深度卷積神經網絡+條件隨機場”結構對之后很多工作產生了深遠的影響。

2017年劍橋大學提出的SegNet[67]的主要動機是針對道路和室內場景理解,設計一個像素級別的圖像分割網絡,同時保證內存和計算時間方面上的高效。SegNet采用“編碼器?解碼器”的全卷積結構,編碼網絡采用VGG16[28]的卷積層,解碼器從相應的編碼器獲取最大池化索引后上采樣,產生稀疏特征映射。復用池化索引減少了端到端訓練的參數量,并改善了邊界的劃分。SegNet在道路場景分割數據集CamVid 11 Road Class Segmentation[68]上mIoU達到60.1%, 邊界F1得分(Boundary F1 score,BF) 達到46.84%;在室內場景分割數據集SUN RGB?D Indoor Scenes[69]上幾乎所有當時的深層網絡結構都表現不佳,但SegNet依然在絕大多數的指標上超過了其他網絡。SegNet結構如圖30所示。

圖30 SegNet結構示意圖[67] Fig.30 Structure of SegNet[67]

2017年香港中文大學提出了PSPNet[70],該網絡采用金字塔池化模塊,用大小為1××1、2××2、3××3和6××6的4層金字塔分別提取不同尺度的信息,然后通過雙線性插值恢復長寬,把不同層的特征連結起來得到全局信息,這種結構比全局池化更具有代表性,融合了多尺度的信息。PSPNet在PASCAL VOC 2012數據集上mIoU達到了82.6%,在MS COCO數據集上預訓練后達到85.4%。PSPNet結構如圖31所示。

圖31 PSPNet結構示意圖[70] Fig.31 Structure of PSPNet[70]

DeepLabv2[71]在DeepLabv1[66]和PSPNet[70]的基礎上用ResNet101代替VGG16,并提出了一種帶有空洞卷積的空間金字塔池化模塊(Atrous spatial Pyramid pooling, ASPP),用多尺度的方法以不同的速率并行地提取特征圖信息,極大地增加了感受野,其結構如圖32所示。DeepLabv2使用不同的學習率,相比DeepLabv1, mIoU達到了79.7%,提升了8.1%,但二者都使用了全連接條件隨機場模塊。

圖32 空洞空間金字塔池化示意圖[71] Fig.32 Structure of ASPP[71]

DeepLabv3[72]重新審視了空洞卷積的作用,將其級聯模塊應用在ResNet最后一個模塊之后。不使用空洞卷積和使用空洞卷積的級聯模塊示意圖如圖33所示。

圖33 不使用和使用空洞卷積的級聯模塊示意圖[72] Fig.33 Structures of cascade modules without and with atrous convolution[72]

DeepLabv3改進了ASPP模塊,應用BN層,并將DeepLabv2中Rate=24的3××3卷積模塊替換為1××1卷積模塊和全局池化模塊,克服了像素點相對距離增大時有效權重減少的問題。DeepLabv3去掉了后處理的DenseCRF模塊,并最終在PASCAL VOC 2012數據集上mIoU達到了86.9%,相較DeepLabv2進一步提升了7.2%。改進的ASPP模塊示意圖如圖34所示。

圖34 改進的ASPP模塊示意圖[72] Fig.34 Improved ASPP module[72]

DeepLabv3+[73]相對于DeepLabv3,采用了“編碼器?解碼器”的結構,編碼器中包含豐富的語義信息,解碼器則輸出圖像的邊緣細節信息。空間金字塔池化模塊,“編碼器?解碼器”結構和帶有空洞卷積的“編碼器?解碼器”結構如圖35所示,DeepLabv3+結構如圖36所示。

圖35 DeepLabv3+使用了空間金字塔池化模塊,“編碼器-解碼器”結構和空洞卷積[73] Fig.35 DeepLabv3+ employing spatial Pyramid pooling, encoder-decoder and atrous convolution[73]

圖36 DeepLabv3+示意圖[73] Fig.36 Structure of DeepLabv3+[73]

DeepLabv3+將之前的骨干網絡ResNet101替換為Xception,并結合深度可分離卷積的思想提出了空洞深度可分離卷積,在減少參數量的同時進一步增大感受野。和DeepLabv3一樣,DeepLabv3+也沒有使用DenseCRF后處理模塊。最終DeepLabv3+在PASCAL VOC 2012數據集上mIoU達到了89.0%,相較DeepLabv3提升了2.1%。深度卷積、逐點卷積和空洞深度可分離卷積示意圖如圖37所示。

圖37 空洞深度可分離卷積示意圖[73] Fig.37 Structure of atrous depthwise separable convolution[73]

2019年曠視科技提出了一種名為DFANet[74]的高效CNN架構,通過子網和子級聯的方式聚合多尺度特征,極大地減少了參數量,其結構如圖38所示。DFANet采用“編碼器?解碼器”結構,解碼器的骨干網絡采用3個改良的輕量級Xception融合結構,編碼器則是一個高效的上采樣模塊,用于融合高層和底層的語義信息。在CityScapes[75]測試數據集上,對于1 024像素××1 024像素的輸入圖片,DFANet在一塊NVIDIA Titan X上mIoU達到71.3%,FLOPS僅為3.4××109,幀率達到100 幀/s;在CamVid[68]測試數據集上,對于960像素××720像素的輸入圖片,DFANet在8 ms的計算時間內mIoU達到64.7%,幀率達到120 幀/s。

圖38 DFANet結構示意圖[74] Fig.38 Structure of DFANet[74]

2020年筆者提出一種輕量級網絡LRNNet[76]。其中分解卷積塊FCB(圖39(a))利用1××3和3××1的空間分解卷積處理短距離特征,并利用空洞深度分離卷積處理遠距離特征,實現了參數量和計算量更少、深度更快、準確率更高的特征提取;高效的簡化Non?Local模塊LRN(圖39(b))利用區域主奇異向量作為Non?Local模塊的Key和Value,在降低Non?Local模塊的計算量和內存占用的同時,保持其處理遠距離關聯的效果。在Cityscapes[75]測試集上,LRNNet的mIoU達到了72.2%,而網絡僅有68萬個參數,并在1張GTX 1080Ti卡上達到71 幀/s的推理速度;在CamVid[68]測試集上,對于360像素××480像素的輸入,LRNNet的mIoU達到了69.2%,參數量也為68萬個,在1張GTX 1080Ti卡上幀率達到76.5 幀/s。

圖39 LRNNet中的FCB和LRN模塊[76] Fig.39 FCB and LRN modules in LRNNet[76]

圖像分割是像素級的稠密分類任務,在搜集數據集時需要真值標注每個像素,但由于這個要求極其耗時且非常昂貴,許多研究人員開始用弱監督學習和半監督學習的方法訓練網絡。常見的弱標注有圖像類別標簽、邊界框、顯著圖和類激活圖(Class activation map,CAM)等。

2015年谷歌和UCLA團隊的工作[77]是最早開始研究基于弱監督學習技術的圖像分割算法之一。該工作基于DeepLab模型[66],研究了弱標注(類別標簽、邊界框等)與少量強標注(像素級標簽)和大量弱標注混合對DCNN圖像分割模型的影響,并在半監督和弱監督的設定下提出了一種期望最大化方法(Expectation?maximization,EM)。這項工作證實了僅使用圖像級標簽的弱標注存在性能差距,而在半監督設定下使用少量強標注和大量弱標注混合可以獲得優越的性能,在MS COCO數據集上使用5 000張強標注圖片和118 287張弱標注圖片mIoU超過70%。

盡管類別標簽的獲取成本很低,但這類標注信息僅僅標明某類目標存在,不能表示出目標的位置和形狀,這往往會導致分割效果不夠理想,存在邊界模糊等問題。當出現目標遮擋的情況時,僅使用圖像級標簽獲取完整的目標邊界會更加困難。為了補充監督信息中缺少的位置和形狀信息,使用圖像的顯著性信息是一種常見的手段。文獻[78]提出了一個僅使用類別標簽和顯著圖信息的圖像分割模型,其結構如圖40所示。該模型將圖像的顯著圖定義為一個人最有可能先看到的目標的二進制掩膜,用預訓練的目標檢測網絡提取出顯著性區域,通過種子信息確定目標的類別和位置。該工作同樣基于DeepLab[66]的網絡結構,提出的模型測試精度mIoU達到56.7%,實現了全監督模型80%的性能。

圖40 高層信息指導的圖像分割網絡結構圖[78] Fig.40 High-level guided segmentation architecture[78]

定位線索的另一個流行的選擇是使用CAM。主流的弱監督方法通過將CAM作為分割種子,突出局部的顯著部分,然后逐漸生長直到覆蓋整個目標區域,從而補充了缺失的目標形狀信息。2018年提出的AffinityNet[79]結合了類別標簽和CAM信息,首先計算圖像的CAM作為監督源訓練AffinityNet,通過構建圖像的語義相似度矩陣,結合隨機游走進行擴散,不斷獎勵或懲罰從而修改CAM,最終恢復出目標的形狀。AffinityNet流程如圖41所示。

圖41 AffinityNet流程示意圖[79] Fig.41 Pipeline of AffinityNet[79]

深度學習技術在圖像分割領域取得了顯著成就,但仍然面臨不小的挑戰。當前的大規模數據集如MS COCO[80]和PASCAL VOC[81]并不能滿足工業界的需求,而具有多目標和重疊目標的數據集對于圖像分割而言更具有應用價值,這可以使得圖像分割技術更好地處理密集目標場景和現實生活中常見的重疊目標場景。基于小樣本學習技術的圖像分割算法同樣具有廣闊的前景,因為在許多應用領域,例如醫學圖像分析領域,獲取學習樣本的成本較高,難度也較大。圖像分割技術的實時性也是一個難題,目前大多數模型并不能達到實時性的要求,但在很多應用場景下,速度的重要性遠高于精度。

3.3 超分辨率

超分辨率技術是計算機視覺領域提高圖像和視頻分辨率的重要處理技術之一,研究如何將低分辨率的圖像或圖像序列恢復出具有更多細節信息的高分辨率圖像或圖像序列,在高清電視、監控視頻、醫學成像、遙感衛星成像、顯微成像及老舊圖像視頻修復等領域有著重要的應用價值。傳統上超分辨率屬于底層視覺領域,但本文敘述順序從圖像分類、目標檢測、圖像分割到超分辨率,輸出逐級復雜,依次為圖像標簽、目標位置和類別標簽、與輸入同大小的分割圖、比輸入圖像大的高分辨率圖像等。與前幾個任務不同,超分辨率需要生成和恢復輸入中不存在的信息。

超分辨率的概念最早出現在光學領域,1952年Francia第一次提出了用于提高光學分辨率的超分辨率的概念[82]。1964年前后,Harris[83]和Goodman[84]分別提出了后來稱為Harris?Goodman頻譜外推的方法,這被認為是最早的圖像復原方法,但這種技術只能在一些理想情況下進行仿真,實際效果不太理想,因此并未得到推廣。1984年Tsai等[85]首次利用單幅低分辨率圖像的頻域信息重建出高分辨率圖像后,超分辨率重建技術才得到廣泛的認可和應用,如今它已經成為圖像增強和計算機視覺領域中最重要的研究方向之一。

傳統的超分辨率方法包括基于預測、基于邊緣、基于統計、基于塊和基于稀疏表示等方法。根據輸入輸出的不同,超分辨率問題可以分為基于重建的超分辨率問題、視頻超分辨率問題和單幅圖像超分辨率問題。根據是否依賴訓練樣本,超分辨率問題則又可以分為增強邊緣的超分辨率問題(無訓練樣本) 和基于學習的超分辨率問題 (有訓練樣本)。

最簡單、應用最廣泛的經典單幅圖像超分辨率方法是插值法,包括Lanczos、Bicubic、Bilinear和Nearest等,這種方法操作簡單、實施性好,但并不能恢復出清晰的邊緣和細節信息,因此很多其他用于增強細節的傳統算法相繼被提出。文獻[86]提出了基于塊的方法,也被稱為基于鄰域嵌入的方法。這種方法使用流形學習中的局部線性嵌入,假設高、低維度中圖像塊的線性關系可以保持,用低分辨率圖像的特征(梯度等)重構高分辨率圖像。文獻[87?88]提出了基于稀疏表示的方法,也被成為字典學習。這種方法將低分辨率圖像和高分辨率圖像表示為字典DD與原子αα,高分辨率圖像可表示為x=Dhighx=Dhigh,低分辨率圖像為y=Dlowy=Dlow,假設不同分辨率的同一幅圖像的原子αα,在訓練完字典DhighDhigh和DlowDlow后,用低分辨率的圖像得到αα,隨后得到重構的高清圖像。基于學習的超分辨率技術[89]如圖42所示,上、下采樣方法示意圖[90]如圖43所示。

圖42 基于學習的超分辨率技術[89] Fig.42 Learning-based super-resolution[89]

圖43 超分辨率問題中的上采樣和下采樣方法[90] Fig.43 Upsampling and downsampling in super-resolution[90]

經典的超分辨率方法要求研究者具備深厚的相關領域先驗知識。隨著深度學習技術的興起,用神經網絡方法重建的圖像質量超過了傳統方法,速度也更快,這使得大批學者轉向對深度學習技術在超分辨率領域的應用研究。香港中文大學Dong等于2015年首次將卷積神經網絡用于單幅圖像超分辨率重建,提出了SRCNN[91],該網絡僅僅用了3個卷積層,利用傳統稀疏編碼,依次進行圖像塊提取、非線性映射和圖像重建,實現了從低分辨率圖像到高分辨率圖像的端到端映射,流程圖如圖44所示。SRCNN激活函數采用ReLU,損失函數采用均方誤差。

圖44 SRCNN流程圖[91] Fig.44 Pipeline of SRCNN[91]

2016年Dong團隊在之前SRCNN的基礎上提出了更快、實時性更好的FSRCNN[92],在原始網絡的最后加入反卷積層放大尺寸,摒棄了Bicubic插值方法,使用了更多的映射層和更小的卷積核,改變了特征維度,并共享其中的映射層,FSRCNN改進示意圖如圖45所示。訓練時FSRCNN只需要微調最后的反卷積層,因此訓練速度很快。FSRCNN激活函數采用PReLU,損失函數仍采用均方誤差。

圖45 FSRCNN對SRCNN的改進[92] Fig.45 FSRCNN’s improvement on SRCNN[92]

2016年提出的ESPCN[93]在SRCNN基礎上進一步提高了速度,其結構如圖46所示。該工作提出了一種亞像素卷積層,可以直接在低分辨率圖像上提取特征,從而避免在高分辨率圖像上進行卷積,降低了計算復雜度。ESPCN激活函數采用tanh,損失函數仍然采用均方誤差。

圖46 ESPCN示意圖[93] Fig.46 Structure of ESPCN[93]

SRCNN的網絡輸入是經過上采樣的低分辨率圖像,計算復雜度很高,因此FSRCNN和ESPCN都選擇在網絡末端上采樣以降低計算復雜度。但如果在上采樣后沒有足夠深的網絡提取特征,圖像信息就會損失。為了更好地使用更深的網絡,很多工作引入了殘差網絡。2016年首爾國立大學Kim等提出的VDSR[94]是第一個引入全局殘差的模型,其結構如圖47所示。Kim等指出,高低分辨率圖像攜帶的低頻信息很相近,因此事實上網絡只需要學習高頻信息之間的殘差即可。VSDR思想啟發了很多之后利用殘差結構的工作。

圖47 VSDR網絡結構圖[94] Fig.47 Structure of VSDR[94]

CARN[95]是NTIRE2018超分辨率挑戰賽的冠軍方案,該方案使用全局和局部級聯,將ResNet的殘差塊替換成級聯模塊和1×11×1卷積模塊組合,并提出了一種殘差?E模塊,可以提升CARN的效率。CARN的改進如圖48所示,其局部級聯模塊如圖49所示。

圖48 CARN對于ResNet的改進[95] Fig.48 Improvement of CARN based on ResNet[95]

圖49 殘差-E模塊與其他常見模塊的對比[95] Fig.49 Comparison between residual-E block and other common blocks[95]

EDVR[96]是商湯科技2019年提出的一種用于視頻修復的通用框架,在NITRE 2019 的4個賽道中均以較大的優勢獲得了冠軍。視頻修復任務包括超分辨率、去噪聲等任務,早期的研究者們簡單地將視頻修復視作圖像修復的延伸,幀間冗余的時間信息并沒能被充分利用。EDVR通過增強的可變形卷積網絡實現視頻的修復和增強,適用于各種視頻修復任務,如超分辨率、去模糊等任務。EDVR框架示意圖如圖50所示。

圖50 EVDR框架示意圖[96] Fig.50 Pipeline of EDVR[96]

EDVR提出了PCD(Pyramid, cascading and deformable)對齊模塊和TSA(Temporal and spatial attention)融合模塊,其結構如圖51所示。PCD模塊受TDAN[97]的啟發,用一種金字塔結構從低尺度到高尺度使用可變形卷積將每個相鄰幀與參考幀對齊。TSA模塊則用于在多個對齊的特征層之間融合信息,通過計算每個相鄰幀與參考幀特征之間的元素相關性引入時間注意力機制,相關系數代表每個位置上相鄰幀特征信息量的大小。在融合時間特征后進一步應用空間注意力機制,從而更有效地利用跨通道空間信息。

圖51 EVDR中的PCD模塊和 TSA模塊[96] Fig.51 PCD and TSA modules in EVDR[96]

三維卷積是一種常見的利用視頻時空間信息的方法,但這種方法往往復雜度較高,限制了模型的深度。2019年提出的FSTRN[98]通過使用一種快速時空間殘差模塊將三維卷積用于視頻超分辨率任務,將每個三維濾波器分解為2個維數更低的3位濾波器乘積,從而降低復雜度,實現更深的網絡和更好的性能。此外,FSTRN還提出了一種跨空間殘差學習方法,直接連接低分辨率空間和高分辨率空間,減輕了特征融合和上采樣部分的計算負擔。FSTRN結構如圖52所示。

圖52 FSTRN結構示意圖[98] Fig.52 Pipeline of FSTRN[98]

隨著深度學習技術的興起,近20年來超分辨率領域發展迅速,出現了很多具有優異性能的模型,但距離實際應用還有一定的距離。圖像配準技術對于多幀圖像超分辨率的重建效果至關重要,目前還沒有成熟的解決方案。另一個難點則是大量未知的密集計算限制了視頻超分辨率重建的計算效率,難以達到實時性的要求。超分辨率算法的魯棒性和可遷移性仍然是下階段的研究熱點,現有的評價標準,如均方誤差、峰值噪聲比、結構相似性等還不能客觀地衡量重建效果,有時甚至會出現和人眼視覺相違背的情況。

4 神經架構搜索

深度學習技術在圖像分類、語音識別及機器翻譯等諸多領域上取得了舉世矚目的成功,可以自動地學習數據信息,讓研究人員擺脫特征工程,這離不開GoogLeNet、ResNet等經典的深度神經網絡模型。然而一個具有優異性能的網絡結構往往需要花費研究人員大量的時間資金投入,同時需要具備扎實的專業知識和豐富的經驗。因此人們開始研究讓機器代替人類,根據數據集和算法自動設計網絡結構。神經架構搜索技術(Neural architecture search,NAS)設計的模型如今已經在很多任務上取得了超過人工設計深度模型的性能,如圖像分割領域的Auto?DeepLab[99],目標檢測領域的NAS?FPN[100]。神經架構搜索技術是機器學習自動化(Automated machine learning,AutoML)的子領域,代表了機器學習未來發展的方向。神經架構搜索技術的流程如圖53所示,首先從一個搜索空間中通過某種策略搜索候選網絡架構,然后對其精度、速度等指標進行評估,通過迭代不斷優化直到找到最優的網絡架構。

圖53 神經架構搜索流程圖

Fig.53 Pipeline of NAS

搜索空間內定義了優化問題的變量,如網絡架構參數和超參數,這些變量決定了模型的性能。常見的網絡架構有鏈式結構和分支結構等,每一個節點的網絡架構參數包括卷積層、池化層和激活函數等,超參數包括卷積的尺寸、步長、加法或連結等。典型的網絡架構[101]如圖54所示。

圖54 網絡架構[101]

Fig.54 Network architecture[101]

搜索策略被用于探索神經架構空間,常見的策略包括隨機搜索、貝葉斯優化、遺傳算法、強化學習[102?103]和梯度算法等,其中強化學習、遺傳算法及梯度算法是目前主流的搜索策略。在性能評估時,由于訓練和驗證的時間成本較高,因此常常需要采用評估策略降低評估成本,如減少迭代次數、在訓練集的子集上訓練、減少卷積核數量等,但這些策略往往會導致一些偏差,可能會對最終的優劣次序產生影響。更高級的策略包括權重共享、通過迭代時的表現推斷最終性能以及通過模塊預測網絡性能等方法。

DARTS[104]是第一個基于連續松弛的搜索空間的神經網絡架構技術。早期傳統的NAS方法如NasNet[105]、PNAS[106]和ENAS[107]等大多在離散不可微的搜索空間上應用強化學習、進化算法等搜索策略,由于搜索空間內待搜索的參數不可導,因此一個性能優異的模型往往需要耗費大量的計算資源和時間成本。事實上,當時的研究者們將神經架構搜索技術視為一個在離散空間上的黑箱優化問題,每次架構的迭代優化都需要性能評估,效率十分低下。而DARTS使用了松弛連續的結構表示,使用梯度下降優化網絡在驗證集上的性能,實現了端到端的網絡搜索,大大減少了迭代次數,把搜索時間從數千個GPU日降低到數個GPU日。

DARTS流程如圖55所示。其中:圖(a)表示邊上的初始未知操作;圖(b)在每條邊上放置候選操作的組合,連續松弛搜索空間,不斷放寬搜索條件;圖(c)通過解決一個雙層規劃問題聯合優化混合概率與網絡權重;圖(d)用學到的混合概率求得最終的網絡架構。DARTS是一種簡單的NAS方法,適用于CNN和RNN,在CIFAR?10數據集[108]上用4個GPU日達到了2.76%的測試誤差,參數量僅有330萬個;在PTB數據集[109]上用1個GPU日以2 300萬個的參數量達到了55.7%的測試困惑度,達到了當時的最好性能。在CIFAR?10數據集上搜索出來的模型架構在ImageNet[19]數據集上以470萬個的參數量達到8.7%的top?5錯誤率,在PTB數據集上搜索出來的模型架構在WikiText?2數據集[110]上以3 300萬個的參數量達到69.6%的困惑度,優于很多手工設計的輕量化模型。

圖55 DARTS流程示意圖[104]

Fig.55 Pipeline of DARTS[104]

基于DARTS,一系列改進算法被相繼提出。在DARTS中,搜索在一個有8個單元的網絡上進行,搜索出來的架構通過堆疊在一個具有20個單元的網絡上被評估,但深度網絡和淺層網絡的結構往往不同。例如,在代理數據集(如CIFAR?10數據集)上搜索出來的網絡架構可能在目標數據集(如ImageNet數據集)上表現不理想。2019年華為諾亞方舟實驗室提出P?DARTS[111],針對這一問題(被稱為Depth Gap)提出了一種漸進式搜索的方法,如圖56所示。搜索網絡的深度從最初的5個單元增加到中期的11個和后期的17個,而候選操作的數量(用不同的顏色表示)相應地從5個減少到4個和2個。在上一階段得分最低的操作將被丟棄,最后結合分數和可能的附加規則確定最終架構[111]。

圖56 P-DARTS流程示意圖[111]

Fig.56 Pipeline of P-DARTS[111]

2019年MIT提出ProxylessNAS[112],針對DARTS只能在小型代理數據集上搜索而在大型數據集上則會出現顯存爆炸的問題提出了無代理神經架構搜索技術,在訓練時二值化路徑,用和DARTS雙層規劃類似的思想聯合訓練權重參數和架構參數,從而達到降低顯存的目的,并首次提出針對不同的硬件平臺搜索滿足特定時延的神經網絡架構方法。ProxylessNAS不再采用搜索單元然后堆疊達到更深網絡的方法,而是選擇主干網絡,如MobileNet[41]、ShuffleNet[42]等。ProxylessNAS在CIFAR?10數據集上以僅570萬個的參數量達到2.08%的測試誤差。ProxylessNAS示意圖如圖57所示。

圖57 ProxylessNAS示意圖[112]

Fig.57 Pipeline of ProxylessNAS[112]

當迭代次數過大后,DARTS設計出的網絡架構會包含很多跳接結構,使得性能變得很差,稱為DARTS的坍塌。2020年諾亞方舟實驗室提出的DARTS+[113]通過引入早停機制,即當一個正常單元出現2個或2個以上的跳接結構時就停止搜索,縮短了DARTS搜索的時間,極大地提高了DARTS的性能,其示意圖如圖58所示。

圖58 DARTS+中的早停機制示意圖[113]

Fig.58 Early Stopping in DARTS+[113]

2020年商湯研究院提出的隨機神經架構搜索SNAS[114]也是一種可微的端到端方法,但與DARTS相比,SNAS將NAS重新表述為在一個單元中搜索空間的聯合分布參數優化問題,直接優化損失函數,偏差更小。在同一輪反向傳播中SNAS同時訓練操作參數和架構參數,并提出了一種新的搜索梯度。相比基于強化學習的神經架構搜索技術,SNAS優化相同的目標函數,但更高效地只使用訓練損失作為獎勵。

PC?DARTS[115]是華為諾亞方舟實驗室2020年提出的NAS技術,在P?DARTS[111]的基礎上設計了部分通道連接機制,每次只有一部分通道進行操作搜索,這節省了訓練需要的顯存,減少了計算量,并采用邊正則化降低由于操作搜索不全造成的不確定性。PC?DARTS在CIFAR?10數據集[108]上用0.1個GPU日達到了2.57%的測試誤差,參數量僅有360萬個;在ImageNet數據集[19]上用3.8個GPU日以530萬個的參數量達到了7.3%的top?5錯誤率,取得了更快更好的搜索效果。PC?DARTS結構如圖59所示。

圖59 PC-DARTS結構示意圖[115]

Fig.59 Structure of PC-DARTS[115]

當前的神經架構搜索技術大多被用于圖像分類任務,這促使許多研究人員試圖設計出更好的人工網絡。但一方面由于搜索空間的定義被局限在現有的網絡結構設計經驗中,使得NAS設計出的網絡很難與人工網絡有本質上的區別。另一方面,NAS技術設計的網絡可解釋性很差,由于研究人員采用的數據增強、搜索空間、訓練方法及正則化策略等方法常常不同,這使得NAS設計出的架構很難被復現,不同網絡架構的性能也難以比較。由此可見,神經架構搜索領域仍然存在很多挑戰,如何解決這些問題將會是下一階段的熱門研究方向之一。

5 結束語

深度學習技術近年來在計算機視覺中的目標檢測、圖像分割、超分辨率和模型壓縮等任務上都取得了卓越的成績,充分證明了它的價值和潛力。然而深度學習領域仍然有不少難題無法解決,如對數據的依賴性強、模型難以在不同領域之間直接遷移、深度學習模型的可解釋性不強等,如何攻克這些難題將是下一階段的發展方向。為了追求極致的性能,很多科技巨頭投入了巨大的人力財力搭建巨型模型,如OpenAI發布的擁有1 750億個參數的GPT?3,谷歌發布的擁有1.6萬億個參數的Switch Transformer,快手發布的擁有1.9萬億個參數的推薦精排模型,這些模型需要大量的訓練時間和計算資源,如何設計計算硬件、系統和算法來加速訓練是一項新的挑戰。深度學習技術嚴重依賴大規模帶標簽的數據集,因此無監督學習技術、自監督技術,例如表示學習、預訓練模型等,仍然是重要的研究方向。同時深度學習技術帶來的安全隱患也引起了重視,如何在保護用戶隱私的前提下優化分布式訓練是另一個具有潛力的研究方向。

付費5元查看完整內容

圖像目標檢測是找出圖像中感興趣的目標,并確定他們的類別和位置,是當前計算機視覺領域的研 究熱點。近年來,由于深度學習在圖像分類方面的準確度明顯提高,基于深度學習的圖像目標檢測模型逐漸 成為主流。首先介紹了圖像目標檢測模型中常用的卷積神經網絡;然后,重點從候選區域、回歸和 anchor-free 方法的角度對現有經典的圖像目標檢測模型進行綜述;最后,根據在公共數據集上的檢測結果分析模型的優 勢和缺點,總結了圖像目標檢測研究中存在的問題并對未來發展做出展望。

引言

計算機視覺(computer vision)是人工智能 (artificial intelligence,AI)的關鍵領域之一,是 一門研究如何使機器“看”的科學。圖像目標檢 測又是計算機視覺的關鍵任務,主要對圖像或視 頻中的物體進行識別和定位,是 AI 后續應用的基 礎。因此,檢測性能的好壞直接影響到后續目標 追蹤[1-2]、動作識別[3-4]的性能。傳統圖像目標檢測的滑窗法雖然簡單易于理 解,但隨目標大小而變化的窗口對圖像進行從左 至右、從上至下的全局搜索導致效率低下。為了 在滑動窗口檢測器的基礎上提高搜索速度, Uijlings 等[5]提出了選擇性搜索方法(selective search method),該方法的主要觀點是圖像中的 目標存在的區域具有相似性和連續性,基于這一 想法采用子區域合并的方式進行候選區域的提取 從而確定目標。Girshick 等[6]提出的基于區域的卷 積神經網絡(region-based convolutional neural network,R-CNN)就是采用了選擇性搜索方法提 取候選區域,進而越來越多的學者在不斷改進確 定目標的方法的基礎上提出新的檢測模型。

本文首先介紹了圖像目標檢測模型中常用的 卷積神經網絡;然后,重點從候選區域、回歸和 anchor-free 方法等角度對現有的圖像目標檢測模 型進行綜述;最后,根據在公共數據集上的檢 測結果分析模型的優勢和缺點,總結了現有圖 像目標檢測研究中存在的問題并對未來發展做 出展望

基于深度學習的圖像目標檢測模型

本節將介紹近幾年提出的基于候選區域、回 歸和 anchor-free 的圖像目標檢測模型,總結各模 型相比之前模型的改進策略以及自身的創新點和 不足,并在 PASCAL VOC2007[17] 、 PASCAL VOC2012[17]和 MS COCO[18]等常用公共數據集上 做出比較。

基于候選區域的圖像目標檢測模型

R-CNN 圖像目標檢測模型是 Girshick 等[6]于 2013 年提出的,它是候選區域和卷積神經網絡這 一框架的開山之作,也是第一個可以真正應用于 工業級圖像目標檢測的解決方案,為基于 CNN 圖 像目標檢測的發展奠定了基礎。網絡結構如圖 2 所示。R-CNN 首先使用選擇性搜索方法從輸入的 圖像中提取出 2 000 個候選區域,使用剪裁[9]和變 形[19]的方法將候選區域的尺寸固定為 277×277 以 適應全連接層的輸入,通過 CNN 前向傳播對每個 候選區域進行特征計算;然后將每個候選區域的 特征向量送入特定線性分類器中進行分類和預測 概率值;最后使用非極大值抑制(non-maximum suppression,NMS)[20]算法消除多余的目標框, 找到目標的最佳預測位置。

R-CNN 圖像目標檢測模型雖然將 mAP(mean average precision,平均精度值)[17]在 VOC2007 和 VOC2012 數據集上分別達到了 58.5% 和 53.3%,在基于深度學習的圖像目標檢測領域取得 了重大突破,但由于其輸入圖像經過剪裁和變形 后會導致信息丟失和位置信息扭曲,從而影響識 別精度,并且 R-CNN 需要對每張圖片中的上千個 變形后的區域反復調用 CNN,所以特征計算非常 耗時,速度較慢。基于 R-CNN 需固定輸入圖像尺寸以及檢測 速度較慢的缺點,2014年He等[21]提出了SPP-Net, 該模型先是計算整個輸入圖像的卷積特征圖,根 據選擇性搜索方法提取候選區域,通過對特征圖 上與候選區域相對應位置的窗口使用金字塔池化 (spatial pyramid pooling,SPP)可以得到一個固定 大小的輸出,即全連接層的輸入。與 R-CNN 相比, SPP-Net 避免了反復使用 CNN 計算卷積特征,在 無須對輸入圖像進行剪裁和變形的情況下實現了 多尺度輸入卷積計算,保留了圖像的底層信息, 在VOC2007數據集上測試時 mAP達到了59.2%, 在達到相同或更好的性能前提下,比 R-CNN 模型 快 24~102 倍。雖然 R-CNN 和 SPP-Net 在 VOC2007 數據集 上都獲得了很高的精度,但兩者將分類和回歸分 為多階段進行,使得網絡占用了較多的硬件資源。2015 年 Girshick 等[22]提出了一種快速的基于區域 的卷積網絡模型(fast R-CNN)。該網絡首先用 選擇性搜索方法提取候選區域,將歸一化到統一 格式的圖片輸入 CNN 進行卷積計算,然后借鑒了 SPP-Net 中金字塔池化的思想,用最大值池化層 ROI pooling 將卷積特征變成固定大小的 ROI 特征 輸入全連接層進行目標分類和位置回歸。該網絡 采用多任務訓練模式,用 softmax 替代 SVM (support vector machine,支持向量機)[23]進行分 類,將分類和回歸加入網絡同時訓練,在末尾采用可同時輸出分類和回歸結果的并行全連接層。fast R-CNN 減少了硬件緩存,提高了檢測速度, 初步實現了端對端的圖像目標檢測,并且在 VOC2007 和 VOC2012 數據集上的 mAP 分別為 66.9%和 66.0%。

由于 fast R-CNN 無法滿足實時檢測的需求, Ren 等[24]提出了改進模型 faster R-CNN。該網絡 的最大創新就是提出了區域提議網絡(region proposal network,RPN),即在基礎卷積網絡提 取輸入圖像特征的基礎上用 RPN 代替 fast R-CNN 中的選擇性搜索方法進行候選區域的提取。RPN 是一個全卷積網絡,網絡結構如圖 3 所示,該網 絡可以同時在每個位置上預測出目標邊界和目標 概率并產生高質量候選區域,然后通過 ROI pooling將卷積特征變成固定大小的ROI特征輸入 全連接層進行目標分類和位置回歸。RPN 和 fast R-CNN通過四步交替訓練法使兩個網絡共享卷積 特征合并為單一網絡,解決了區域計算的瓶頸問 題,在實現真正端對端訓練模式的基礎上滿足了 實時應用的需求[23]。

2017 年 He 等[25]提出了 mask R-CNN 目標檢 測模型,該模型以faster R-CNN為原型,即在faster R-CNN 中生成的候選區域中融入 FCN(fully convolutional network,全卷積神經網絡)[26]作為 新的支路用于生成每個候選區域的掩膜,同時把 faster R-CNN 中 RoI pooling 修改成為了 ROI align 用于處理掩膜與原圖中物體不對齊的問題。Mask R-CNN 在訓練時可以同時生成目標邊界、目標概 率和掩膜,但在預測時通過將目標邊界和目標概 率的結果輸入掩膜預測中以生成最后的掩膜,該 方法減弱了類別間的競爭優勢,從而達到了更好 的效果,在 MS COCO 數據集上的 mAP 測試結果 達到 35.7%。

基于回歸的圖像目標檢測模型

**YOLO 及擴展模型 **

檢測精度和檢測速度是評判圖像目標檢測模 型好壞的重要標準[27]。基于候選區域的圖像目標 檢測模型,雖然在檢測精度方面首屈一指,但是 它檢測圖像的效率低是其主要弊端。2016 年 Redmon 等[28]提出 YOLO(you only look once)檢 測模型,該模型將圖像目標檢測抽象為回歸問題, 通過對完整圖片的一次檢測就直接預測出感興趣 目標的邊界框和類別,避免了 R-CNN 系列中將檢 測任務分兩步進行的煩瑣操作,解決了之前圖 像目標檢測模型檢測效率低的問題。檢測網絡 將輸入的圖片分成 s×s 個網格,如圖 4 所示,各 網格只負責檢測中心落在該網格的目標,預測 出網格的類別信息以及多個邊界框和各個邊界 框的置信度,通過設定閾值過濾掉置信度較低 的邊界框,然后對保留的邊界框進行 NMS 處理 以確定最終的檢測結果。YOLO 以回歸替代了 之前圖像目標檢測模型的候選區域方法,在滿足 實時需求的基礎上檢測速度達到 45 f/s,但由于 YOLO 在檢測過程中僅選擇置信度最高的邊界框 作為最終的輸出,即每個網格最多只檢測出一個 物體,因此 YOLO 在檢測緊鄰群體目標或小目標 時效果不佳,在 VOC2007 上的 mAP 也僅有 66.4%。針對 YOLO 在目標定位方面不夠準確的問 題,2017 年 Redmon 等[29]提出了 YOLO 的擴展模 型 YOLOv2 和 YOLO9000。YOLOv2 首先在卷積 層中添加批量歸一化(batch normalization,BN)[30]技術使得模型的收斂性有顯著的提升,然后借鑒 faster R-CNN 的思想用聚類方法產生的錨框替代 了 YOLO 中預測出的邊界框,最后通過輸入更高 的分辨率圖像并對其進行遷移學習[31]從而提升網 絡對高分辨率圖像的響應能力,訓練過程中無須 固定圖像的尺寸,因此在一定程度上提升了網絡 的泛化能力。除此之外 YOLOv2 還提出將一個由 19 個卷積層和 5 個 MaxPooling 層構成的 Darknet-19[28]網絡作為骨干網進一步提升檢測速 度。而 YOLO9000 則是在 YOLOv2 的基礎上提出 了目標分類和檢測的聯合訓練方法,使 YOLOv2 的檢測種類擴充到 9 000 種。2017 年 Redmon 等[32] 提出了 YOLOv3 檢測模型,它借鑒了殘差網絡結 構,形成網絡層次更深的 Darknet-53,通過特征 融合的方式采用 3 個不同尺度的特征圖進行目標 檢測,并且用 logistic 代替 softmax 進行類別預測 實現了多標簽目標檢測,該網絡不僅提升了小目 標檢測效果,在邊界框預測不嚴格并且檢測精度 相當的情況下檢測速度是其他模型的 3~4倍。

SSD 及擴展模型

2016 年 Liu 等[33]提出 SSD 圖像目標檢測模 型,該模型徹底淘汰了生成候選區域和特征重采 樣階段,選擇將所有計算封裝在單個深層神經網 絡中,網絡結構如圖 5 所示。SSD 網絡繼承了 YOLO 中將目標檢測問題抽象為回歸問題的思 想,采用特征金字塔的方式進行檢測,即利用不 同卷積層產生不同的特征圖,使用一個小的卷積 濾波器來預測特征圖上一組固定的默認邊界框類 別和位置偏移量。為了實現較高的檢測精度,在 不同尺度的特征圖中進行不同尺度的預測,并設 置不同長寬比的邊界框進行分離預測。由于圖 像中的目標具有隨機性,大小不一,所以小目 標的檢測是由 SSD 使用底層特征圖來實現的, 大目標的檢測是由 SSD 使用高層特征圖來實現 的,相對于 YOLO 精確度大幅度提高,并且效 率也有所提升。2017 年 Fu 等[34]提出 DSSD 檢測模型,即將 Resnet-101 作為 SSD 的骨干網,在分類回歸之前 引入殘差模塊,并且在原本 SSD 添加的輔助卷積 之后又添加了反卷積層,與 SSD 相比,DSSD 在 小目標的檢測精度上有了很大的提升,但 Resnet-101 網絡太深導致 DSSD 的檢測速度相比 SSD 較慢。2017 年 Jisoo 等[35]在未改動 SSD 主干網絡的基礎上提出了 RSSD(rainbow SSD)檢測 模型,該網絡同時采用池化和反卷積的方式進行 特征融合,不僅增強了不同特征層之間的關系, 由于融合后的特征大小相同,還一定程度上增加 了不同層的特征個數。這種特征融合方式解決了 SSD 存在的重復框的問題,同時提升了對小目標 的檢測效果,但與 SSD 相比檢測速度較慢。2017 年 Li 等[36]提出了 FSSD,該模型通過重構一組金字 塔特征圖充分融合了不同層不同尺度的特征,在 保證檢測速度與 SSD 相當的同時使得檢測精度有 了明顯的提升。2019 年 Yi 等[37]借鑒注意力機制[38] 的思想在 SSD 檢測模型中設計了一個注意力模 塊,該注意力模塊基于全局特征關系可以分析出 不同位置特征的重要性,從而達到在網絡中突出 有用信息和抑制無用信息的效果,ASSD[37]檢測精 度提高,但與 SSD 相比,檢測速度較慢。

基于 anchor-free 的圖像目標檢測模型

圖像目標檢測發展日新月異,越來越多優秀 目標檢測模型陸續被提出,基于候選區域和回歸 方法的檢測模型目前發展穩定并且成熟,而基于 anchor-free 的檢測模型是當下目標檢測領域中新 的熱門研究方向,anchor-free 檢測模型有兩種, 分別為基于關鍵點的檢測和基于分類和回歸進行 改進的檢測。

基于關鍵點的檢測

2018 年 Law[42]受到 Newell 等在姿態估計[43-46] 中的關聯嵌入的啟發提出了 CornerNet,這是一種 新型的圖像目標檢測方法。CornerNet 將一個目標 檢測為一對關鍵點,即目標邊界框的左上角點和 右下角點,是第一個將圖像目標檢測任務表述為 利用嵌入角點進行分組和檢測任務的模型,開啟 了基于關鍵點的目標檢測方法的大門。CornerNet 首先使用沙漏網絡[15]作為其骨干網絡輸出最后一 層卷積特征,骨干網后接兩個分支模塊,分別進 行左上角點預測和右下角點預測,每個分支模塊 包含一個 Corner pooling(角池化)和 3 個輸出, 網絡結構如圖 7 所示。heatmaps(熱圖)輸出的 是預測角點的位置信息,當圖像中出現多個目標時,embeddings(嵌入)根據左上角點和右下角 點嵌入向量之間的距離對屬于同一目標的一對角 點進行分組;offsets(誤差)是輸出從圖像到特征 圖的量化誤差,用來對預測框進行微調。

當角點在目標之外時,此時獲取的信息不足 以進行當前的定位,為了能夠更好地定位邊界框 的角點,Law 等[42]介紹了一種新型池化層—角池 化層,該池化層包含兩個特征圖,在每個像素位 置,它將第一個特征圖下側的所有特征向量和第 二個特征圖右方的所有特征向量最大化,然后將 兩個合并后的結果相加輸出最后的角點。CornerNet 極大地簡化了網絡的輸出,徹底消除了 圖像目標檢測對候選區域和候選框的需要,在 MS COCO 上實現了 42.1%的 mAP,但當 CornerNet 將邊界框的角點定位在物體之外時目標的局部 特征表現不強烈,并且在判斷兩個角點是否屬 于同一目標時,由于缺乏全局信息的輔助導致 匹配角點時產生錯誤目標框,因此存在一定的 誤檢率。2019年Zhou等[47]借鑒CornerNet 的思想提出 一種新的檢測思路,即通過關鍵點估計[48-50]網絡 對每個目標預測出 4 個極值點和 1 個中心點,然 后提取極值點的峰值,暴力枚舉所有的組合并計 算出每個組合的幾何中心點,若幾何中心點與預 測的中心點匹配度高于設定閾值,則接受該組合, 并將這 5 個極值點的得分平均值作為組合的置信 度。ExtremeNet[47]將目標檢測問題轉化成單純的 基于外觀信息的關鍵點估計問題,避免了對目標 隱含特征的學習,相對于 CornerNet 更好地反映了物體的信息,檢測效果更好。

基于分類和回歸進行改進的檢測

自 2018 年 CornerNet 提出以來,基于 anchor-free 的目標檢測模型在分類和回歸的方法 上又有了新的創新,如 2019 年 Zhu 等[53]提出一種 基于 anchor-free 的動態選擇特征層的方法,該方 法主要是在 RetinaNet 的基礎上建立一個 FSAF(feature selective anchor-free)模塊,即對每個層 次的特征都建立一個可以將目標分配到合適特性 級別的 anchor-free 分支,使得目標框能夠在任意 特征層通過 anchor-free 分支進行編解碼操作。FSAF 可以和基于錨的分支并行工作平行的輸出預測結 果,有效地提升了 RetinaNet 的穩健性,解決了傳統 基于錨框檢測的網絡根據候選框選擇特征層的局限 性,并在 MS COCO 上實現了 42.8%的 mAP。傳統基于錨框的檢測網絡面對變化較大的目 標時需要根據檢測任務預定義錨框尺寸,通過手 工設置錨框提高召回率這一操作不僅占用較大的 計算和內存資源,還在一定程度上深化了正負樣 本不平衡問題。2019 年 Tian 等[54]提出一種全卷積 目標檢測網絡 FCOS,類似語義分割中[55]利用逐 像素點預測的方式解決目標檢測問題。為了提高 檢測效果,FCOS 引入 center-ness 分支用于降低檢 測效果不理想的目標框權重,然后通過 NMS 算法 確定最終檢測結果。基于 anchor-free 的 FCOS 檢 測網絡極大地降低了參數計算,可以與其他視覺 任務相結合,并且盡可能多地使用正樣本參與訓 練,解決了之前檢測模型中出現的正負樣本不平 衡問題,但在檢測時由于目標真實框重疊,可能 會出現語義模糊情況。2019年Kong等[59]提出了FoveaBox目標檢測 網絡,結合人類視覺系統是通過眼球中對物體感 應最敏銳的中央凹(Fovea)結構確定物體位置的 原理對目標真實框進行位置變換,更具體地說是 通過目標真實框找到目標對應在特征圖中的中心 位置,然后設定兩個縮放因子分別對目標真實框 向中心點進行收縮和擴展,將收縮邊框的內部點 作為正樣本,擴展邊框外部點作為負樣本。這種 通過位置變化忽略兩個邊框中間點的方法不僅增 加了正負樣本之間的識別度、解決了樣本不平衡 問題,還有效提升了檢測性能,但與其他 anchor-free 模型相比檢測精度略低,在 MS COCO 上實現的 mAP 僅有 40.6%。

圖像目標檢測模型對比

本文對現有經典圖像目標檢測模型的創新點 及優缺點做出對比,見表 1。無論是候選區域法、 回歸法還是 anchor-free 法,提出模型的主要目的 都是為了能夠高精度、高速率地識別并檢測出目 標。由表 1 可以看出,基于候選區域法模型的提 出開啟了用 CNN 提取特征的大門使圖像目標檢 測進入深度學習時代,回歸法則解決了候選區域 法的速度瓶頸問題,實現了端對端的圖像目標檢 測。而基于 anchor-free 的算法消除了候選區域法 和回歸法中候選框的設計,生成高質量的目標框 并在未來形成了一個有前途的方向。對本文中提到的圖像目標檢測模型在公共數 據集上的檢測結果做出對比,見表 2。“—”表示 此數據集沒有該模型的測試結果,2007 表示數據 集 VOC 2007,2012 表示數據集 VOC 2012;[email protected] 表示該模型在 MS COCO 數據集上是取 閾值為 0.5 計算精度的,AP@[0.5,0.95]表示該模 型在 MSCOCO 數據集上是取 10 個閾值(間隔 0.05)計算精度的,即 mAP,表 2 中所有的數據 集精確率檢測結果均以百分比為單位。FPS 表示 該模型每秒處理圖片的數量。

付費5元查看完整內容

近年來,人工智能技術突飛猛進,人工智能系統已經滲透到人們生活中,成為人們生活中不可或缺的一部分. 然而,人工智能系統需要數據訓練模型,數據擾動會對其結果造成影響.并且隨著人工智能系統業務多樣化,規模復雜化,人工智能系統的可信性愈發受到人們的關注. 首先,在梳理不同組織和學者提出的人工智能系統可信屬性基礎上,提出了人工智能系統的九個可信屬性; 接著, 從數據可信性、模型可信性和結果可信性分別介紹現有的人工智能系統數據、模型、結果可信性度量方法,設計了人工智能系統可信證據收集方法.其次, 總結當前人工智能系統的可信度量評估理論與方法.然后, 結合基于屬性的軟件可信評估方法與區塊鏈技術, 建立了一個人工智能系統可信度量評估框架,包括可信屬性分解及可信證據獲取方法、聯邦式可信度量模型與以及基于區塊鏈的人工智能系統可信度量評估架構。最后,討論人工智能系統可信度量技術面臨的機遇和挑戰.

引言

人工智能自 1956 年誕生以來,經歷了從繁榮到衰退再到繁榮的螺旋式發展過程,出現了三次發展高潮[1]。第三次高潮起源于辛頓(Hinton)在 2006 年提出的深度學習概念[2],2016 年圍棋機器人 AlphaGo[3]以該模型為 核心的算法戰勝了人類頂級棋手引發廣泛關注,極大地推動了人工智能的研究與應用高潮。近年來,歐美日 等國持續加大對人工智能基礎理論和應用的重點投入,以保持其在人工智能技術方面的領先地位。我國政府 在 2017 年發布了《新一代人工智能發展規劃》,將人工智能正式列入國家發展戰略[4],學術界和產業界也掀 起了人工智能研發熱潮,李國杰院士和陸汝鈐院士等多位人工智能科學家在多個場合呼吁重視人工智能的發 展態勢[5],華為、百度、騰訊、科大訊飛等人工智能領域企業也在不斷增強其人工智能方面的研發力量,人工智能在圖像識別、數據挖掘、自然語言處理、推薦算法、信息檢索、語言識別和自動駕駛等領域均得到了 不同程度的應用。

然而,隨著人工智能不斷融入我們的日常生活,人工智能系統的表現還不盡如人意。例如,近年來,許 多學者發現,在圖像識別領域,人工智能模型對訓練數據非常敏感,當訓練數據受到擾動時可能輸出不恰當 的結果,這種對抗性擾動已經成為人工智能模型,尤其是神經網絡模型的夢魘:對抗攻擊[6][7][8]。而且,在自動駕駛領域也有研究發現,除了人為的對抗攻擊,極端光照條件也會影響視覺系統識別,從而影響自動駕駛 [9]。另一方面,如果訓練數據被偏見性地標注,相應機器學習模型的輸出結果往往也會具有一定偏見性[10]。復旦大學管理學院企業管理系孫金云教授研究團隊 2021 年發表的“2020 打車軟件出行狀態調研報告”表明, 打車軟件通過“差異化的偏差信息”提高了平臺自身的收益[11]。這些數據一旦被濫用于機器學習算法,不僅 可能導致偏見性的結果,還可能導致隱私泄露問題的出現。這類事件頻繁出現,越來越多的專家和學者開始 關注人工智能系統的可信性[1][5][12]。系統的“可信性”是基于傳統的“安全”“可靠”等概念產生的,簡單來 說是指一個系統在實現給定目標時,其行為及其結果符合人們的期望[13]。劉克等人認為軟件系統“可信性” 是人類心中對客觀對象各屬性較為整體的反映[14]。

在政府機構和有關學者的引導下,學術界和產業界都愈發關注人工智能系統可信性[15],構造可信人工智 能已經成為現代人工智能發展和應用的重要趨勢和必然選擇。然而,構造可信人工智能需要人們對人工智能 系統的可信性有著清晰的認知,因而如何綜合評估判斷人工智能系統的可信性已經成為可信人工智能研究中 的一個重要問題。因為人工智能系統可信性由其多維屬性反映,并且人工智能系統的可信性問題需要從其訓 練數據可信性、學習模型可信性和預測結果可信性三個方面來考慮,所以對人工智能系統可信性的綜合評估 較為困難。本文從人工智能的可信屬性入手,總結梳理人工智能應有的可信屬性;接著討論了數據、模型和 結果可信性的度量方法,為度量人工智能系統可信性提供證據基礎。在此基礎上,本文討論了現有的人工智 能可信度量模型。然后,本文提出了一個基于可信屬性的人工智能系統可信度量框架,期待推動人工智能可 信度量的研究與發展。本文將從以下幾個方面討論人工智能系統可信評估的研究現狀和面臨的挑戰:

(1) 人工智能系統的可信屬性

可信性是人類心中對客觀對象各屬性較為整體的反映,傳統軟件的可信屬性通常包含可靠性、安全 性、可用性、正確性等諸多屬性[14],人工智能系統作為軟件系統的一種,其可信屬性包括部分傳統 軟件的可信屬性。但是,人工智能系統本身的特性又導致其具有普通軟件所不具有的其他屬性,例 如描述對抗數據干擾能力的魯棒性,沒有偏見的公平性等。因此,如何準確描述這些屬性對人工智 能系統的可信評估有著重要作用。

(2) 人工智能系統數據、模型和結果可信性與人工智能系統度量模型

人工智能系統的可信性依賴于大量可靠的數據支撐、恰當的模型選擇和符合預期輸出結果,即其可 信性依賴于其訓練數據可信性、學習模型可信性和預測結果可信性。數據可信性是訓練出可信模型 的基礎,模型可信性又是得到符合人們心理預期結果的基礎,三者相輔相成,相互依賴,共同影響 著人工智能系統的可信性。為了實現對人工智能系統可信性的度量,需要從數據、模型和結果三方 面的度量結果收集可信證據。此外,現有對人工智能系統度量的工作也為人工智能系統可信性度量 模型建立打下了堅實的基礎。

(3) 基于可信屬性的的人工智能系統可信度量評估體系

傳統軟件可信評估理論經過數十年的發展,已經被證明在傳統軟硬件系統開發中是確保系統可信必 不可少的技術。例如列車控制系統和航空飛行系統開發國際標準中均要求將該方法貫穿于整個系統 的開發周期以獲得較高的可信等級認證[16]。尤其是基于可信屬性的軟件可信度量評估,現在已經有 了較為成熟的研究成果,并被用于各種安全攸關軟件的可信性度量中[17]。然而,由于目前人工智能 系統本身特有的性質,使得不能直接將軟件可信評估理論簡單地移植到人工智能系統,而是要針對 人工智能系統本身的可信性進一步研究可信度量評估理論與技術。本文結合人工智能系統可信性現 狀和軟件可信評估理論提出了一個人工智能系統可信度量評估框架,具體包括可信屬性分解及可信 證據獲取方法、聯邦式可信度量模型與基于區塊鏈的人工智能系統可信度量評估架構。該框架還將 保障數據可信性常用的區塊鏈技術融入可信度量全過程,從而可以保障整個度量過程的不可篡改性。

1 研究現狀和動機

1.1 人工智能現狀

1950 年,計算機科學之父圖靈在論文《計算機器與智能》中描述了智能的概念,并提出機器智能的測試 方法,即“圖靈測試”[18]。隨后在 1956 年的達特茅斯會議上,美國 10 位學者正式提出了人工智能概念,達 特茅斯會議也成為第一次人工智能研討會,1956 年被稱為“人工智能元年”[19]。人工智能的發展自其誕生以 來經歷了三次高潮。2006 年辛頓提出的深度學習算法的概念[2],不僅掀起了深度學習研究與應用的熱潮,而 且促進了人工智能第三次高潮的興起。人工智能發展的潮起潮落引領著人工智能不斷健康地發展,也使得人 工智能技術健康地服務人類。現在,人工智能技術在各個領域已經取得了豐碩的研究成果,圖像識別[20]、自 然語言處理[21]、計算機視覺[22]、自動駕駛[23]、推薦系統[24]等技術中處處可見其身影。

1.2 可信人工智能發展戰略規劃

如何保障人工智能的健康發展已經成為當前社會和國家關注的主要問題之一,許多政府和學者都倡導科 學發展人工智能。2016 年 9 月,英國下議院提出應對機器人發展帶來的倫理、法律和道德問題[25]。2018 年 3 月,歐洲政治戰略中心提出要解決人工智能在發展過程中出現的偏見問題,研究人工智能的道德準則[26]。2018 年 4 月,歐盟確立人工智能的倫理和法律框架[27]。2018 年 12 月,歐盟委員會的人工智能高級專家組 (High-LevelExpertGrouponArtificialIntelligence,AIHLEG)發布了《可信人工智能倫理指南草案》,該指南提出了 一個可信人工智能框架,總計 10 項可信人工智能要求和 12 項實現人工智能的技術和非技術方法[28]。

2016 年 10 月,美國國家科學技術委員會(NSTC)探討了人工智能潛在的公共問題[29][30]。2017 年年初, 美國國家科學基金會、國防部高級研究項目局(DARPA)啟動可解釋人工智能計劃,發展可解釋、可信的人 工智能技術[31]。2018 年 4 月,美國國防部發表《國防部人工智能戰略》,旨在促進美國人工智能安全[32]。2018 年 9 月 DARPA 啟動了 20 億美元的 AINext 戰略,明確發展第三代人工智能基礎理論和技術,重點內容包括 魯棒、對抗、高效知識推理,以及更強能力的人工智能理論和技術[33]。

2018 年 6 月,新加坡成立人工智能倫理委員會,以幫助政府制定倫理標準[34]。同一時間,印度政府發布 《人工智能國家戰略》,其中重點涉及了道德隱私方面的問題[35]。我國政府從 2015 年開始就大力推進人工智 能技術發展[36],2016 年發展人工智能技術被列入“十三五”發展規劃[37]。2017 年國務院和工信部提出新一 代人工智能發展規劃[4][38],強調人工智能健康發展,2018 年國家標準化管理委員會發布的人工智能標準化白 皮書中提到關注人工智能的安全、倫理和隱私問題[39]。

1.3 軟件可信性研究現狀

1.3.1 軟件可信性概念

隨著科技的不斷發展,計算機在人類社會的普及程度越來越高,無論是經濟、軍事還是社會生活中的方方面面,人們都越來越離不開軟件,對軟件的功能需求也在不斷增加。隨著軟件系統日益復雜化,開發規模 不斷擴大,或多或少都存在的軟件缺陷使得人們越來越難以控制軟件質量。各種各樣的軟件事故不斷給用戶 帶來嚴重的損失,軟件經常不按人們期望的方式工作[17][40],使得人們逐漸失去對軟件的信任,可信性的概念 應運而生[14]。

“可信性”是在軟件傳統的“可靠”“安全”等概念的基礎上發展而來的。1972 年,Anderson 提出可信 系統的概念[41],這是人們對計算機系統可信性的首次探索。但是此時人們大多關注硬件的可信性,直到美國 國防部制定可信計算機標準時才提到軟件可信性的概念[42]。Laprie 指出可信性與可靠性是兩個不同的概念, 前者比后者要復雜的多[43]。美國科學與技術委員會 NSTC 則認為即使在系統在危險情況下,即系統本身存在 錯誤,環境存在危險或者系統遭到其他人的致命攻擊,設計者、實現者和使用者都能保障系統的大部分功能, 使其不會失效,則該系統是高可信的[44]。美國國家研究委員會 NRC 認為一個系統即使在運行環境出現問題、 操作人員失誤操作、系統受到外界的致命攻擊或者系統的設計和實現存在 Bug 的情況下,也能夠按照原來設 定的預期運行,得到預期的結果,那么該系統是可信的[45]。德國奧爾登堡研究生院的研究發現可信性應該包 括正確性、安全性、服務質量、保密性和隱私性[46]。在我國國家自然科學基金委“可信軟件基礎研究”重大 研究計劃中,何積豐等人[14]認為可信性是人類心中對客觀對象各屬性較為整體的反映,提出了可信軟件 (TrustworthySoftware)是指軟件系統的動態行為及其結果總是符合人們預期,并在受到干擾時不會失效, 并能提供連續服務的軟件,這里的“干擾”包括操作錯誤、環境影響和外部攻擊等。陳火旺院士則認為高可 信性質包括可靠性、防危性、安全性、可生存性、容錯性和實時性[47]。

1.3.2 軟件可信性發展計劃

軟件可信性保證對整個軟件產業,特別對安全攸關軟件研發的影響日益加深。各國政府、研究機構以及 各大公司都對軟件可信性研究提出了相應的研究計劃。美國自然科學基金會從 2005 年開始便在可信計算研究 領域投入約數億美元[48],政府的“網絡與信息技術研究發展計劃”中重點強調“可信軟件”相關領域[49];歐 洲于 2006 年 1 月啟動了名為“開放式可信計算”(OpenTrustedComputing)的研究計劃,旨在開發開源可信計 算軟件,已有 23 個研究機構參加[50];歐盟于 1997 年 12 月通過的“第五框架計劃”[51]和 2002 年 11 月通過 的“第六框架計劃”[52]都把高可信軟件作為軟件技術發展的重點。構造可信軟件已成為現代軟件技術發展和 應用的重要趨勢和必然選擇。我國國家中長期科學和技術發展規劃綱要(2006-2020 年)中將可信計算機的研究 作為發展重點[53];2007 年,“863”計劃開展“高可信軟件生產工具及集成環境”重點項目[54];國家自然科 學基金委于 2007 年提出開展“可信軟件基礎研究”重大研究計劃[14],并將“軟件的可信性度量與評估”列 為四個重要核心問題之首。

1.3.3 軟件可信性度量評估

軟件可信度量評估有助于軟件可信性保障,因而其研究成果具有重大意義。國內外一系列學者專家專注 于此,并取得了豐碩的研究成果。Marascas 等使用問卷調查的方法,結合多元統計分析方法,將人的主觀評 價和軟件的客觀度量結果相結合,形成綜合的度量結果[55][56][57]。美國國家標準與技術研究院 NIST 提出一種 自上而下的軟件可信性評估框架,使用形式化方法來確定軟件可信值[58]。Alexopoulos 等將貝葉斯概率和 DS 證據理論結合,使用模塊化的思想,量化相關風險并對軟件組件可信性進行度量[59]。CHO 等提出了一個系統 級別的可信度度量框架,從可信屬性的角度度量軟件可信性,該框架包含安全性、信任、彈性和敏捷性度量 標準,稱為 STRAM 框架[60]。

國內的許多科研團隊同樣在軟件可信度量領域取得了豐碩的研究成果。楊善林院士團隊采用專家打分的 效用值結合 DS 證據理論來計算軟件可信性[61][62]。鄭志明和李未院士團隊使用動力學分析,研究軟件在動態 開放環境下的行為統計學特征,建立軟件關于可信屬性的縮小化最優統計分析方法[63][64][65]。王懷民院士團隊 對可信軟件的概念做了進一步規范,也從可信屬性的角度建立軟件可信屬性模型和軟件可信等級,給出一種 基于驗證的可信證據模型[66]。王青教授團隊建立了支持軟件過程可信評估的可信證據,從開發過程數據來評 估軟件可信性[67]。陳儀香教授團隊同樣面向多維屬性,基于公理化的方法建立面向軟件多維屬性的軟件可信度量模型,并提出軟件可信性分配模型與增強規范[17][68][69]。他們還從軟件源代碼角度,建立基于 Extensive 結構的軟件可信性度量模型[70]。

1.4 人工智能系統可信度量動機研究

在人工智能技術發展初期,其應用主要是專家系統、定理證明、問題求解等領域[71],這些領域任務相對 較為簡單,初期人工智能技術足以應付這些問題。隨著人工智能技術發展,人們對人工智能系統和智能軟件 的需求不僅僅停留在這些簡單問題上,圖像識別、語音識別、無人駕駛、推薦系統等越來越多的領域開始應 用人工智能技術,由此人工智能走向了第三次發展高潮。

然而,和軟件發展一樣,人工智能系統愈發復雜化的同時,其可信性越來越受到人們的關注。2015 年 8 月,印度一名配件公司員工由于離焊接金屬板機器人太近而被機器人殺死[72]。2016 年 8 月,浙江大學徐文淵 教授帶領的團隊在 Defon 黑客大會上對特斯拉自動駕駛技術進行攻擊,導致其自動駕駛失效[73]。2018 年 3 月 Uber 自動駕駛汽車在行駛過程中沒有識別路上行人,撞倒了該行人并導致其死亡[74]。人工智能系統不僅 面臨著傳統軟件所存在的可信問題,而且存在人工智能特有的問題。文獻[75]發現醫療診斷工具對黑人患者分 配較少的醫療資源,并且對許多白人患者,該醫療診斷工具拒絕使用黑人患者已使用過的治療設備。同樣, 2018 年 5 月,亞馬遜公司智能音箱出現故障,錯誤地把俄勒岡州一名女士和其丈夫的對話發到了他人郵箱[76]。這類事件使得人們對人工智能系統的可信性愈發關注,各個國家也在人工智能發展戰略中提到發展可信人工 智能。

人工智能系統可信度量可以幫助人工智能系統的開發者和使用者了解人工智能的可信程度,使他們對人 工智能系統的可信程度有一個明確的認知。開發者可以通過可信度量得出的結果進一步改進開發的系統,使 得該系統可以保證用戶安全的同時,讓用戶有更好的智能體驗。用戶也可以根據可信度量的結果對自己使用 的智能系統的可信程度有所了解,在使用過程中可以放心享受智能帶來的快樂和方便。因而,對人工智能系 統進行可信度量是人工智能系統健康發展的必然選擇。

2.人工智能可信屬性

目前,越來越多的組織和學者關注人工智能系統的可信性,他們意識到,人工智能系統可信性不同于傳 統軟件的可信性,它的可信屬性除了包含傳統軟件所需要的可信屬性外,還應包含許多人工智能本身特性而 產生的相關性質。例如,人工智能模型的黑盒特性需要關注人工智能的可解釋性與透明性。

歐盟委員會人工智能高級專家組提出可信人工智能倫理指南草案[28],為可信人工智能提出了可追責性、 數據治理、普惠性、人工智能自主性的管控、非歧視、尊重和強化人類自治、隱私保護、魯棒性、安全性、 透明性共 10 個基本要求,這些要求給人工智能提出了可追責性、普惠性、自主性、公平性、隱私性、魯棒性、 安全性、透明性共八個可信屬性。美國和 OECD 組織認為,可信人工智能需要擁有包容性增長、可持續發展 和福祉、以人為本的價值觀與公平、透明度和可解釋性、魯棒性以及安全性和防危性[77],這些要求對應了可 持續發展、價值觀、公平性、透明性、可解釋性、魯棒性、安全性、防危性八個可信屬性。美國國家標準與 技術研究所 NIST 對人工智能提出其需要擁有互操作性、安全性、可靠性、魯棒性、公平性和可解釋性共六 個可信屬性的要求[78]。IBM 公司則認為,人工智能系統應擁有公平性、魯棒性、透明度和問責制、價值觀、 可解釋性、隱私[79]。這意味著他們認為,人工智能系統的可信性應具有公平性、魯棒性、透明性、可追責性、 價值觀、可解釋性、隱私性七個可信屬性。

許多學者也對人工智能應用有的可信屬性提出了自己的見解。Singh 等認為可信人工智能不應具有偏見, 應保證公平性,模型具有可解釋性與透明度、應對對抗性攻擊的魯棒性,系統本身還要做到隱私保護,保證 安全性的同時也要具有得體性[80]。Singh 等對人工智能提出了公平性、可解釋性、魯棒性、隱私性、安全性、 得體性六個可信屬性。Fujii 等則認為人工智能系統要保證數據的完整性、模型的魯棒性、系統的高質量、過 程的敏捷性以及滿足客戶的期望[81],他們更加強調完整性、魯棒性、系統質量以及敏捷性。而對于 Chatila 等而言,他們關注的是人工智能系統的透明性、可驗證性、可解釋性、安全性與魯棒性[82]。Ashoori 等也提出了影響人們信任人工智能的七個因素[83],分別是決策風險、決策者、訓練方法、模型的可解釋性、訓練和 測試集的說明、社會透明性與模型置信度。這些因素強調了可信人工智能的公平性、魯棒性、可解釋性、透 明性與置信度。我國何積豐院士也提出人工智能應具有魯棒性、自我反省性、自適應性和公平性[12]。下表 1 中列出了各個不同組織機構和學者對可信屬性的見解。這些可信屬性從不同的角度提出了對人工智能系統可 信性的要求。從傳統軟件可信性的角度提出了人工智能系統可信性應滿足的要求:隱私性、安全性、防危性、 可靠性、系統質量和敏捷性;從人工智能模型的黑盒特性對其行為結果產生的影響提出了:公平性、魯棒性、 可解釋性、透明性、可追責性、可驗證性和置信度等屬性;從人工智能要為人類服務的角度提出了可信需求:普惠性、可持續發展和互操作性;從人工智能應具有人的特征提出了:自主性、價值觀、得體性、自適應性 和自我反省性。

人工智能系統作為軟件系統的一種,其可信性需要滿足傳統軟件的要求,而作為人工智能系統,其可信 性又要強調其本身的特性和人的特征。因而,本文認為人工智能系統的可信屬性應包含可靠性、隱私性、安 全性、防危性、公平性、魯棒性、可解釋性、自適應性和自我反省性共九個屬性。其中,可靠性要求人工智 能系統能提供可靠服務,其數據、結果等應是可靠的;隱私性要求人工智能系統能保護其所擁有和使用的數 據隱私不被泄露;安全性要求人工智能系統可以抵抗外來因素,保護系統信息完整性、機密性和可用性;防 危性要求人工智能系統失效時不會產生不可接受的風險;公平性要求人工智能系統可以公平地對待所有使用 者;魯棒性要求人工智能系統可以在受到擾動時輸出正確的結果;可解釋性要求人工智能系統中的模型可解 釋,其判斷過程可以被人類所理解;自適應性要求人工智能系統在新環境下可以適應,輸出正確的結果;自 我反省性要求人工智能系統對自身性能或錯誤能夠有所感知。這些屬性不僅結合了人工智能系統本身的特性、 和傳統軟件可信屬性,而且也從為人類服務的角度考慮,更加準確地反應了人工智能系統的可信性特征,為 度量人工智能系統的可信性奠定多維屬性基礎。

3 人工智能系統可信度量證據

人工智能系統可信證據是指可從人工智能系統中提取且用于衡量人工智能系統可信性的相關指標。因為 人工智能系統的可信性問題可以從其訓練數據的可信性、學習模型的可信性和預測結果的可信性三個方面來 考慮,本節從這三個方法討論了相關度量方法,并設計了人工智能系統可信證據的收集方法。

**4 人工智能系統可信度量模型 **

在之前的部分,我們討論了人工智能系統的可信屬性,總結梳理了人工智能系統的九個可信屬性。然后, 為了度量人工智能系統可信性,本文從訓練數據可信性、學習模型可信性和預測結果可信性三方面討論了度 量方法,為可信性度量提供可信證據。近年來,有部分學者對人工智能系統的可信度量評估進行了研究,本 節將著重介紹這些研究。

Shepperd 和 Nakamochi 從軟件質量的度量出發,對人工智能系統進行度量。Shepperd 回顧了軟件度量的 相關概念,并進一步介紹了人工智能和軟件工程的關系,他認為軟件度量的許多度量指標都可以被應用在專 家系統的管理和質量保證方面,包括軟件結構度量等,但是由巴里·勃姆(BarryBoehm)提出的軟件成本估 算方法 COCOMO 無法直接應用于專家系統[115]。Nakamichi 等重點研究了機器學習系統所要求的質量特性, 以滿足企業信息系統的質量要求。他們通過確定與機器學習系統需求規范相關的 22 個問題,包括環境/用戶、 系統/基礎設施、模型和數據,將傳統的軟件質量標準 ISO25010 的質量擴展到機器學習系統所擁有的特性, 提出了評價質量特性的指標和測量方法,并通過一個行業的實證研究,驗證了所提出模型和測量方法的可行 性[116]。

也有一些學者針對不同類型的人工智能系統提出了度量模型。Cheng 等提出了一個基于主觀邏輯的神經 網絡可信量化框架 DeepTrust,其構建了人工智能算法的概率邏輯描述,同時考慮了數據集和內部算法工作的 可信度[117]。DeepTrust 同時適用于分類和回歸問題,其輸入值不影響可信度的計算。DeepTrust 不僅能夠在訓 練數據和訓練過程可訪問的前提下,對訓練階段神經網絡的意見進行量化,而且在給定預訓練神經網絡的情 況下,它還可以用于神經網絡決策或輸出的可信量化。神經網絡預測的意見和可信度量化提供了對輸入數據 和神經網絡內部工作可信度的評估,并且在神經網絡過擬合時非常有效。Uslu 等則首次提出了一種可信指標 框架來評估人工智能系統在食品、能源和水管理決策中的驗收標準,在評估專家選擇每個人工智能系統提出 的最合適的解決方案中,計算從這些人工智能系統提出的解決方案到專家給出的最佳參考方案的距離,并使 用提出的信任框架計算系統的可信接受度[118]。此外,他們通過信任系統來聚合了多個專家的度量評估結果。Chowdhury 等使用車載單元(OBU)組件、GPS 數據和安全信息來確定自動駕駛車輛的可信性,通過計算和 處理相關的不確定性,利用確定性邏輯和主觀邏輯開發了評估可信值的理論模型,并對提出的模型產生的可 信值進行了對比分析[119]。作者還在模擬城市交通平臺 SUMO 和澳大利亞歷史交通數據 VicRoads 驗證提出的 模型,其中,基于特定邏輯的模型產生的可信值比主觀邏輯產生的可信值對被破壞的組件更加敏感。Chattopadhyay 等對機器人進行可信評估,分析了 Zumi 和 Cozmo 社交機器人的內部缺陷,并使用 IEEEA/IS 可信 AI 指南對其總體設計進行了評估,研究該社交機器人是否與可信人工智能框架描述的原則相一致[120]。

總體而言,學者們近幾年來開始愈發關注人工智能系統可信性,并且嘗試對其可信性進行評估,從而開 發出更加可信的人工智能產品。目前,大多數研究聚焦在如何改善和提高人工智能系統可信性,而人工智能 可信度量評估并沒有受到很大關注,因此也沒有像軟件可信度量評估那樣,經過數十年發展積累豐厚的研究 成果。因此,人工智能可信度量評估領域還需要進行深入系統的研究。

5 基于屬性的人工智能系統可信度量評估框架

盡管目前人工智能系統在可信性度量評估已經有部分研究成果,但鮮有研究從基于屬性的軟件可信度量 的角度度量人工智能系統的可信性。人工智能系統作為軟件系統,其可信量化評估也可以使用軟件可信度量 理論來實施。本文提出一個人工智能可信度量評估框架,將軟件可信度量理論應用于人工智能系統的可信度 量評估,而且為了保證度量過程數據的可信性不被篡改,本文將保證數據可信性常用的區塊鏈技術應用于框 架中,整個框架包括人工智能系統可信屬性分解與證據獲取方法、聯邦式可信度量模型以及基于區塊鏈的人 工智能可信評估架構 AITrust 三個部分。本文期望該框架可以為人工智能系統可信度量研究人員提供參考, 以推動人工智能系統可信度量研究進一步發展。

6 總結與展望

本文對人工智能系統的可信性度量進行了綜述性的分析和研究。首先對人工智能技術和軟件可信度量的 背景進行了討論,分別對兩個方向的研究現狀進行了論述,并闡述了人工智能系統可信度量的動機和可信人 工智能的戰略與規劃。然后,本文對人工智能系統的可信屬性進行詳細探討,比較了各個組織和學者給出的可信屬性,提出了人工智能系統基礎的九個可信屬性。接著,分別從訓練數據可信性、學習模型可信性、預 測結果可信性方面討論了相關度量方法,設計了人工智能系統可信證據收集方法。然后,討論了現有的人工 智能系統可信度量方法,結合基于屬性的軟件可信度量技術,本文建立一個人工智能系統可信度量評估框架, 該框架包括可信屬性分解與證據獲取方法,聯邦式可信度量模型和基于區塊鏈的人工智能系統可信評估架構 AITrust,將基于屬性的軟件可信度量技術應用于人工智能系統的可信評估,并且使用區塊鏈技術保障了評估 過程的可信性。

人工智能系統可信性已經獲得越來越多人的關注,人工智能系統可信度量評估可以保障人工智能系統的 可信性,為人工智能系統開發與使用人員提供相應參考。然而,人工智能系統可信度量的發展仍然面臨著許 多問題和挑戰:

  1. 針對人工智能系統的可信屬性,各個機構與學者關注點不盡相同,本文雖然討論并總結梳理出了九 個人工智能基礎的可信屬性,然而對于面向不同領域的人工智能系統,使用不同機器學習模型的人 工智能系統,其可信屬性可能會有所擴展,且其度量模型也有可能不同。因此,人工智能可信屬性 的完備性值得關注,從而設計面向不同領域的不同系統、不同模型、甚至不同數據的可信屬性集合 以及其度量模型,形成更加完備的人工智能可信屬性模型。

  2. 就人工智能系統的可信證據而言,在人工智能系統的訓練數據可信性、學習模型可信性和預測結果 可信性度量方面雖然有許多研究,但是這些研究過于雜亂,量綱難以統一,很難形成統一的可信證 據度量模型,為后續可信度量模型的建立造成一定難度。因而,統一可信證據量綱,形成科學合理 的可信證據模型同樣值得關注。

  3. 目前,面向人工智能系統的可信度量模型研究還比較初步,相關的研究還比較少,本文提出了一個 面向屬性的人工智能系統可信度量框架,但其中的可信度量模型還需進一步完善,從而建立科學合 理的人工智能系統可信度量模型,使其度量結果具有可信性。并且,本文建立的人工智能系統可信 度量框架是面向可信屬性,僅從靜態角度來度量可信性,并未考慮人工智能系統運行時的動態變化 與用戶反饋。因此,建立科學合理且全面的人工智能系統可信度量評估模型是人工智能可信度量評 估的又一挑戰。

  4. 在建立人工智能系統可信度量方法的基礎上,開發人工智能系統可信度量評估綜合工具,使得人工 智能系統可信度量評估工程化,把人工智能系統的度量評估融入人工智能系統的實際開發和使用過 程中,提高人工智能系統的可信性,為人工智能系統更好地服務人類奠定基礎。希望通過本文的討論、探索、思考和提出的人工智能系統可信度量評估框架,為人工智能系統可信度量 評估的發展和應用開辟更加廣闊的道路。

參考文獻: [1] Fang BX. Artificial Intelligence Safety and Security. Beijing: Publishing House of Electronics Industry. 2020. 1-10(in Chinese)

[2] Hinton G.E., Osindero S, Teh Y-W. A Fast Learning Algorithm for Deep Belief Nets. Neural Computation, 2014, 18(7):1527-1554.

[3] Silver D et al. Mastering the game of Go with deep neural networks and tree search. Nature 529 (2016): 484-503.

[4] Notice of the State Council on printing and distributing the development plan of new generation artificial intelligence, GF [2017] No.35 Development plan of new generation artificial intelligence, July 8, 2017. (in Chinese)

[5] Science popularization and education research support center, Department of Chinese Academy of Sciences. China Science and technology hot book review 2019. Beijing: China Science Publishing & Media Ltd. 2020. 89-137. (in Chinese)

付費5元查看完整內容

?視覺識別是當前計算機視覺、模式識別乃至人工智能領域最重要、最活躍的研究領域之一。它具有重大的基礎重要性和強烈的工業需求。在大量訓練數據和新的強大計算資源的幫助下,深度神經網絡在許多具體任務上大大提高了其性能。雖然識別精度通常是新進展的首要考慮,但效率實際上是相當重要的,有時對學術研究和工業應用都至關重要。此外,整個社會也高度需要對效率的機遇和挑戰有深刻見解。雖然從不同角度對DNN的效率問題進行了全面的調研,但據我們所知,很少有系統地關注視覺識別,因此不清楚哪些進展適用于視覺識別,還有哪些需要關注。在本文中,我們回顧了近年來的研究進展,并對提高DNN相關視覺識別方法的效率提出了可能的新方向。我們不僅從模型的角度進行調研,而且還從數據的角度進行調研(在現有的調研中并非如此),并關注三種最常被研究的數據類型(圖像、視頻和點)。本文試圖通過全面的調研,對視覺識別問題進行系統的總結,以期對從事視覺識別研究的研究者和實踐者提供有價值的參考。

深度神經網絡(DNNs)在許多視覺識別任務中取得了巨大的成功。它們極大地改善了手寫數字識別[1]、人臉識別[2]、圖像分類[3]等長期存在的問題的性能。他們也使探索新的邊界,包括研究圖像和視頻字幕[4]-[6],身體姿勢估計[7],和許多其他。然而,這種成功通常取決于大量高質量的手標記訓練數據和最近非常先進的計算資源。顯然,在大多數成本敏感的應用程序中,這兩個條件通常過于昂貴而無法滿足。即使由于許多標注者的大量努力,人們確實有了足夠的高質量訓練數據,但要弄清楚如何在有限的資源和可接受的時間內訓練有效的模型,通常也是一個巨大的挑戰。假設模型可以以某種方式得到適當的訓練(無論花費多少努力),在終端用戶的實際應用程序中部署模型仍然不容易,因為運行時推斷必須適合可用的或負擔得起的資源,而且運行速度必須滿足實際需要,可以是實時的,甚至是更高的。因此,除了學術界通常最關注的準確性之外,效率是另一個重要問題,在大多數情況下,是實際應用中不可缺少的需求。

雖然目前使用DNN進行視覺識別任務的研究主要集中在準確性方面,但在效率方面仍有許多可喜的進展,特別是在最近幾年。在過去的兩年中,已經發表了許多關于DNN效率問題的調研論文,詳細內容見下文I-A小節。然而,這些方法都沒有重點關注視覺識別任務,特別是缺少有效處理視覺數據的專項工作,而視覺數據處理有其自身的特點。在實踐中,有效的視覺識別必須是一個系統的解決方案,不僅要考慮到緊湊/壓縮的網絡和硬件加速,而且還要正確處理視覺數據,這些數據可能是各種類型(如圖像、視頻和點),具有相當不同的屬性。這可能是缺乏關于這個主題的調研的一個重要原因。因此,就我們所知,本文首次對基于DNN的高效視覺識別進行了綜述。基于我們在主要視覺數據類型、它們的各種識別模型和網絡壓縮算法方面的專業知識和經驗,本課程旨在從各個方面系統地概述最近的進展和趨勢。

相比之下,本綜述主要關注從原始視覺數據到最終識別結果的生產全局效率,希望能幫助對現代視覺識別任務及其高效的基于DNN的解決方案感興趣的讀者。這篇論文在以下幾個方面也有我們所知的創新之處。1)系統地綜述了神經網絡在視覺識別領域的研究進展,這是我們所知的同類研究的首次。2)第一次總結了有效視覺識別的數據相關問題,包括數據壓縮、數據選擇和數據表示。3)從有利于視覺識別任務的角度研究網絡壓縮模型。4)在高效視覺識別領域,綜述了運行時推理和模型泛化的加速方法。5)對DNN高效視覺識別的挑戰、機遇和新方向進行深入討論。為了清楚地了解這個調研的脈絡,圖1是作為組織的藍圖。具體來說,在第二節中,我們將介紹視覺識別問題中常見的三種主要數據類型,并討論它們的屬性以及與它們相關的挑戰。第三節回顧了在實際識別部分之前的三個方面的工作: 數據壓縮、數據選擇和數據表示。第四節簡要介紹和分析了網絡壓縮在視覺識別領域的廣泛研究方向。第五部分對測試階段的高效模型泛化和快速推理的最新進展進行了總結,這對基于DNN的視覺識別系統的實際部署非常重要。最后,第六節概述了所有努力,以產生一個清晰的總體映射,并討論了一些重要的未發現的方面和新的研究方向。

付費5元查看完整內容

自動駕駛車輛的本質是輪式移動機器人,是一個集模式識別、環境感知、規劃決策和智能控制等功能于一體的綜合系統。人工智能和機器學習領域的進步極大推動了自動駕駛技術的發展。當前主流的機器學習方法分為:監督學習、非監督學習和強化學習3種。強化學習方法更適用于復雜交通場景下自動駕駛系統決策和控制的智能處理,有利于提高自動駕駛的舒適性和安全性。深度學習和強化學習相結合產生的深度強化學習方法成為機器學習領域中的熱門研究方向。首先對自動駕駛技術、強化學習方法以及自動駕駛控制架構進行簡要介紹,并闡述了強化學習方法的基本原理和研究現狀。隨后重點闡述了強化學習方法在自動駕駛控制領域的研究歷史和現狀,并結合北京聯合大學智能車研究團隊的研究和測試工作介紹了典型的基于強化學習的自動駕駛控制技術應用,討論了深度強化學習的潛力。最后提出了強化學習方法在自動駕駛控制領域研究和應用時遇到的困難和挑戰,包括真實環境下自動駕駛安全性、多智能體強化學習和符合人類駕駛特性的獎勵函數設計等。研究有助于深入了解強化學習方法在自動駕駛控制方面的優勢和局限性,在應用中也可作為自動駕駛控制系統的設計參考。

//www.cjig.cn/jig/ch/reader/view_abstract.aspx?file_no=20210103&flag=1

付費5元查看完整內容
北京阿比特科技有限公司