基于序列圖像的自主導航作為未來深空探測地外天體精確定點著陸任務的關鍵技術,是目前深空探測技術的重點發展方向之一.針對未來深空探測地外天體精確著陸自主導航的需求,闡述了發展深空探測著陸過程序列圖像自主導航的必要性.首先,分別從主動成像和被動成像兩個方向介紹了基于序列圖像的深空探測著陸過程自主導航研究現狀;然后,總結并分析了基于序列圖像的深空探測著陸過程自主導航涉及到的關鍵技術;最后,根據關鍵技術分析給出了基于序列圖像的深空探測著陸過程自主導航研究目前存在的主要問題并對其后續發展進行了展望.
開展深空探測活動是人類進一步了解宇宙、認 識太陽系、探索地球與生命起源和演化、獲取更多科 學認識的必須手段,更是國家發展、科學探索、科技 創新和開拓疆域的共同需求[1] . 隨著科學技術的快 速發展,地外天體著陸探測成為深空探測的重要內 容.目前人類已經實現了對月球、火星、小行星和彗 星的著陸探測,在這些著陸探測任務中采用的著陸 自主導航方法主要是慣性導航.但由于初始導航誤 差、慣性測量誤差以及引力場模型誤差的存在,慣性 導航誤差隨時間增加而逐步增大,因此,慣性導航通 常需要與其他外部敏感器測量信息相結合以提高導 航精度.目前廣泛使用的是基于慣性導航配以測距 測速修正的導航方法,其已在“嫦娥三號”、“阿波羅”等月球著陸任務以及火星著陸任務中得到成功 應用[2-3] .盡管測距測速敏感器提供了較高精度的速 度和斜距測量信息,能夠有效地抑制慣性導航在速 度和高度方向上的誤差發散,但是單純的測距測速 無法為慣性導航系統提供水平位置誤差修正信息, 因此這種導航方法只能滿足對著陸精度要求不太高 的探測任務需求. 未來地外天體探測任務要求探測器具有在較高 科學價值的特定區域精確著陸的能力.美國宇航局 (NASA) [4] 提出的精確定點著陸( pinpoint landing systems, PPL)要求探測器著陸精度在 100 m 以內, 現有的慣性導航輔以測距測速修正的著陸導航方法 難以滿足精確定點著陸的要求.針對未來深空探測 地外天體精確著陸自主導航的需求,一種最為可行 的技術手段是引入地外天體表面圖像信息進行自主 導航.這主要是由于地外天體表面分布著大量形狀 各異的隕石坑、巖石和紋理等天然陸標,利用地外天體表面陸標圖像信息能夠獲取完備的探測器位置和 姿態信息.采用序列圖像的自主導航技術,作為未來 載人和無人深空探測精確定點著陸任務的關鍵技 術,NASA 和歐空局(ESA)等[5-7]機構都將其作為深 空探測技術的重點發展方向之一. 根據我國 2030 年前深空探測發展規劃,2020 年前后我國將自主開展火星和小行星等地外天體的 著陸探測任務.在這一背景下,本文對基于序列圖像 的深空探測著陸過程自主導航進行綜述,系統地總 結基于序列圖像的深空探測著陸過程自主導航的研 究現狀,概括并分析基于序列圖像的深空探測著陸 過程自主導航涉及到的關鍵技術,提出當前研究存 在的主要問題并對其后續發展進行展望,為我國未 來的地外天體著陸探測任務提供參考.
海戰場是軍事對抗的重要戰場之一,海上作戰涉及空中、水面、水下以及海岸陸地等空間,作戰資源對象 數量龐大且能力多樣。隨著無人系統技術的不斷發展,跨域無人集群將成為未來海上作戰的重要力量。以海 上跨域無人集群作為研究對象,首先梳理了跨域作戰的相關概念及演變過程,定義了跨域無人集群的內涵,然 后闡述了美軍單域無人集群項目的發展趨勢及現狀,分析了近期跨域無人集群演習的主要內容,之后對無人集 群關鍵技術現有研究成果進行了提煉總結,指出了跨域無人集群發展面臨的挑戰。最后給出了跨域無人集群 未來的發展趨勢。無人系統具有成本低、操作靈活、不懼傷亡等優 勢,能夠深入惡劣、危險的環境中執行任務[1-2],在現 代作戰中具有廣闊的應用前景。已有諸多學者對無 人 集 群 的 編 隊 控 制[3-5]、構 型 演 化[6-7]、路 徑 規 劃[8-10]、任務分配[11-13]等問題開展了研究,取得了一 定的成果。 2022年10月29日,烏克蘭采用無人機和無人 艇組成的無人集群對俄軍黑海艦隊進行突襲并取得 成功,受到了廣泛關注。相較于單域無人集群,運用 多域無人系統組成跨域無人集群,能夠通過跨域平 臺間的任務協同、信息融合、資源互補實現平臺優勢 互補,進一步拓展無人集群作戰運用場景,充分發揮 無人集群的體系作戰優勢。 從當前無人作戰案例和各國無人系統發展趨勢 上可以看出,跨域無人集群將成為無人作戰系統發 展的一個重要方向。為促進相關技術的研究和發 展,本文從“跨域作戰”概念的演變過程入手,對跨域 無人集群的發展概況、作戰樣式、關鍵技術研究現狀 進行了梳理和分析,最后指出跨域無人集群的未來 發展趨勢。
無人機具有體積小、靈活性強、航拍視野廣等特點,廣泛應用于警用巡查、城市交通監管、天氣監測、 電力巡檢、應急救援救災等行業。近年來,隨著計算機視覺領域的蓬勃發展,基于深度學習的目標檢測 技術逐漸應用于無人機領域,并不斷得到改進和加強。本文系統性地闡述了基于深度學習的目標檢測技 術發展歷程和研究現狀。針對現階段無人機航拍影像小目標多、背景復雜、目標尺度變化大的特性,歸 納和分析了近期對無人機目標檢測的相關研究。最后,展望了基于深度學習的無人機目標檢測技術的未 來發展趨勢。 隨著科技的發展,無人機(UAV)已經擺脫了過去的軍事用途,逐漸擴展到民用和商用領域。隨著無 人機技術的發展,基于深度學習的目標檢測技術已成為無人機應用領域的重要研究內容[1]。將目標檢測 技術應用于無人機上,實現在航拍視角下對地面場景的目標檢測和識別。然而,在無人機航拍圖像中, 檢測對象多為小目標,受航拍視角影響,目標尺度變化較大;圖像背景復雜,目標對象易被遮擋。給無 人機的目標檢測帶來了諸多挑戰[2]。常規的目標檢測算法應用于無人機上難以保證檢測精確度,優化無 人機的目標檢測性能成為了無人機應用領域的重要研究內容[3] [4]。本文首先介紹基于深度學習的目標檢 測研究進展,然后總結現階段無人機領域目標檢測的研究難點,針對小目標檢測、背景復雜、多尺度變 化三個方面進行改進和優化的各類方法進行了闡述。最后,對未來無人機目標檢測的研究方向做出了展 望。
獨特的拍攝視角和多變的成像高度使得遙感影像中包含大量尺寸極其有限的目標,如何準確有效地檢測這些小 目標對于構建智能的遙感圖像解譯系統至關重要。本文聚焦于遙感場景,對基于深度學習的小目標檢測進行了全面調研。 首先,本文根據小目標的內在特質梳理了遙感影像小目標檢測的三個主要挑戰,包括特征表示瓶頸、前背景混淆,以及回 歸分支敏感。其次,通過深入調研相關文獻,本文全面回顧了基于深度學習的遙感影像小目標檢測算法。具體說來,選取 三種代表性的遙感影像小目標檢測任務,即光學遙感圖像小目標檢測、SAR圖像小目標檢測和紅外圖像小目標檢測,系統 性總結了三個領域內的代表性方法,并根據每種算法所使用的技術思路進行分類闡述。再次,總結了遙感影像小目標檢測 常用的公開數據集,包括光學遙感圖像、SAR圖像及紅外圖像三種數據類型,借助于三種領域的代表性數據集SODA-A、 AIR-SARShip和NUAA-SIRST,進一步對主流的遙感影像目標檢測算法在面對小目標時的性能表現進行橫向對比及深入評 估。最后,對遙感影像小目標檢測的應用現狀進行總結,并展望了遙感場景下小目標檢測的發展趨勢。
//www.cjig.cn/jig/ch/reader/view_abstract.aspx?flag=2&file_no=2022&journal_id=jig
遙感影像目標檢測旨在設計相關算法獲取遙感 圖像中有價值目標的類別和位置信息,是邁向遙感 場景智能理解,構建遙感影像智能解譯系統,開展 遙感影像分析業務化應用的重要途徑(孫顯等, 2022)。遙感圖像具有幅面大、場景多樣和成像高 度多變等特點,因而包含大量尺寸極其有限的目標。 比如在同一張機場場景光學遙感圖像中,飛機和車 輛往往同時出現,而由于尺寸層面的天然差異,車 輛目標往往僅占據幾十個像素(Cheng 等,2022); 合成孔徑雷達(Synthetic Aperture Radar,SAR)的 目標成像與目標的散射特性有關,散射特性的強弱 影響目標的成像質量,例如飛機目標的機翼散射特 性弱,機身散射特征強,機翼區域的成像較為模糊, 這使得目標在 SAR 圖像中相對偏小。此外特殊的成 像機理使得目標容易受到雜波等噪聲的干擾,導致 目標邊緣模糊,使得本身尺寸就較小的車輛、船舶 等觀測目標成像區域更加受限(徐豐等,2020); 紅外探測系統中,目標與探測器之間距離較遠,因而成像目標面積很小,往往呈現點特征(李俊宏等, 2020)。這些尺寸有限的目標為遙感影像智能感知 系統帶來了巨大挑戰,也在一定程度上制約著遙感 大數據在國防體系建設、災害預警評估和農林資源 監測等領域的實際應用。 與通用目標檢測的蓬勃發展相比,小目標檢測近 年來發展緩慢,遙感圖像領域亦是如此。作為通用 目標檢測的一個子任務,現有的小目標檢測框架往 往以通用目標檢測任務中表現出色的模型為基礎, 添加針對性的設計(Cheng 等,2022)。這些基礎 模型一般由特征提取網絡和檢測網絡構成,前者通 過深度卷積神經網絡(Deep Convolution Neural Networks,DCNNs)獲得圖像的高維表征,并利用 下采樣操作減少空間冗余;后者則在前者得到的深 度特征上完成分類和回歸(Liu 等,2020;Ren 等, 2017;Lin 等,2020;Tian 等,2020)。遺憾的是, 這些深度學習加持下的優秀檢測范式在面對小目標 時,其性能往往捉襟見肘。究其原因,一方面是小 目標的內在特性導致模型很難獲得目標區域的良好 特征表示。CNN 通過堆疊卷積層和池化層獲得圖像 的高維表征——前者通過共享參數的卷積核獲得區 域表示,而遙感圖像中的小目標往往背景復雜,經 過卷積層后,目標區域的特征容易被背景或其他實 例所干擾,丟失判別信息;后者旨在減少空間冗余 并濾除噪聲響應,然而這一操作卻為小目標帶來不 可逆的信息損失(Noh 等,2015)。無論是缺乏判 別性的特征表示,還是目標區域的信息損失,都會 加劇后續分類和回歸的任務難度。另一方面,深度 學習是數據驅動的,獲得性能優異的檢測模型需要 大量注釋良好的數據用于訓練。然而,小目標往往 邊緣模糊且視覺結構強依賴于圖像質量,很難準確 獲得其輪廓信息,因而標注誤差較大,在一定程度上誤導網絡訓練。此外,現有數據集往往包含各種 尺度的目標,小目標僅占其中一小部分,導致模型 為兼顧整體精度而犧牲小目標的檢測效果。 為了更好地促進領域發展,本文選取三種代表性 的遙感影像小目標檢測任務,即光學遙感圖像小目 標檢測、SAR 圖像小目標檢測和紅外圖像小目標檢 測,以算法和數據集為研究對象,全面回顧了基于 深度學習的遙感影像目標檢測。同時,本文也對應 用現狀和發展趨勢進行了總結。
深度學習作為當前人工智能領域的研究熱點之一,已經受到廣泛關注。借助于強大的特征表示和學習能力,深度學習日益成為軍事領域智能化發展的技術基礎。首先結合深度學習的最新發展,指出深度學習的快速發展得益于理論的突破、計算機運算能力的顯著提高和開源軟件的廣泛流行,著重梳理了目前主要的深度學習硬件平臺和編程框架,并總結了各自的特點和研究進展;然后對深度學習在目標識別、態勢感知、指揮決策等典型軍事領域的應用和存在的不足進行了總結;最后,分析了深度學習軍事應用面臨的挑戰,包括數據獲取困難、處理不確定不完備信息和多域信息能力不足、精確度和實時性較低、可解釋和可理解性不強等,并針對這些問題展望了未來可能的發展方向和趨勢。 深度學習為很多復雜問題的解決提供了新的思路$由于其具有強大的特征表示和學習能力$在以目 標識別與檢測,態勢感知,智能指揮決策等為代表的 軍事領域中取得了一系列應用成果$并日益成為軍事領域智能化發展的技術基礎與研究熱點。
1. 目標識別與檢測
雷達目標識別一直是軍事領域關注的重點,隨 著高分辨雷達技術的發展,目標的高分辨一維距離 像(high resolution range profile, HRRP)、合成孔徑 雷達(synthetic aperture radar,SAR)圖像等已經成 為軍事目標綜合識別的重要數據來源,傳統雷達目 標識別方法主要采用人工設計的特征提取算法提取 目標特征,目標識別的性能依賴于提取特征的好壞, 而采用深度學習方法則能自動學習目標數據的深層 次抽象特征,能夠進行更準確、更穩健的識別,從而受 到廣泛的關注。表1為當前主要的深度學習框架。 在 基 于 H R R P 的 雷 達 目 標 識 別 方 面 , B ( ) . F 等[⑸提出一種新的矯正自編碼器Corrective AE, 自 動 提 取 H R R P 抽 象 特 征 , 實 現 了 對 目 標 H R R P 的高效識別。P a n等[⑹采用t . S N E方法解決H R - RP目標識別中的訓練數據不均衡問題,利用判別式深層置信網絡提取訓練數據中與類別無關的全局 特征來提升小樣本條件下的H R R P分類性能。徐 彬等口力考慮HRRP樣本距離單元間的時序相關特 性,提出了采用雙向長短時記憶模型的HRRP目標 識別方法,提高了目標識別性能。文獻口8] 將5種 彈道中段目標HRRP轉化為0-1二值圖,并構建了 二維CNN對HRRP圖像進行分類,充分利用圖像 中蘊含的目標結構信息提升了分類效果,但將HRRP轉化為圖像增加了計算量。Xiang等[血在一維 CNN中引入通道注意力,同時利用改進的人工蜂群 算法對一維CNN進行剪枝,在保持對彈道中段目 標H R R P的高準確識別率前提下大幅降低了模型 的復雜度。
2 態勢感知
現代戰場態勢具有顯著的大數據特征,傳統方法已不能滿足現代復雜戰場態勢的感知需求,深度學習技術為研究戰場態勢感知提供了智能化技術手段,在對以往實戰數據,實兵對抗數據,靶場試 驗數據,兵棋推演數據等進行態勢標注的基礎上,將 其作為訓練數據,對深度學習模型進行訓練利用訓 練獲得的網絡模型可以實現對戰場態勢的理解。
3 指揮決策以 AlphaGo等為代表的人工智能 應用的成功,表明了深度學習技術在應對實時對抗, 不確定性推理等復雜動態場景問題的優秀能力深 度學習在軍事智能輔助決策領域的應用已經受到廣 泛的關注。
視覺目標檢測旨在定位和識別圖像中存在的物體,屬于計算機視覺領域的經典任務之一,也是許多計算機視覺任務的前提與基礎,在自動駕駛、視頻監控等領域具有重要的應用價值,受到研究人員的廣泛關注。隨著深度學習技術的飛速發展,目標檢測取得了巨大的進展。首先,本文總結了深度目標檢測在訓練和測試過程中的基本流程。訓練階段包括數據預處理、檢測網絡、標簽分配與損失函數計算等過程,測試階段使用經過訓練的檢測器生成檢測結果并對檢測結果進行后處理。然后,回顧基于單目相機的視覺目標檢測方法,主要包括基于錨點框的方法、無錨點框的方法和端到端預測的方法等。同時,總結了目標檢測中一些常見的子模塊設計方法。在基于單目相機的視覺目標檢測方法之后,介紹了基于雙目相機的視覺目標檢測方法。在此基礎上,分別對比了單目目標檢測和雙目目標檢測的國內外研究進展情況,并展望了視覺目標檢測技術發展趨勢。通過總結和分析,希望能夠為相關研究人員進行視覺目標檢測相關研究提供參考。
視覺目標檢測是計算機視覺的經典任務,旨在 定位圖像中存在物體的位置并識別物體的具體類 別。 目標檢測是許多計算機視覺任務及相關應用的 基礎與前提,直接決定相關視覺任務及應用的性能 好壞。 因此,視覺目標檢測技術受到了學術界、工業 界等各領域、乃至世界各國政府的廣泛關注。 在學 術界,目標檢測一直是各大計算機視覺會議及期刊 的研究熱點之一,每年有大量的目標檢測相關論文 發表。 根據谷歌學術顯示,研究人員近 10 年來在目 標檢測方面發表論文 15 000 余篇。 在工業界,國內 外科技巨頭(如谷歌、臉書、華為和百度等)、初創公 司(如商湯、曠視等)紛紛在目標檢測相關領域投入 大量人力財力。 與此同時,目標檢測技術是新一代 人工智能的重要共性關鍵技術,世界各國競相競爭。
在過去的幾十年中,目標檢測經歷了基于手工 設計特征的方法到基于深度特征的方法等不同發展 階段。 早期,目標檢測方法通常采用手工設計特征 加淺層分類器的技術路線,例如支持向量機(support vector machines,SVM) 和 AdaBoost 等,涌現了包括 Haar 特征(Viola 和 Jones,2004)、方向梯度直方圖 (histograms of oriented gradients,HOG) 特征( Dalal 和 Triggs,2005)等一系列經典的目標檢測特征描述 子。 2012 年以來,深度學習技術取得了飛速的發 展,并行計算資源不斷迭代更新,大規模數據庫及評 測標準相繼構建與公開。 基于上述技術、算力和數 據的鋪墊,視覺目標檢測開始在精度與效率等方面 取得了顯著的進展,先后涌現出區域卷積神經網絡 (region-based convolutional neural network,R-CNN) (Girshick 等,2014)、SSD( single shot detector) ( Liu 等,2016)、YOLO( you only look once) (Redmon 等, 2016)、 DETR ( detection transformer ) ( Carion 等, 2020)等一系列經典的研究工作。 相比于傳統手工 設計特征的方法,基于深度學習的方法避免了煩瑣 的手工設計過程,能夠自動學習更具有區分力的深 度特征。 與此同時,基于深度學習的方法將特征提 取和分類器學習統一在一個框架中,能夠進行端到 端的學習。
隨著技術的不斷發展與成熟,深度目標檢測技 術開始在實際應用中發揮重要作用。 近些年,國內外涌現了一批以目標檢測等視覺技術為核心技術的 科技創業公司,如曠視科技、商湯科技等。 同時,視 覺目標檢測是自動駕駛汽車環境感知重要的內容之 一,以特斯拉為代表的一批科技公司甚至采用純視 覺目標感知的技術路線開展自動駕駛研究。 盡管目 標檢測技術已經開始走向實際應用,但是當前目標 檢測的性能仍然無法到達人類視覺的性能,存在巨 大改進與提升的空間。 鑒于基于深度學習的目標檢測技術在學術界和 產業界取得了巨大成功,本文對基于深度學習的視 覺目標檢測技術進行了系統的總結和分析,包括國 內外研究現狀以及未來的發展趨勢等。 根據視覺目 標檢測采用視覺傳感器的數量不同,將視覺目標檢 測分為兩類:基于單目相機的視覺目標檢測和基于 雙目相機的視覺目標檢測。 相比于單目相機,雙目 相機能夠提供 3 維信息。 因此,基于雙目相機的視 覺目標檢測能夠提供精準的目標 3 維信息,在自動 駕駛等領域能夠更好地滿足應用需求。
首先介紹目標檢測的基本流程,包括訓練和測 試過程。 接著,系統地總結和分析單目視覺目標檢 測。 然后,介紹雙目視覺目標檢測。 最終,對比國內 外發展現狀,并對發展趨勢進行展望。
智能化分布式協同作戰具有高度集成、自組織、自決策、效費比高等特點,勢必將成為未來戰場上行之有效的作戰模式。從作戰理念的核心思想、體系架構的組成要素及其突出特點三個方面出發,論述了智能化分布式協同作戰的概念與內涵。首先,概括介紹了國內外先進的智能化分布式協同作戰系統項目,重點闡述了相關項目的發展目的和技術特點;隨后,詳細分析了推動智能化分布式協同作戰系統發展的關鍵技術,包括態勢感知與認知技術、信息融合與目標跟蹤技術、分布式協同任務規劃技術以及一致性控制與協同制導技術;最后,根據對國內外相關項目和關鍵技術研究成果的分析,從平臺設計過程和技術特點出發提出相關發展建議,為智能化分布式協同作戰體系總體架構設計與關鍵技術攻關提供重要參考。
摘要: 元宇宙作為一個新興的概念受到了產業界、學術界、媒體界及公眾的廣泛關注,國內外眾多公司也紛紛在“元宇宙”領域布局,但布局的背后離不開強大的技術支持。本文從技術維度深入剖析元宇宙。首先,從科學與技術的角度論述元宇宙的概念及內涵,并總結了目前從業者、專家以及學者對元宇宙的不同見解。其次,概述了元宇宙相關關鍵技術,包括網絡及運算技術(5G、6G、物聯網、云計算、霧計算及邊緣計算)、管理技術(能耗管理、資源管理、會話管理及時空一致性管理)、虛實對象連接、建模與管理技術(X聯網、身份建模、社會計算、去中心化管理技術)、虛實空間交互與融合技術(拓展現實、電子游戲技術、腦機接口技術)等。元宇宙不宜稱為新技術,而是IT新技術的綜合運用。技術的進步與發展,將為元宇宙的實現和應用奠定堅實的基礎,同時元宇宙的發展也會促進現有技術的升級換代。最后,展望了元宇宙發展面臨的諸多挑戰,以清晰認識、理智決策、穩步探索元宇宙。
1992 年,美國著名作家Neal Stephenson在《Snow Crash》中提到元宇宙(Metaverse)一詞,他這樣描述:“戴上耳機和目鏡,找到連接終端,就能夠以虛擬分身的方式進入由計算機模擬、與真實世界平行的虛擬空間。”[1] 其實Metaverse這個概念的思想源頭是由美國數學家和計算機專家Vernor Vinge教授在 1981 年出版的《True Names》中描述的通過腦機接口技術進入并獲得真實感官體驗的虛擬世界[2]。 在元宇宙時代,人類的生活方式會受到較大的影響。其一,傳統的哲學與科學會受到巨大的沖擊,需要不斷挖掘和研究新的理論與方法;其二,元宇宙的興起將推動人類社會邁進一個新階段,相應地,時代的演變又進一步為技術的發展添磚加瓦。元宇宙技術在融合已有技術的同時,也將不斷衍生出更多的新技術。本文先從科學與技術的角度論述元宇宙的概念及內涵,并總結了目前從業者、專家以及學者對元宇宙的見解;其次,從技術維度深入剖析元宇宙,即從網絡及運算技術、管理技術、元宇宙虛實對象連接、建模與管理技術以及虛實空間交互與融合技術四個方面闡述元宇宙中涉及的關鍵技術。最后,對未來元宇宙技術發展所面臨的挑戰進行歸納與總結。
元宇宙作為一個新興的概念,受到了產業界、學術界、媒體界及公眾的廣泛關注,但對于元宇宙的定義及概念還不夠統一和明確,不同從業者、專家以及機構給出了對元宇宙的見解,如表1所示
為進一步理解元宇宙的概念及內涵,本文從科學和技術的角度對其進行剖析,具體如下: 從科學角度上說,元宇宙的誕生是多學科融合的結果。元宇宙將促進信息科學、量子科學、數學和生命科學等學科的融合與互動,創新科學范式,推動傳統的哲學、社會學甚至人文科學體系的突破。元宇宙,實質上就是廣義網絡空間[7],在涵蓋物理空間、社會空間、賽博空間以及思維空間的基礎上,融合多種數字技術,將網絡、軟硬件設備和用戶聚合在一個虛擬現實系統之中,形成一個既映射于、又獨立于現實世界的虛擬世界。
從技術角度上說,元宇宙不宜稱為新技術,而是現有IT技術的綜合集成運用,它是信息化發展的一個新階段。因此,隨著元宇宙的發展不僅會促進現有技術的升級換代,而且也會促進新技術的出現。本文將從技術維度對元宇宙中涉及的關鍵技術進行概述,如圖1 所示
網絡及運算技術是元宇宙的基礎設施,可為元宇宙提供高速通信、泛在連接以及共享資源等功能,本節主要介紹5G、6G、物聯網、云計算、邊緣計算、互聯網等在元宇宙中的作用。
無論是遠程執行計算繁重的任務、訪問大型數據庫、還是在用戶之間提供共享體驗,都離不開網絡與通信[8],元宇宙時代所需要的沉浸式體驗,要求網絡具有低延遲、大帶寬、高可靠性等特點。5G作為新一代信息化基礎設施的出現,為元宇宙的沉浸式體驗提供可能。為了滿足不同行業和市場的需求,國際電信聯盟(The International Telecommunication Union, ITU)將5G劃分為超可靠低延遲通信(Ultra-reliable low-latency communication, URRLC)、增強移動帶寬(Enhanced mobile broadband, eMBB)和海量機器類通信(Massive machine-type communications, mMTC)[9], URRLC 和 eMBB 恰好可滿足元宇宙對沉浸感體驗的需求[10],眾多學者近年來不斷為 URRLC 和 eMBB 做研究,以提高 5G 的通信效率,減少能源消耗。例如,Kumar和Ahmad[11] 提出基于 ANFIS 的 5G 新空口技術(5G New radio, 5G NR)中 URRLC 和 eMBB多路復用反應策略,為 URLLC 流量提供高優先級,同時保證了 5G 蜂窩網絡場景中其他 eMBB 流量的可靠性。Malik等[12]提出一種干擾感知無線資源分配方法,并與傳統的循環調度算法作比較,結果表明,提出的算法比傳統的循環調度算法在鏈路可靠性和延遲降低方面有明顯的改善。Buccheri等[13]提出混合重傳策略,以滿足URRLC需求并最小化消耗資源。
6G 作為 5G 的必然演進方向,6G 將打破時間、虛實的限制,為元宇宙的實現提供網絡基礎。6G 的出現,更多地實現現實世界與虛擬世界的交互和未來的共存共生。中國移動通信研究副院長黃宇紅表示,未來不僅會有物理世界,也將有數字世界,一方面是物理世界的孿生世界,另一方面會演變成元宇宙和平行世界 。未來,元宇宙將不僅是對現實世界的模擬與仿真,更重要的是物理世界與虛擬世界的融合與交互發展,6G 將對其發展提供強大的驅動力。東南大學尤肖虎教授團隊[14]在“6G 的最新進展及發展趨勢”一文中,提出 6G 無線通信網絡有望提供更高的頻譜、能量、更高地傳輸速率、更低傳輸時延、超大連接密度、更高覆蓋率和亞毫秒級的時間同步,6G 所具有的特征將在元宇宙中大顯身手。
在 5G、6G 網絡環境下,利用量子通信保障通信安全方面,Chowdhury等[15]提出基于量子不可克隆性定理和測不準原理,量子通信通過應用量子密鑰提供了強大的安全性。
物聯網(Internet of Things, IoT)在元宇宙的網絡基礎設施的實現和發展中將發揮重要作用。虛擬世界與現實世界的泛在連接,離不開大量傳感器、智能終端等物聯網設備實時采集和處理數據,故物聯網可為用戶提供真實、持久且順暢的交互體驗,是虛擬世界與現實世界的聯接和橋梁。物聯網經典的三層架構,即感知層、網絡層和應用層,與元宇宙的建立緊密聯系。表2 列舉了近年來部分學者對物聯網三層架構的研究成果,將來為物聯網技術在元宇宙中的應用做好鋪墊,支撐元宇宙的發展。
從物聯網的三層架構來看,要想支撐元宇宙的發展,仍存在一些瓶頸,例如,存在于感知層的數據爆炸與有限感知資源之間的不平衡問題,Shi等[27]提出了將人工智能與選擇性感知相結合的解決方案;傳感器/制動器性能不佳問題,Ning和Liu[28]提出使用納米技術用于改善傳感器/制動器的性能(例如,更高的靈敏度和選擇性、更短的響應時間和更長的使用壽命)。因此,納米材料(如石墨烯、納米線等)的應用將為元宇宙的感知與通信領域提供可選性。存在于網絡層的連接爆炸與高效通信之間的問題[29];存在于應用層的應用爆炸與精準服務之間的矛盾[30],都是現在正面臨的問題。未來隨著科技的進步,解決上述“卡脖子”問題,將為構建元宇宙提供進一步的支撐。
另外,觸覺互聯網也是支撐元宇宙發展的一種新的物聯網形式。觸覺互聯網是由Fettweis[31]提出,它允許人和機器能夠在移動中和特定空間通信范圍內,通過觸覺實時地與周圍環境進行互動。觸覺互聯網有潛力使元宇宙更具有沉浸感。5G 關于低時延、高可靠性的研究客觀上是為觸覺互聯網作了鋪墊,Saches等[32]描述了 5G 在觸覺互聯網(Tactile internet)中發揮的基礎作用,并展示了 5G 新空口技術(5G NR)和 5G 長期演進技術(5G LTE)如何實現有保證的低遲延無線傳輸,提出了基于分布式云平臺的 5G 系統架構,以滿足觸覺互聯網對可靠性和低延遲方面的苛刻通信需求。Antonakoglou等[33]關注 5G 如何結合觸覺數據通信協議、雙邊遠程操作控制方案和觸覺數據處理,讓觸覺應用發揮作用。
有十余年發展史的云計算,成為元宇宙中可以大量賦能的領域。元宇宙所需要的身份建模、現實世界與虛擬世界的交互以及多元宇宙之間的互動,都會產生難以想象的海量數據,這離不開云計算的支持。本節將從數據處理和數據存儲兩個維度論述云計算的重要作用。
(1) 數據處理。 具有算力動態分配的云計算是元宇宙最重要的網絡基礎設施。元宇宙的構建需要一個強大的算力系統處理數據,當前的算力架構依然無法滿足元宇宙對于低用戶門檻、高體驗感的需求,云計算一定程度上能夠推動算力發展。日前,元宇宙借助游戲技術來展現,大型游戲采用的客戶端與服務器結合的模式,其對客戶端設備的性能和服務器的承載能力有較高要求[34],并且在全球范圍內集中部署的云數據中心[35],旨在處理來自物聯網設備的傳感數據或基于嵌入式設備的實時視頻、圖像等非結構化數據。例如,Zhang等[36]提出了用于嵌入式設備實時視頻處理的流式云平臺,并對該平臺的處理速度、功耗和網絡吞吐量等進行評估。
(2) 數據存儲。 在云上存儲數據,即云存儲(Cloud storage),一般不用考慮存儲容量、存儲設備類型、數據存儲位置以及數據的可用性、可靠性和安全性等繁瑣的底層技術細節,按需付費就可以從云服務提供商那里獲得近乎無限大的存儲空間和企業級的服務質量[37]。近幾年來學者們一直在云存儲方面的研究,如Sharma等[38]綜述了區塊鏈技術在云存儲安全方面的應用;Qiu等[39]提出了基于可逆小波變換的以用戶為中心的云存儲數據保護方法;Doan等[40]提出云存儲系統中數據一致性維護的虛擬服務器解決方案。 元宇宙在構建過程中產生的大量數據需要云計算按需調配資源,以進行海量數據處理及存儲,但若把所有的資源都集中在云端,那對于元宇宙的沉浸感體驗、負載均衡以及能量消耗將帶來巨大的挑戰。對此,需要在本地部署帶有計算和存儲功能的設備,以縮短終端用戶到計算和存儲資源的距離,這就需要霧計算來支撐[41]。霧計算由終端用戶層、霧層及云層構成,霧層的存在極大地降低傳統云計算的時延,可以自己向用戶直接提供服務,還可以利用云層強大的算力和存儲能力協同進行服務。
另外,霧計算中更加靠近邊緣終端的部分,稱之為邊緣計算(Edge computing)。邊緣計算可將元宇宙計算所需的大型服務分解為小巧且易于管理的子任務,并將這些任務分散到邊緣節點去處理。邊緣計算在物理上更接近終端用戶,進一步將遲延時間最小化,為用戶流暢、優質的體驗提供保障[42]。另外,當元宇宙的內容涉及多個用戶時,會大大增加網絡流量負載,Kim[43]提出了一種在邊緣網絡中基于云 VR 的服務配置和部署方法,這只是對其的初步探索。由于云計算、邊緣計算以及霧計算各有優缺點及特性,如表3 所示,故利用云邊協同策略降低網絡時延及流量負載[44–45]受到關注,為元宇宙關鍵技術的研究提供一種選擇。
元宇宙將用戶與互聯網交互的界面(體驗感)從“二維”上升到“三維”,將對互聯網的技術和發展起到推動作用。值得注意的是,元宇宙是互聯網之上的應用,二者不宜等同起來,更不能將元宇宙簡單地看成下一代互聯網。對行業、企業來說,互聯網的“升維”將催生新的生產力,但是找到“入口”僅是第一步。還要在技術層面上,提供更多的連接與通信方式,以及基礎設施。硬件設施也要不斷適配升級,這也將是一個相對艱難的探索過程[46]。
元宇宙管理技術保障虛擬空間(即賽博空間)與真實空間(含物理空間、社會空間及思維空間)的泛在連接與空間融合所需要的軟硬件環境,主要包括能耗管理、資源管理、會話管理、時空一致性管理等。
節能環保一直是信息系統所追求的,未來的元宇宙一大挑戰便是能耗。元宇宙中能耗管理的目標和理念是實現最低能耗和綠色能源占比最大化,提高能源利用效率。在元宇宙中,傳感器設備、網絡及通信基礎設施(如,5G、6G、云計算系統等)、虛擬世界與現實世界的交互(如,VR/AR/MR、腦機接口等)等需要大量的能源消耗。許多學者提出了能源監測的方法。例如,Somula 和Sasikala[47]提出基于物聯網的方法監控負載消耗并以高效的方式節約能源。Bi等[48]創建了 Elman 遞歸神經網絡模型和指數電力預測模型,幫助減少電力損耗、節約成本。能源可持續發展既是元宇宙的核心約束也是投資機遇。 元宇宙中節能環保的目標是建立綠色元宇宙。這需要我們做到兩點:一是不斷創新與發展先進的能源基礎設施,實現對能源的自動測量、收集、存儲、分析等智能化處理,以提高能源的高效循環利用率為目的,研發能源循環設備,加速能源網絡的變革;二是優化能源管理的算法與模型,通過對物理空間、社會空間及思維空間的資源創建虛擬資源以便實現能源重組織與優化,提高能源利用率。未來,隨著納米及量子等技術的成熟,將研發出新型材料并應用于高性能設備、裝備或平臺,以獲取納米級別或量子級別的網絡,從而增強高性能能源使用率、降低能耗[49]。
元宇宙,本質上就是廣義網絡空間[7,49],在涵蓋物理空間、社會空間、賽博空間及思維空間的基礎上,共享資源。資源管理主要包括資源描述、資源尋址、資源發現和資源分配等,以滿足元宇宙的低延遲、高度沉浸等需求。目前,在資源管理的四個典型階段上已經有了一些較為成熟的技術,如表4 所示。
元宇宙的會話管理,是管理異構網絡中無處不在的資源和資源用戶之間的交互[28]。在元宇宙中,會話管理主要針對具有動態特性的長時間、持久性交互,特別是針對具有多個資源用戶參與的會話。會話管理需要解決切換延遲、瞬時數據包丟失、端到端通信延遲以及跨異構網絡的無縫會話切換等問題,以提高用戶的沉浸感體驗。例如,針對5G網絡基礎設施,學者們研究在5G網絡上的會話管理方法,以盡可能地滿足未來元宇宙對實時性、低能耗等需求,如,Kim等[51]提出了一種有效的5G系統低延遲通信會話管理方案,并且避免了移動設備的網絡資源浪費和電池消耗。Park等[52]探討了如何在5G無線網絡環境中實現用戶的高性能會話管理。另外,元宇宙中的會話管理還應預防會話過程被攻擊的情況發生。Nadar等[53]研究了一種針對破壞性身份驗證和會話管理攻擊的防御方法。Marlinspike等[54]研究了Sesame算法,對異步消息進行加密,提高會話過程中的安全系數。
在物理空間、社會空間及思維空間中的實體與賽博空間實體映射過程中離不開時空一致性管理。元宇宙實質上是廣義網絡空間,它是一個虛實結合的世界,人在現實世界中,時間、空間的連續和唯一是嚴格按照物理規律,若要在虛擬世界中享受到沉浸式體驗,故也需要考慮時空一致性管理。現在已有學者提出一些管理時空一致性的方法,例如,時間同步法、目標定位法、時間配準法及空間配準法等時空一致性管理方案[28]。一致的時空數據對現實世界和虛擬世界之間的映射非常重要,Atluri等[55]綜述了時空數據的挖掘方法。
現實世界中的人和物以另一種虛擬身份的形式存在于元宇宙,這將構建成一種新型的虛擬社會,并在新的虛擬社會中重塑數字經濟體系、社會關系等。然而,虛實對象的映射與連接、虛擬社會的構建與管理離不開X聯網(Internet of X, IoX)、身份建模、社會計算、去中心化管理技術的支持。
X聯網包括物聯網、人聯網和思維聯網。物聯網(IoT)在物理空間和元宇宙之間建立虛實對象的泛在連接,將物理對象映射到虛擬世界中。人聯網(Internet of People, IoP)描述的是由各種人類節點組成的互連網絡[56]。節點的互連離不開人與人之間的社會關系、以物為媒介的社會關系、與時空屬性相關的社會關系等。在元宇宙時代,IoP在人類社會和元宇宙之間建立了虛實對象的泛在連接,從“社會關系的數字化”過渡到“人與世界的關系數字化”。在元宇宙內容不斷豐富的過程中,不僅僅要賦予虛擬原生人與數字人身份,還要考慮其認知與思維。思維聯網(Internet of Thinking, IoTk)強調思維創造的過程,進一步深化思維空間與元宇宙之間的互動,使得元宇宙中的對象擁有自動獲取、處理、學習和思考知識的自適應感知能力,克服時間和空間的限制,可在不同的地點和時間交換思想,實現準確、高效及便利的合作與交流[57]。
隨著多種技術的融合以及新興技術的出現,進入元宇宙的對象數量和種類將急劇增長,如何對物理對象的身份標識進行建模及解析,以實現物理對象在與元宇宙的感知和映射,這將是未來發展元宇宙的核心問題之一。物理對象身份標識主要包括唯一標識法和非唯一標識法。其中,唯一標識法采用外界賦予對象的標識號,標識身份并應用于對象的網絡身份/資源的發現、尋址和訪問等,除了使用Bar Code技術、QR code技術、RFID技術等外界賦予的對象身份,還有利用對象的生物屬性、時空屬性等自身屬性信息進行身份標識[58],典型的有利用虹膜、人臉、指紋等生物特征標識與解析技術等。
除元宇宙中映射的物理對象外,存在于元宇宙的人類也需要身份標識,其被稱為“虛擬數字人”。“虛擬數字人”是元宇宙的重要參與者,也是大眾最能接受的元宇宙表現形式之一。在未來,元宇宙用戶分為兩類:虛擬原生人和數字人。虛擬原生人(如,虛擬偶像、虛擬主持人、虛擬記者等),與現實世界不存在映射關系,脫離現實世界而存在;數字人則是指現實世界中的人類在虛擬世界的數字分身。無論是虛擬原生人還是數字人,都需要身份標識以便對其管理及研究。目前,身份建模與解析在物聯網領域比較常見,如Verma等[59]提出了基于區塊鏈的身份管理系統建模;Ning等[60]綜述了身份建模與解析現狀,以及其未來的發展趨勢與挑戰; Bouras等[61]提出了一種基于輕量級區塊鏈的物聯網身份管理方法。未來,隨著身份建模與解析技術應用領域的擴大,也將是元宇宙時代重要的研究領域。
首先,通過身份建模技術,對數據、信息以及屬性進行描述,構建出進入元宇宙的實體對象。進一步,通過IoP、社會計算等技術進行實體的關系建模與行為形式化,從而實現實體的關聯及行為挖掘、理解與分析[62]。社會計算具體包括社交網絡分析(Social network analysis)、群體智能(Swarm intelligence)、人工社會(Artificial society)等。社交網絡分析指的是利用圖論、代理模型等方法對個體之間通過社會關系結成的網絡體系進行研究。群體智能指的是在集體層面表現得分散的、去中心化的自組織行為。人工社會指的是通過對復雜社會問題建立計算機模型,進行實驗分析并提供決策支持。 社會計算以處理社會關系為導向。元宇宙的出現,虛擬社會關系不會取代現實中的社會關系,但會催生線上線下一體的新型社會關系。通過社會計算研究人類的行為、新型社會關系能夠預測元宇宙的運行規律及未來發展趨勢,同時在元宇宙中更容易收集用戶的位置、年齡、偏好等數據信息,進行深度挖掘以更好地構建元宇宙中的社會運行機制。
元宇宙中的對象在身份建模、IoP、IoTk、社會計算等技術的支持下,擁有獨立的身份、思維、行為及社會關系。根據需求,可在元宇宙中組建社區、城市,共同構建區別于或類似于現實世界的法律法規,衍生出新的虛擬社會文明。但實現這一切的前提是,元宇宙需要擁有獨立的經濟系統和經濟屬性。元宇宙的每一塊組成部分信奉的是去中心化概念,需要借助去中心化底層技術來重塑元宇宙的數字經濟系統。去中心化技術的典型代表區塊鏈[63],借助區塊鏈加密算法、共識機制、智能合約等技術,可能會為元宇宙發展提供新的金融體系,為用戶提供保險、交易、證券化等虛擬資產的金融服務,也可實現虛擬世界與現實世界經濟體系的聯動。但是元宇宙經濟系統不等價于互聯網經濟系統,它不是互聯網經濟系統的復制品。需要說明的是,獨立的去中心化金融體系,與現實社會中的國家治理、主權貨幣等機制往往是矛盾的,這也許是元宇宙未來發展的制約。
區塊鏈技術主要包括點對點傳輸、數字加密技術、分布式存儲、共識機制和智能合約等[64],這也決定了基于區塊鏈的經濟系統將為元宇宙經濟系統的實現奠定基礎。因為,數字加密技術在區塊鏈中具有核心地位,可以保證元宇宙用戶身份信息和交易數據的安全,文獻[64]中簡要介紹了哈希函數、對稱加密算法、非對稱加密算法、數字簽名等加密技術原理;分布式存儲系統(例如,Storj, IPFS),將數據分布式存儲于各個節點,可以保證數據的安全與隱私;雖然共識機制在公鏈和私鏈/聯盟鏈上有很大的差別,公鏈上使用的POW/POS共識機制[65],私鏈上使用PBFT及其變種算法的共識機制,但元宇宙將會基于區塊鏈形成自己的共識機制,去約束去中心化網絡中的每一個分散節點,并驗證每個節點的身份產生信任,保障元宇宙的去中心化價值網絡;基于以太坊的智能合約,一旦寫入無法篡改的特點及其可追蹤性,為元宇宙用戶提供可信交易。
除此之外,還有一些去中心化交易載體、組織機構也為元宇宙經濟系統建設增磚添瓦。目前,去中心化交易載體——數字貨幣,幣種已達21種 [66],包括MANA, AXS, SAND, CHR, TLM, SLP, ILV, ALICE, STARL, GHST, DPET等。另外,非同質化代幣(Non-fungible token, NFT)的出現引爆了元宇宙,可充當元宇宙激勵環節的媒介。它表示獨特物品所有權的代幣,包含特定商品或資產的獨特信息,實現虛擬物品的資產化,由于自身的數字稀缺性被率先應用于收藏、藝術品以及游戲場景。去中心化自治組織(Decentralized Autonomous Organization, DAO)將組織的管理和運營規則以智能合約的形式編碼在區塊鏈上,從而在沒有集中控制或第三方干預的情況下自主運行[67]。去中心化交易所(Decentralized Exchange, DEX)將資金保管在用戶的錢包中,交易平臺只負責提供數字貨幣流動性,撮合交易由智能合約來完成。現在DEX比較著名的有基于以太坊網絡的Uniswap、Sushiswap、IDEX、Bancor、Kyber,基于幣安智能鏈的Pancakeswap,基于Heco鏈上的MDEX [68]。
去中心化管理技術不僅在構建元宇宙經濟系統上起到了關鍵性作用,而且去中心化數據傳輸、存儲與管理等方面至關重要。如,數據傳輸和存儲過于集中,會出現單點故障和數據安全問題,文獻[69]提出了基于區塊鏈技術、門限代理重加密技術以及IPFS技術的去中心化數據共享方案;文獻[70]提出了基于分布式賬本的去中心化存儲系統框架,以提供可靠的數據存儲服務。因此未來去中心化管理技術將作為核心技術之一,保障元宇宙數據及經濟體系的安全,同時也能保障元宇宙中用戶的信息安全。
虛實世界的交互、虛實世界視覺、聽覺、觸覺、嗅覺的統一,是元宇宙虛實空間融合的基石,這離不開擴展現實、電子游戲及腦機接口等技術。
在較長的一段時間,人們與機器的交互拘泥于鍵盤、鼠標及顯示屏等外部設備。隨著科技的進步,擴展現實技術誕生,將人機交互從二維界面過渡到了三維交互,大大增加了人們的沉浸感體驗,這逐步變成了構建元宇宙技術支柱之一。實現其中的交互效果,XR及全息影像將承擔重要角色。 虛擬現實 (Virtual reality, VR)是一個先進的、理想化的虛擬現實系統,為用戶提供了完全沉浸式的體驗,讓他們感覺自己置身于現實世界。增強現實 (Augment reality, AR) 通過設備識別和判斷(二維、三維、GPS、體感、人臉和其他識別對象)將虛擬信息疊加在基于識別對象的位置上,并顯示在設備屏幕上,從而實現虛擬信息的實時交互。混合現實 (Mix reality, MR) 是一種結合現實世界和虛擬世界的新型可視化環境。在新的可視化環境中,物理對象和數字對象實時共存和交互。VR/AR/MR的邊界將在未來變得模糊,成為一種融合產品。目前,元宇宙采用的主要交互方式是為用戶創建高度交互的虛擬世界。 全息影像是通過光學的手段呈現物體真實的三維圖像的記錄和再現技術,是計算機技術和電子成像技術結合的產物。利用相干光干涉,記錄光波的振幅信息和相位信息,得到物體包含形狀、大小等的全部信息。全息影像技術是真正的三維立體影像,用戶在不借助可穿戴設備的情況下,就可以在不同的角度裸眼觀看全息影像。隨著技術的發展,全息影像技術可以模糊現實世界和虛擬世界的邊界,這將為真正實現元宇宙打下堅實的基礎。
電子游戲技術,是元宇宙的最直觀的表現方式,不僅可以為元宇宙提供內容創作平臺,還可以實現娛樂、社交場景的聚合。元宇宙產品實質是游戲的泛化(娛樂游戲、嚴肅游戲等),比如,美國著名歌手Travis Scott在《堡壘之夜》舉辦元宇宙演唱會;GUCCI與Roblox推出的“元宇宙GUCCI品牌展覽會”;歐萊雅發布的全球首個品牌虛擬代言人“M姐”等等。游戲開發中,最重要的是游戲引擎,類似于制造機床的母機床,這也將是大規模元宇宙平臺的“卡脖子”技術之一。游戲引擎的出現降低了游戲設計者及開發者建立虛擬場景的難度,使他們無需從基礎的代碼做起。其發展決定了元宇宙中NPC建模、場景實時渲染、用戶操作與交互等方面的質量及性能,讓用戶有更加接近于真實世界的體驗。目前,比較知名的游戲引擎如表5 所示。
腦機接口(Brain-computer interface, BCI)是通過識別大腦信號,對大腦活動過程中腦信號進行編碼和解碼。用戶通過腦機接口進行操作,如玩游戲、打字等。腦機接口技術通過將個人的大腦信號解碼成計算機設備可識別的命令,將人類的神經世界和外部物理世界連接起來[71],其過程主要包括:腦電信號采集、腦信號處理、設備控制及信息反饋四個方面[72]。腦機接口技術讓人類突破身體、可穿戴設備的限制,特別是可以幫助殘障人士以一種新的姿態重新融入到社會中。這種姿態是意識與思維的融入,將真正達到虛實空間融合,助力元宇宙虛實相生。 BCI目前已經有了許多可行的方法,Abiri等[73]綜述了基于腦電圖的腦機接口方法,其他學者基于人工智能算法的腦機接口進行了研究[71,74–75]。根據傳感器和計算設備的部署方式,可以分為侵入式接口和非侵入式接口,由于侵入式接口會對生物體造成一定的損傷,而且考慮到元宇宙的沉浸式體驗,未來元宇宙研究將重點關注非侵入式接口的研究,為元宇宙虛實空間融合奠定基礎。
2021年被成為元宇宙元年,自此,“元宇宙”概念和應用不斷地出現在我們視野中,國內外許多科技公司(例如,Facebook、英偉達、字節跳動等)開始布局元宇宙。隨著各種信息技術的逐漸成熟,元宇宙時代已經悄然來臨,并被應用于房地產、服裝、娛樂、會議、教育等應用場景。當前元宇宙正處于一個起步發力階段,潛力巨大,但它也會面臨諸多挑戰,具體如下所示。
元宇宙是否能夠被社會所接受,以及接受之后隨之而來產生的倫理與道德問題,比如,人機相處、虛擬婚姻家庭、虛假身份和信息、知識產權等[76]。也許在未來,會有公司/研究機構開發道德與倫理的數字協議,作為底層的技術來支撐元宇宙的運行。元宇宙概念構建的是一種高自由度、高包容度的“烏托邦”世界,如何在去中心化的框架中構架元宇宙的倫理與道德共識并被真實社會所接受,這需要從多視角進行探索。
另外,元宇宙的法律法規建設問題也需要同步研究。現實世界里用法律法規來約束正常的社會秩序,而元宇宙還處于初步探索期,是繼續沿用現實世界的法律還是依靠群體共識來約束元宇宙中人的行為及社會治理,都需要進一步研究。
元宇宙的發展,會帶來眾多的安全與隱私問題。其一,國家信息平臺整體安全問題。元宇宙作為新興的數字生態,其將遭受網絡攻擊。網絡攻擊既可針對元宇宙的最終用戶和設備終端,也可針對元宇宙的運營商或關鍵服務提供商,這將會影響國家的關鍵基礎設施。而且,元宇宙促進虛擬世界與現實世界的融合,將擴大網絡攻擊的危害性,嚴重影響國家信息平臺的整體安全。另外,由于元宇宙的技術發展模式,造成元宇宙產品蘊藏較多的設計缺陷和漏洞,這將威脅用戶在元宇宙中的“化身”資產,加大數字內容治理難度。其二,用戶數據的安全與隱私保護問題。元宇宙的出現,收集個人數據的數量以及豐富程度是前所未有的。在未來極有可能是多個公司/機構一起打造一個或多個元宇宙,那么公司/機構之間如何進行數據協調消除“數據孤島”問題以及不同元宇宙之間如何進行數據交互,保障元宇宙中用戶的隱私及安全成為亟待解決的問題。例如,Zhang等[77]從人工智能的角度概述了用戶訪問認證、網絡態勢感知、危險行為監控和異常流量識別等方面的研究,為優化元宇宙安全與隱私保護手段提供參考;Falchuk等[78]也提出了在元宇宙中面臨的隱私問題。
當前的技術遠不能實現概念中所描述的理想元宇宙,現在進入元宇宙空間主要依靠高沉浸感的XR(VR/AR/MR)設備,但當前的虛擬實現技術很難將設備小型化、便攜化以及低成本化,供用戶隨時隨地的進入元宇宙,而且長時間佩戴XR設備會讓人感覺不舒服。 元宇宙將會大量使用人工智能(Artificial intelligence, AI)算法(如機器學習、深度學習、強化學習等)。AI三要素,即數據、算法及算力,對元宇宙的建立及發展具有關鍵性的作用,助力實現超越現實世界限制的社會和經濟活動[79],但人工智能還存在諸多缺陷[80]。利用計算機視覺、智能語音、自然語言處理等技術可以產生逼真的視覺、聽覺等感覺。不管是硬件發展水平,還是數據、算法、算力的發展水平使得元宇宙目前遠不能達到高沉浸感體驗,而且體驗過程中,對于可靠性、穩定性及舒適度等方面具有較高要求,這些都還需要繼續和深度研究。
元宇宙強調了去中心化管理、用戶定制內容和高沉浸感等特點,尤其是去中心化的社會和經濟模式,一方面,包括貨幣、交易、資產、司法等都嚴重依賴現實世界的相應機構進行約束;二方面,去中心化模式發展的天花板是現實世界的各種限制,尤其是超大規模的元宇宙平臺實際上挑戰的是國家主權。因此,需要辯證地看待元宇宙的發展:小規模的元宇宙應用(平臺)可能會發展很快很廣泛;中等規模的元宇宙平臺(如社交網絡、購物平臺)受投資規模及運營風險等限制,進入的門檻還是很高的;至于超大規模的元宇宙社區,挑戰的是現實世界的國家主權,發展一定會受到限制。
元宇宙的誕生將促進現實世界與虛擬世界的聯接與融合,可能會成為人類社會發展的新形態,改變人們的生活方式。在元宇宙的發展初期,技術是根,技術的發展與創新是重中之重,本文概述了元宇宙涉及的網絡及運算技術、管理技術、虛實對象連接、建模與管理技術和虛實空間融合技術,為研究人員提供參考,推動技術創新來帶動產品、場景和應用創新。但是,“元宇宙”概念的爆火,其發展速度、終極形態,甚至對哲學、文化、社會及經濟治理,以及對人類的影響都還未知。隨著元宇宙應用雛形的落地,賦能實體經濟也將成為熱點方向,在政府堅持以技術賦能實體經濟的政策導向下,其在“元宇宙”時代仍將適用。當下“元宇宙”概念逐漸回歸理性,行業開始逐漸顯現出脫虛向實的趨勢。此外,隨著元宇宙的發展和應用的逐漸落地,其安全與監管問題,也將逐步提上日程。總之,無論處于何種趨勢,我們要清晰認識、理智決策、穩步探索元宇宙!
[1] What is the metaverse of the recent fire? [EB/OL]. CNR(2021-09-13) [2021-11-18].//baijiahao.baidu.com/s?id=37385158&wfr=spider&for=pc 最近大火的元宇宙是什么?[EB/OL]. 央廣網(2021-9-13) [2021-11-18]. [2] What is the metaverse of the recent fire [EB/ OL]. Mr. Xiong Hongmeng development (2021-11-09) [2021-11-18]. 最近大火的“元宇宙”到底是什么[EB/OL]. 鴻蒙開發大熊老師(2021-11-09) [2021-11-18].
圖像目標檢測是找出圖像中感興趣的目標,并確定他們的類別和位置,是當前計算機視覺領域的研 究熱點。近年來,由于深度學習在圖像分類方面的準確度明顯提高,基于深度學習的圖像目標檢測模型逐漸 成為主流。首先介紹了圖像目標檢測模型中常用的卷積神經網絡;然后,重點從候選區域、回歸和 anchor-free 方法的角度對現有經典的圖像目標檢測模型進行綜述;最后,根據在公共數據集上的檢測結果分析模型的優 勢和缺點,總結了圖像目標檢測研究中存在的問題并對未來發展做出展望。
計算機視覺(computer vision)是人工智能 (artificial intelligence,AI)的關鍵領域之一,是 一門研究如何使機器“看”的科學。圖像目標檢 測又是計算機視覺的關鍵任務,主要對圖像或視 頻中的物體進行識別和定位,是 AI 后續應用的基 礎。因此,檢測性能的好壞直接影響到后續目標 追蹤[1-2]、動作識別[3-4]的性能。傳統圖像目標檢測的滑窗法雖然簡單易于理 解,但隨目標大小而變化的窗口對圖像進行從左 至右、從上至下的全局搜索導致效率低下。為了 在滑動窗口檢測器的基礎上提高搜索速度, Uijlings 等[5]提出了選擇性搜索方法(selective search method),該方法的主要觀點是圖像中的 目標存在的區域具有相似性和連續性,基于這一 想法采用子區域合并的方式進行候選區域的提取 從而確定目標。Girshick 等[6]提出的基于區域的卷 積神經網絡(region-based convolutional neural network,R-CNN)就是采用了選擇性搜索方法提 取候選區域,進而越來越多的學者在不斷改進確 定目標的方法的基礎上提出新的檢測模型。
本文首先介紹了圖像目標檢測模型中常用的 卷積神經網絡;然后,重點從候選區域、回歸和 anchor-free 方法等角度對現有的圖像目標檢測模 型進行綜述;最后,根據在公共數據集上的檢 測結果分析模型的優勢和缺點,總結了現有圖 像目標檢測研究中存在的問題并對未來發展做 出展望。
本節將介紹近幾年提出的基于候選區域、回 歸和 anchor-free 的圖像目標檢測模型,總結各模 型相比之前模型的改進策略以及自身的創新點和 不足,并在 PASCAL VOC2007[17] 、 PASCAL VOC2012[17]和 MS COCO[18]等常用公共數據集上 做出比較。
R-CNN 圖像目標檢測模型是 Girshick 等[6]于 2013 年提出的,它是候選區域和卷積神經網絡這 一框架的開山之作,也是第一個可以真正應用于 工業級圖像目標檢測的解決方案,為基于 CNN 圖 像目標檢測的發展奠定了基礎。網絡結構如圖 2 所示。R-CNN 首先使用選擇性搜索方法從輸入的 圖像中提取出 2 000 個候選區域,使用剪裁[9]和變 形[19]的方法將候選區域的尺寸固定為 277×277 以 適應全連接層的輸入,通過 CNN 前向傳播對每個 候選區域進行特征計算;然后將每個候選區域的 特征向量送入特定線性分類器中進行分類和預測 概率值;最后使用非極大值抑制(non-maximum suppression,NMS)[20]算法消除多余的目標框, 找到目標的最佳預測位置。
R-CNN 圖像目標檢測模型雖然將 mAP(mean average precision,平均精度值)[17]在 VOC2007 和 VOC2012 數據集上分別達到了 58.5% 和 53.3%,在基于深度學習的圖像目標檢測領域取得 了重大突破,但由于其輸入圖像經過剪裁和變形 后會導致信息丟失和位置信息扭曲,從而影響識 別精度,并且 R-CNN 需要對每張圖片中的上千個 變形后的區域反復調用 CNN,所以特征計算非常 耗時,速度較慢。基于 R-CNN 需固定輸入圖像尺寸以及檢測 速度較慢的缺點,2014年He等[21]提出了SPP-Net, 該模型先是計算整個輸入圖像的卷積特征圖,根 據選擇性搜索方法提取候選區域,通過對特征圖 上與候選區域相對應位置的窗口使用金字塔池化 (spatial pyramid pooling,SPP)可以得到一個固定 大小的輸出,即全連接層的輸入。與 R-CNN 相比, SPP-Net 避免了反復使用 CNN 計算卷積特征,在 無須對輸入圖像進行剪裁和變形的情況下實現了 多尺度輸入卷積計算,保留了圖像的底層信息, 在VOC2007數據集上測試時 mAP達到了59.2%, 在達到相同或更好的性能前提下,比 R-CNN 模型 快 24~102 倍。雖然 R-CNN 和 SPP-Net 在 VOC2007 數據集 上都獲得了很高的精度,但兩者將分類和回歸分 為多階段進行,使得網絡占用了較多的硬件資源。2015 年 Girshick 等[22]提出了一種快速的基于區域 的卷積網絡模型(fast R-CNN)。該網絡首先用 選擇性搜索方法提取候選區域,將歸一化到統一 格式的圖片輸入 CNN 進行卷積計算,然后借鑒了 SPP-Net 中金字塔池化的思想,用最大值池化層 ROI pooling 將卷積特征變成固定大小的 ROI 特征 輸入全連接層進行目標分類和位置回歸。該網絡 采用多任務訓練模式,用 softmax 替代 SVM (support vector machine,支持向量機)[23]進行分 類,將分類和回歸加入網絡同時訓練,在末尾采用可同時輸出分類和回歸結果的并行全連接層。fast R-CNN 減少了硬件緩存,提高了檢測速度, 初步實現了端對端的圖像目標檢測,并且在 VOC2007 和 VOC2012 數據集上的 mAP 分別為 66.9%和 66.0%。
由于 fast R-CNN 無法滿足實時檢測的需求, Ren 等[24]提出了改進模型 faster R-CNN。該網絡 的最大創新就是提出了區域提議網絡(region proposal network,RPN),即在基礎卷積網絡提 取輸入圖像特征的基礎上用 RPN 代替 fast R-CNN 中的選擇性搜索方法進行候選區域的提取。RPN 是一個全卷積網絡,網絡結構如圖 3 所示,該網 絡可以同時在每個位置上預測出目標邊界和目標 概率并產生高質量候選區域,然后通過 ROI pooling將卷積特征變成固定大小的ROI特征輸入 全連接層進行目標分類和位置回歸。RPN 和 fast R-CNN通過四步交替訓練法使兩個網絡共享卷積 特征合并為單一網絡,解決了區域計算的瓶頸問 題,在實現真正端對端訓練模式的基礎上滿足了 實時應用的需求[23]。
2017 年 He 等[25]提出了 mask R-CNN 目標檢 測模型,該模型以faster R-CNN為原型,即在faster R-CNN 中生成的候選區域中融入 FCN(fully convolutional network,全卷積神經網絡)[26]作為 新的支路用于生成每個候選區域的掩膜,同時把 faster R-CNN 中 RoI pooling 修改成為了 ROI align 用于處理掩膜與原圖中物體不對齊的問題。Mask R-CNN 在訓練時可以同時生成目標邊界、目標概 率和掩膜,但在預測時通過將目標邊界和目標概 率的結果輸入掩膜預測中以生成最后的掩膜,該 方法減弱了類別間的競爭優勢,從而達到了更好 的效果,在 MS COCO 數據集上的 mAP 測試結果 達到 35.7%。
**YOLO 及擴展模型 **
檢測精度和檢測速度是評判圖像目標檢測模 型好壞的重要標準[27]。基于候選區域的圖像目標 檢測模型,雖然在檢測精度方面首屈一指,但是 它檢測圖像的效率低是其主要弊端。2016 年 Redmon 等[28]提出 YOLO(you only look once)檢 測模型,該模型將圖像目標檢測抽象為回歸問題, 通過對完整圖片的一次檢測就直接預測出感興趣 目標的邊界框和類別,避免了 R-CNN 系列中將檢 測任務分兩步進行的煩瑣操作,解決了之前圖 像目標檢測模型檢測效率低的問題。檢測網絡 將輸入的圖片分成 s×s 個網格,如圖 4 所示,各 網格只負責檢測中心落在該網格的目標,預測 出網格的類別信息以及多個邊界框和各個邊界 框的置信度,通過設定閾值過濾掉置信度較低 的邊界框,然后對保留的邊界框進行 NMS 處理 以確定最終的檢測結果。YOLO 以回歸替代了 之前圖像目標檢測模型的候選區域方法,在滿足 實時需求的基礎上檢測速度達到 45 f/s,但由于 YOLO 在檢測過程中僅選擇置信度最高的邊界框 作為最終的輸出,即每個網格最多只檢測出一個 物體,因此 YOLO 在檢測緊鄰群體目標或小目標 時效果不佳,在 VOC2007 上的 mAP 也僅有 66.4%。針對 YOLO 在目標定位方面不夠準確的問 題,2017 年 Redmon 等[29]提出了 YOLO 的擴展模 型 YOLOv2 和 YOLO9000。YOLOv2 首先在卷積 層中添加批量歸一化(batch normalization,BN)[30]技術使得模型的收斂性有顯著的提升,然后借鑒 faster R-CNN 的思想用聚類方法產生的錨框替代 了 YOLO 中預測出的邊界框,最后通過輸入更高 的分辨率圖像并對其進行遷移學習[31]從而提升網 絡對高分辨率圖像的響應能力,訓練過程中無須 固定圖像的尺寸,因此在一定程度上提升了網絡 的泛化能力。除此之外 YOLOv2 還提出將一個由 19 個卷積層和 5 個 MaxPooling 層構成的 Darknet-19[28]網絡作為骨干網進一步提升檢測速 度。而 YOLO9000 則是在 YOLOv2 的基礎上提出 了目標分類和檢測的聯合訓練方法,使 YOLOv2 的檢測種類擴充到 9 000 種。2017 年 Redmon 等[32] 提出了 YOLOv3 檢測模型,它借鑒了殘差網絡結 構,形成網絡層次更深的 Darknet-53,通過特征 融合的方式采用 3 個不同尺度的特征圖進行目標 檢測,并且用 logistic 代替 softmax 進行類別預測 實現了多標簽目標檢測,該網絡不僅提升了小目 標檢測效果,在邊界框預測不嚴格并且檢測精度 相當的情況下檢測速度是其他模型的 3~4倍。
2016 年 Liu 等[33]提出 SSD 圖像目標檢測模 型,該模型徹底淘汰了生成候選區域和特征重采 樣階段,選擇將所有計算封裝在單個深層神經網 絡中,網絡結構如圖 5 所示。SSD 網絡繼承了 YOLO 中將目標檢測問題抽象為回歸問題的思 想,采用特征金字塔的方式進行檢測,即利用不 同卷積層產生不同的特征圖,使用一個小的卷積 濾波器來預測特征圖上一組固定的默認邊界框類 別和位置偏移量。為了實現較高的檢測精度,在 不同尺度的特征圖中進行不同尺度的預測,并設 置不同長寬比的邊界框進行分離預測。由于圖 像中的目標具有隨機性,大小不一,所以小目 標的檢測是由 SSD 使用底層特征圖來實現的, 大目標的檢測是由 SSD 使用高層特征圖來實現 的,相對于 YOLO 精確度大幅度提高,并且效 率也有所提升。2017 年 Fu 等[34]提出 DSSD 檢測模型,即將 Resnet-101 作為 SSD 的骨干網,在分類回歸之前 引入殘差模塊,并且在原本 SSD 添加的輔助卷積 之后又添加了反卷積層,與 SSD 相比,DSSD 在 小目標的檢測精度上有了很大的提升,但 Resnet-101 網絡太深導致 DSSD 的檢測速度相比 SSD 較慢。2017 年 Jisoo 等[35]在未改動 SSD 主干網絡的基礎上提出了 RSSD(rainbow SSD)檢測 模型,該網絡同時采用池化和反卷積的方式進行 特征融合,不僅增強了不同特征層之間的關系, 由于融合后的特征大小相同,還一定程度上增加 了不同層的特征個數。這種特征融合方式解決了 SSD 存在的重復框的問題,同時提升了對小目標 的檢測效果,但與 SSD 相比檢測速度較慢。2017 年 Li 等[36]提出了 FSSD,該模型通過重構一組金字 塔特征圖充分融合了不同層不同尺度的特征,在 保證檢測速度與 SSD 相當的同時使得檢測精度有 了明顯的提升。2019 年 Yi 等[37]借鑒注意力機制[38] 的思想在 SSD 檢測模型中設計了一個注意力模 塊,該注意力模塊基于全局特征關系可以分析出 不同位置特征的重要性,從而達到在網絡中突出 有用信息和抑制無用信息的效果,ASSD[37]檢測精 度提高,但與 SSD 相比,檢測速度較慢。
圖像目標檢測發展日新月異,越來越多優秀 目標檢測模型陸續被提出,基于候選區域和回歸 方法的檢測模型目前發展穩定并且成熟,而基于 anchor-free 的檢測模型是當下目標檢測領域中新 的熱門研究方向,anchor-free 檢測模型有兩種, 分別為基于關鍵點的檢測和基于分類和回歸進行 改進的檢測。
2018 年 Law[42]受到 Newell 等在姿態估計[43-46] 中的關聯嵌入的啟發提出了 CornerNet,這是一種 新型的圖像目標檢測方法。CornerNet 將一個目標 檢測為一對關鍵點,即目標邊界框的左上角點和 右下角點,是第一個將圖像目標檢測任務表述為 利用嵌入角點進行分組和檢測任務的模型,開啟 了基于關鍵點的目標檢測方法的大門。CornerNet 首先使用沙漏網絡[15]作為其骨干網絡輸出最后一 層卷積特征,骨干網后接兩個分支模塊,分別進 行左上角點預測和右下角點預測,每個分支模塊 包含一個 Corner pooling(角池化)和 3 個輸出, 網絡結構如圖 7 所示。heatmaps(熱圖)輸出的 是預測角點的位置信息,當圖像中出現多個目標時,embeddings(嵌入)根據左上角點和右下角 點嵌入向量之間的距離對屬于同一目標的一對角 點進行分組;offsets(誤差)是輸出從圖像到特征 圖的量化誤差,用來對預測框進行微調。
當角點在目標之外時,此時獲取的信息不足 以進行當前的定位,為了能夠更好地定位邊界框 的角點,Law 等[42]介紹了一種新型池化層—角池 化層,該池化層包含兩個特征圖,在每個像素位 置,它將第一個特征圖下側的所有特征向量和第 二個特征圖右方的所有特征向量最大化,然后將 兩個合并后的結果相加輸出最后的角點。CornerNet 極大地簡化了網絡的輸出,徹底消除了 圖像目標檢測對候選區域和候選框的需要,在 MS COCO 上實現了 42.1%的 mAP,但當 CornerNet 將邊界框的角點定位在物體之外時目標的局部 特征表現不強烈,并且在判斷兩個角點是否屬 于同一目標時,由于缺乏全局信息的輔助導致 匹配角點時產生錯誤目標框,因此存在一定的 誤檢率。2019年Zhou等[47]借鑒CornerNet 的思想提出 一種新的檢測思路,即通過關鍵點估計[48-50]網絡 對每個目標預測出 4 個極值點和 1 個中心點,然 后提取極值點的峰值,暴力枚舉所有的組合并計 算出每個組合的幾何中心點,若幾何中心點與預 測的中心點匹配度高于設定閾值,則接受該組合, 并將這 5 個極值點的得分平均值作為組合的置信 度。ExtremeNet[47]將目標檢測問題轉化成單純的 基于外觀信息的關鍵點估計問題,避免了對目標 隱含特征的學習,相對于 CornerNet 更好地反映了物體的信息,檢測效果更好。
自 2018 年 CornerNet 提出以來,基于 anchor-free 的目標檢測模型在分類和回歸的方法 上又有了新的創新,如 2019 年 Zhu 等[53]提出一種 基于 anchor-free 的動態選擇特征層的方法,該方 法主要是在 RetinaNet 的基礎上建立一個 FSAF(feature selective anchor-free)模塊,即對每個層 次的特征都建立一個可以將目標分配到合適特性 級別的 anchor-free 分支,使得目標框能夠在任意 特征層通過 anchor-free 分支進行編解碼操作。FSAF 可以和基于錨的分支并行工作平行的輸出預測結 果,有效地提升了 RetinaNet 的穩健性,解決了傳統 基于錨框檢測的網絡根據候選框選擇特征層的局限 性,并在 MS COCO 上實現了 42.8%的 mAP。傳統基于錨框的檢測網絡面對變化較大的目 標時需要根據檢測任務預定義錨框尺寸,通過手 工設置錨框提高召回率這一操作不僅占用較大的 計算和內存資源,還在一定程度上深化了正負樣 本不平衡問題。2019 年 Tian 等[54]提出一種全卷積 目標檢測網絡 FCOS,類似語義分割中[55]利用逐 像素點預測的方式解決目標檢測問題。為了提高 檢測效果,FCOS 引入 center-ness 分支用于降低檢 測效果不理想的目標框權重,然后通過 NMS 算法 確定最終檢測結果。基于 anchor-free 的 FCOS 檢 測網絡極大地降低了參數計算,可以與其他視覺 任務相結合,并且盡可能多地使用正樣本參與訓 練,解決了之前檢測模型中出現的正負樣本不平 衡問題,但在檢測時由于目標真實框重疊,可能 會出現語義模糊情況。2019年Kong等[59]提出了FoveaBox目標檢測 網絡,結合人類視覺系統是通過眼球中對物體感 應最敏銳的中央凹(Fovea)結構確定物體位置的 原理對目標真實框進行位置變換,更具體地說是 通過目標真實框找到目標對應在特征圖中的中心 位置,然后設定兩個縮放因子分別對目標真實框 向中心點進行收縮和擴展,將收縮邊框的內部點 作為正樣本,擴展邊框外部點作為負樣本。這種 通過位置變化忽略兩個邊框中間點的方法不僅增 加了正負樣本之間的識別度、解決了樣本不平衡 問題,還有效提升了檢測性能,但與其他 anchor-free 模型相比檢測精度略低,在 MS COCO 上實現的 mAP 僅有 40.6%。
本文對現有經典圖像目標檢測模型的創新點 及優缺點做出對比,見表 1。無論是候選區域法、 回歸法還是 anchor-free 法,提出模型的主要目的 都是為了能夠高精度、高速率地識別并檢測出目 標。由表 1 可以看出,基于候選區域法模型的提 出開啟了用 CNN 提取特征的大門使圖像目標檢 測進入深度學習時代,回歸法則解決了候選區域 法的速度瓶頸問題,實現了端對端的圖像目標檢 測。而基于 anchor-free 的算法消除了候選區域法 和回歸法中候選框的設計,生成高質量的目標框 并在未來形成了一個有前途的方向。對本文中提到的圖像目標檢測模型在公共數 據集上的檢測結果做出對比,見表 2。“—”表示 此數據集沒有該模型的測試結果,2007 表示數據 集 VOC 2007,2012 表示數據集 VOC 2012;[email protected] 表示該模型在 MS COCO 數據集上是取 閾值為 0.5 計算精度的,AP@[0.5,0.95]表示該模 型在 MSCOCO 數據集上是取 10 個閾值(間隔 0.05)計算精度的,即 mAP,表 2 中所有的數據 集精確率檢測結果均以百分比為單位。FPS 表示 該模型每秒處理圖片的數量。