亚洲男人的天堂2018av,欧美草比,久久久久久免费视频精选,国色天香在线看免费,久久久久亚洲av成人片仓井空

遙感圖像匹配是遙感圖像處理的關鍵基礎,一直是國內外學者研究的熱點.由于多模態圖像具 有輻射差異、幾何差異、尺度差異、視角差異、維度差異等特性,目前尚未出現一種普適性強的通用匹配 方法.隨著遙感、人工智能、大數據等技術的不斷發展和應用領域的持續拓展,圖像匹配技術體系也在 不斷地發展和演化.本文在系統梳理圖像匹配技術發展歷程的基礎上,對多模態遙感圖像匹配分類體 系進行了歸納總結,從特征驅動和數據驅動兩方面論述了多模態圖像匹配技術研究的最新進展,并指出 其面臨的核心困難及未來發展趨勢,以期推動多模態圖像匹配研究更加深入發展.

//www.proquest.com/docview/2762943583?pq-origsite=gscholar&fromopenview=true

0. 引言

遙感圖像匹配是遙感圖像處理中的基礎任 務,是指通過空間變換將一幅圖像映射至不同時 相、不同角度、不同光照等條件下獲取的同一場景 的另一幅或多幅圖像中,在該兩幅或多幅圖像之 間建立空間對應關系的過程[1G2].遙感圖像匹配 作為遙感圖像拼接、融合、變化檢測和目標定位等視覺處理與理解任務的核心基礎,在自然災害應 急、損毀評估等領域發揮著重要作用[3].隨著遙 感技術的高速發展,可見光、多/高光譜、紅外、合 成孔徑雷達(SAR)、激光雷達等覆蓋天空地不同 平臺的傳感器不斷涌現,為人類對地觀測提供了 多種數據源[4G5].如何有效集成多傳感器、多分辨 率和多時相的遙感數據,對其進行深入處理分析, 已成為現階段遙感領域研究的熱點與重點,而多 模態遙感圖像匹配則是其中迫切需要解決的核心 問題之一.多模態遙感圖像匹配通常指不同傳感器(如 可見光和SAR傳感器,可見光和紅外傳感器等)、 不同成像平臺(如衛星平臺與航空平臺、航空平臺 與地面車載平臺等)之間的圖像匹配,圖像之間存 在典型的“五差異”(成像特性差異、幾何差異、尺 度差異、視角差異、維度差異等的一種或幾種)和 “三不同”(不同環境、不同天氣、不同天候等),給 高精度匹配帶來了極大的困難[6G8].其難點主要 表現為:①圖像匹配的核心是要找到同名特征,但 由于多模態圖像特征異構,如何準確定義和描述 同名特征,如何對同名特征進行表征是個難題; ②多模態圖像之間的同名特征很難提取,即使在 不同視角和維度下提取到同名特征,也存在不完 整、難對應的情況;③在特征表征和描述不完備情 況下,很難定義有效的相似性測度來度量兩個特 征集間的相似性.

成像傳感器的不斷涌現和應用成像方式的各 種變化給多模態遙感圖像匹配帶來持續不斷的挑 戰,對其研究和應用是學術界和工業界持續關注 的焦點之一.國內外眾多研究機構(如武漢大學、 電子科技大學、西北工業大學、西南交通大學、中 國科 學 院、曠 視 研 究 院、洛 桑 聯 邦 理 工 學 院(EPFL)等)和學者提出了大量的多模態圖像匹 配方法[9G12].關于圖像匹配方法的大賽也如火如 荼,如 CVPR2021Image Matching、2020 年“智 箭??火眼”人工智能挑戰賽等,這些比賽均受到了 眾多關注.從最初互信息(mutualinformation, MI)和相位相關(phasecorrelation,PC)方法被適 用于多源遙感圖像匹配[13G14],到許多學者通過設 計改造特定的手工特征描述用于多模態圖像匹 配,再到深度學習技術被用來解決多模態圖像匹 配難題,多模態圖像匹配技術在近幾十年得到了 長足的發展.目前的一些綜述文獻對圖像匹配進 行了分類整理[15],這些研究普遍認為圖像匹配是 一個復雜的綜合處理過程,僅靠單一圖像匹配算 法無法解決所有的圖像匹配問題[16G18],但是并未 對多模態圖像匹配理論和方法進行系統分析,也 沒有提出較為系統的解決方案.總體來說,盡管 多模態圖像匹配方法和應用都取得了很大進展, 但是目前尚未出現一種普適性強、適用于所有情 況的方法.

1 多模態圖像匹配發展現狀

多模態圖像匹配方法根據數據源角度可以分 為:可見光與 SAR 圖像匹配、可見光與紅外圖像 匹配、紅外圖像與 SAR 圖像匹配、可見光與多光譜圖像匹配、遙感圖像與 GIS矢量匹配、遙感圖 像與視頻數據匹配、遙感圖像與三維點云匹配. 根據傳感器平臺可以分為:衛星影像與航空影像 匹配、航空影像與地面照片匹配、衛星影像與地面 照片匹配[19].一般認為,多模態圖像匹配方法是 在傳統的圖像匹配方法基礎上發展起來的,可劃 分為基于特征驅動的匹配方法和基于數據驅動的 匹配方法.以時間脈絡為序,多模態圖像匹配方 法主要包括以下3個典型的發展階段(圖2): (1) 萌芽期(1970—1990 年).最初的圖 像 匹配是利用相關系數實現,通過計算圖像中選定 的模板區域的相似性,從中構建圖像之間的匹配 關系.把圖像信號最為相似的區域稱為同名區 域,同名區域的中心點稱為同名點,這就是最初相 關系 數 圖 像 匹 配 基 本 原 理,也 稱 之 為 模 板 匹 配 (templatematching),現有圖像匹配方法基于模 板匹配雛形發展而來.在該類匹配算法中常用的 相似性度量函數包括差方和(SSD)、歸一化互相 關(NCC)、互信息(MI)和相位相關(PC)等[20G22]. 最初學者們發現,一般 SSD、NCC 和 PC 受非線 性灰度畸變的影響很大,難以應用于多模態圖像 匹配.互信息(MI)被證明在一定程度上能夠抵 抗非線性灰度畸變,能適用于多源圖像匹配中,但 具有較高計算量.

(2) 第一次發展期(1990—2015 年).主要 以基于特征的匹配方法為主,通過從參考圖像和 待匹配圖像中提取一些共同特征作為匹配基元, 然后通過建立匹配基元之間的對應關系,求解變換模型參數,完成匹配.特征主要分為面特征、線 特征和點特征.面特征主要是使用區域分割的方 式得到的.線特征主要是提取圖像邊緣和紋理信 息,包括 LOG 算子[23]、Canny 算 子[24]等.點 特 征是目前研究最多的一種,是根據某種策略在圖 像中提取一些具有一定不變性的點,然后使用某 種描述方式,將該點附近的局部信息進行描述,其 中 包 括 Harris 角 點 檢 測[25]、SIFT 描 述 子[26]、 SURF描述子[27]等.針對多模態圖像許多學者 提出了基于幾何結構的特征描述,包括 HAPCG 和 RIFT 等描述子.與基于區域 的 匹 配 方 法 相 比,基于特征的匹配方法并不直接作用于圖像灰 度,它表達了更高層的圖像信息,這一特性使得基 于特征的匹配方法對圖像的灰度變化、圖像變形 及遮擋都有較好的適應能力,極大地擴展了圖像 匹配技術的適用范圍. (3)第二次發展期(2015 年至今).隨著深 度學習的發展,眾多深度學習網絡結構(如卷積神 經網絡(CNN)、生成式對抗網絡(GAN)等)在圖 像處理領域取得了較大的成功[28G30].CNN 中的 卷積層具有強大的特征提取能力,在網絡訓練的 過程中,通過監督信息和反向傳播函數更新網絡 層參數,使得 CNN 對非線性畸變和噪聲等具有 較好的穩健性.GAN 通過對抗訓練的方式來使 得生成網絡產生的樣本服從真實數據分布,為樣 本數據受限下的深度學習異源匹配提供了解決途 徑.深度學習為多模態圖像匹配的研究提供了更 多發展空間. 目前主流的多模態圖像匹配方法主要分為特 征驅動的匹配方法和數據驅動的匹配方法.特征驅動的匹配方法主要靠直覺和研究者的專業知識 驅動,數據驅動的匹配方法主要依靠大量數據來 學習建立及優化匹配模型.與數據驅動的匹配方 法相比,基于特征的匹配方法在性能方面相對較 差,適用于處理訓練數據和測試數據為同一場景 的圖像,該方法大多針對某一難點或某一應用而 設計,很難設計出普適性很強的描述符,其優點是 不需要數據或者只需少量數據,計算時間較快. 數據驅動的匹配方法性能更高,主要通過學習數 據中的多樣性,適用于不同的數據集和應用,但該 方法參數的選擇可能需要端到端的梯度下降法進 行訓練,需要大量的訓練數據來保證其穩健性,計 算時間相對較慢.由于深度學習技術的突出優 勢,深度學習和圖像匹配的融合已逐步成為主流 方法.

2 特征驅動的匹配方法

特征驅動的匹配方法從原理上大體可分為基 于 區 域 的 匹 配 算 法 和 基 于 顯 著 特 征 的 匹 配 算 法[31],也有學 者 為 了 減 小 多 模 態 圖 像 匹 配 的 難 度,結合一些先驗知識輔助匹配過程[32].

2.1 基于區域的匹配方法

基于區域的匹配方法直接利用預設的模板窗 口上的灰度信息作為基準進行匹配,通過定義一 個相似性度量來計算模板窗口間的相似性,選擇 相似性最大的一對模板窗口作為匹配結果.由于 基于區域的匹配是對圖像模板區域的整體像素點 信息進行分析處理,一般具有較高的匹配精度,但 由于該圖像匹配方法對成像條件、圖像形變(特別 是要求圖像對具有極高的重疊度)及噪聲極其敏 感,同時具有較高的計算復雜度,從而限制了其應 用能力.對基于區域的匹配方法進行細分又包含 基于空間域的方法和基于變換域的方法.

2.2 基于顯著特征的匹配算法

基于顯著特征的圖像匹配方法彌補了基于灰 度特征匹配方法的不足,在對存在仿射變換、投影 變換的圖像對之間的匹配也具有很好的效果.同 時,由于基于顯著特征的匹配算法不是針對整幅 圖像進行匹配,而是在圖像中提取出一系列具有代表性的特征,然后將兩圖像間的特征進行匹配, 這樣就使得算法復雜度大大降低,匹配速率較快. 在一些對實時性要求較高的應用中,通常都使用 基于顯著特征的圖像匹配算法.基于顯著特征的 匹配核心結構包括特征檢測、特征描述和特征匹 配等方面.

2.3 先驗信息輔助匹配

經過多年的研究,眾多學者逐漸達成共識:遙 感圖像的很多處理(包括匹配、分割、檢測、提取 等)需要高層知識的介入才能得到徹底的解決. 受限于人腦和視覺理論研究,多年來遙感圖像匹 配一直停留在“圖像數據”這個層面.比較經典的 利用知識進行圖像匹配的方法是借助先驗信息, 利用先驗信息來有效抵抗多模態圖像匹配中非線 性畸變和幾何形變等因素帶來的影響,例如成像 參數信息、DEM 數據信息等,利用這些信息去引 導或驗證匹配,從而提高匹配的準確性.高精度 POS數據等先驗信息通常被作為輔助信息用來 解決視角和尺度變化造成的匹配難題.在特征點 匹配之前對影像進行全局幾何糾正,整體上消除 或降低影像幾何變形的影響,再采用傳統特征描 述和匹配方法進行特征點匹配[70G72].利用地理語義知識來輔助進行圖像匹配是另 一種常用 方 法,比 如 利 用 GIS 數 據 中 的 分 類 信 息,或者對圖像上的建筑、水體、道路等地方事先 進行語義信息提取.文獻[73]在無人機圖像與衛 星圖像匹配上利用道路信息,解決高空城市場景 匹配定位的問題.通過利用 UGnet網絡提取圖像 語義信息,結合該信息來提高匹配精度.雖然利 用語義信息能夠提升算法穩健性,但同樣局限了 算法的應用場景,在語義缺失場景下難以部署.

3 數據驅動的匹配方法

數據驅動的匹配方法就是利用深度學習技術 從大量訓練數據中學習構建匹配的模型,許多學 者嘗試將其應用于解決多模態匹配難題[74].相 較于特征驅動的方法,數據驅動的方法基于深度 學習對深層特征有著優越的學習和表達能力,在 圖像匹配問題上嶄露頭角并取得了初步成效[75], 能夠直接從包含相同或相似結構內容的圖像對中 學習到像素級別的匹配關系,并且能夠更好地適 應非線性輻射和噪聲等因素帶來的影響.基于數 據驅動的方法可分為兩類:一類為通過構建神經 網絡結構替換部分匹配環節,可稱為單環節深度 網絡;另一類為構建端到端的神經網絡結構完全 替換圖像匹配的整個過程,稱為端到端深度網絡. 端到端的網絡同時也可以用于圖像的預處理過 程,就是通過圖像合成、風格遷移等技術,根據不 同模態圖像的成像特性,對不同模態的圖像進行 風格轉化,用于擴充多模態圖像數據集或直接轉 換成同模態圖像形式進行匹配[7,15].

(1) 單環節深度網絡.

單環節深度神經網絡 僅替換部分匹配環節,該種方式往往更加靈活,可 根據不同的需求結合其他各具優勢的結構構建完 整的匹配模型.許多學者通過深度學習從圖像中 檢測更精確可靠的特征點集、學習每個特征點的 主要方向或主要尺度及其更具有區分性和可匹配 能力的特征描述子.D2net [76]創新性地構建了檢 測特征和特征描述為一體的網絡結構,通過使用 CNN 計算特征圖,然后通過將這些特征圖進行切 片 的 方 式 來 計 算 描 述 子,并 且 提 取 關 鍵 點. CMMGNet [77]通過對 D2net改進并用于多模態圖 像匹配中,該方法使用動態自適應歐氏距離閾值 和 RANSAC算法共同約束來剔除錯誤匹配點, 在異源遙感圖像的匹配上展示出優良的匹配效 果.一種結合深度學習和傳統局部特征由粗到精 的匹配方法[78]曾被應用于多模態圖像匹配中,該 方法首先通過 CNN 提取深度特征進行粗匹配, 再通過結合更精確的局部特征來調整粗匹配結 果,從而產生更穩定的匹配結果.有學者設計了 一種基 于 Siamese 的 多 模 態 圖 像 特 征 提 取 網 絡[79],旨在提取多模態圖像之間的共同特征,該 網絡通過去除池化層和從Siamese網絡中提取特 征層進行優化,以保持特征信息的完整性和位置 準確性,從而更加有效提取多模態圖像之間的共 同特征.也有學者通過采用最大正樣本和負樣本 特征距離作為損失函數,基于 Siamese網絡結構 來訓練一種全卷積神經網絡學習多模態圖像塊的 描述符表示[80].該方法在多模態匹配上展示出 不錯的匹配效果.通過深度學習來對待匹配圖像 進行預校正也是個不錯的思路,一種基于深度學 習和高斯特征的旋轉不變多模態圖像匹配方法通 過訓練一種名為 RotNET 的神經網絡來預測圖 像間的旋轉關系,再通過構建面向梯度的高斯金 字塔特征(GPOG)來匹配兩幅圖像[81].該方法 表現出對圖像旋轉和非線性輻射差異有著較好的 穩健性.還有些學者利用深度學習學習描述子之 間更可靠的相似性度量準則等[82],代表性的方法 如SuperGlue [83]構建了一個進行特征匹配以及粗 差剔除的網絡.SuperGlue通過將特征匹配問題視為求解可微分最優化轉移問題,從而構建循環 神經網絡 GNN 來解決該問題.而且 SuperGlue 根據注意力機制提出了一種靈活的內容聚合機 制,這使它能夠同時感知潛在的3D 場景并進行 特征匹配.這類方法通過構建深度神經網絡來學 習相似性測度匹配、粗差剔除,能夠靈活地與不同 匹配方法結合,從而達到對不同匹配方法改進的 效果. 這些方法基于深度學習強大的深度特征提取 能力和高維特征表征能力,通過訓練單獨的網絡 來替代多模態圖像匹配的某一環節,與其他方法 結合構建整體的多模態圖像匹配模型,具有較大 的使用靈活度.

(2) 端到端深度網絡.

基于深度學習直接設 計一個端到端的匹配網絡,如設計一種全自動多 尺度多模態圖像匹配框架[84],該框架由3個神經 網絡結構組成,分別對應著特征空間提取、基于特 征空間相關函數的匹配和離群點剔除,對于光學 和 SAR 圖 像 匹 配 具 有 較 好 的 匹 配 效 果. LoFTR [85]在粗粒度上建立圖像特征的檢測、描述 和匹配,然后在精粒度別上細化亞像素級別的密 集匹配,且借鑒 Transformer使用了自注意層和 互注意層來獲得兩幅圖像的特征描述符.端到端 的網絡結構能夠同時學習特征檢測、特征描述符、 相似性測度和粗差剔除,在訓練時通過信息反饋 能夠使特征匹配全流程最優化,但單獨使用這類 方法學習到的特征描述符時難以保證匹配效果. 通過風格遷移的方式將不同模態的圖像轉化 為統一模態的圖像也是一種解決多模態圖像匹配 難題的有效途徑.深度學習中的生成對抗網絡 (generativeadversarialnetwork,GAN)通過對抗 訓練的方式來使得生成網絡產生的樣本服從真實 數據分布,為樣本數據受限下的深度學習異源匹 配提供了解決途徑,可充分利用深度學習強大的 非線性表征能力實現異源影像匹配.CGAN [86] 通 過 融 合 殘 差 網 絡 (Resnet)和 稠 密 網 絡 (DenseNet)構建一種并行生成器模型,有效融合 了各分支網絡結構的優點,在紅外—可見光圖像 轉換中展示出優良效果.SKGGAN [87]則以動態 感受野獲取多尺度信息的生成結構提高了生成圖 像的質 量.KCGGGAN [88]通 過 使 用 kGmeans分 割作為圖像生成器的輸入之一,以此通過約束空 間信息合成來提高生成圖像的質量,在SAR和光 學圖像匹配上得到很好應用. 基于數據驅動的多模態圖像匹配方法利用深 度學習技術從數據中獲取高層的語義信息進行匹 配,有著很強的泛化性,更接近人類視覺先觀察學 習后了解掌握的原理,能有效地處理較大的輻射 和幾何差異,且有著較好的適應性,但同時也會對 設備以及多模態圖像訓練數據集有著更高的需 求,相 比 于 特 征 驅 動 的 方 法 處 理 流 程 更 加 復雜[89].

4 總結與展望

圖像匹配問題由來已久,學者們根據實際單 方面需求在理論上進行突破使得現有的方法具有 一定的實際應用能力.從當前圖像匹配的研究現 狀來說,可選的圖像匹配方法種類非常多,不同方 法適合不同的情況.筆者對各類算法進行簡要總 結,見表1.

付費5元查看完整內容

相關內容

摘要: 光學遙感圖像中云層會對地面信息進行不同程度的遮擋,造成了地表觀測信息的模糊和缺失,極大地影響遙感圖像的成像質量。因此,對遙感圖像中云層覆蓋的檢測和評估是進一步分析和利用遙感圖像信息的基礎和關鍵。通過充分的調研和對比總結,梳理了20世紀90年代以來,國內外基于遙感圖像的云檢測方法的發展趨勢和代表性工作。將基于遙感圖像的云檢測方法分為三類:基于光譜閾值的方法、基于經典機器學習的方法以及基于深度學習的方法。總結了當前國內外云檢測公開數據集,并對比了部分代表性工作的云檢測精度。此外,簡要梳理了與云檢測相關的云霧(霾)檢測、云雪檢測、云陰影檢測以及云去除等方法。對當前云檢測相關工作中存在的問題和未來的發展趨勢進行了分析和展望。 //journal26.magtechjournal.com/kjkxjs/CN/Y2023/V43/I1/1

**1 引言 **

近些年,隨著遙感技術的迅速發展以及大數 據技術的廣泛應用,對地觀測數據量增長迅速。 2021年1月21日發布的《中國對地觀測數據資 源發展報告》顯示,中國對地觀測數據總量已經 接近100PB,其中大量的遙感圖像數據可以最 為直觀地展示地球各類觀測信息,極大地推動了 人類對于地球的理解和認識。在各類遙感圖像 當中,光學遙感衛星獲取的光學遙感圖像數據在 諸如目標檢測[1-2]、語義分割[3]、場景理解[4]、變 化檢測[5]等領域。相關技術也廣泛應用于地圖 導航、氣象/海洋監測、防災檢測、軍事偵察等各 個方 面。 然 而,國 際 衛 星 云 氣 候 學 計 劃 (internationalsatellitecloudclimatologyproject, ISCCP)顯 示,地 球 平 均 云 層 的 覆 蓋 率 超 過 66%。云層遮擋導致的光學遙感圖像信息的缺 失,對下游的遙感圖像處理和識別造成很大的影 響。因此,發展遙感圖像的云檢測技術,是判別 遙感圖像觀測信息缺失程度以及遙感圖像進一 步利用的關鍵。 遙感圖像的云檢測是遙感圖像識別領域的 熱門方向之一。1982年提出的國際衛星云氣候 學計劃(ISCCP)當中,云檢測技術就是其中重要 的組成部分[6]。**自20世紀80年代以來,隨著衛 星遙感圖像處理技術的不斷發展,遙感圖像的云 檢測方法逐步形成了三種主流的技術路線: **

**1)基于光譜閾值的方法:主要基于對圖像中 云和其他目標光譜特性的分析,對遙感圖像中不 同光譜通道設置不同的閾值從而實現云檢測; **

**2)基于經典機器學習的方法:使用人工選擇 的圖像紋理、亮度等特征,訓練諸如支持向量機、 隨機森林等經典機器學習模型來對圖像塊/像素 進行分類,實現云的檢測; **

**3)基于深度學習的方法:該方法使用大量遙 感圖像數據,通過構建深層的神經網絡模型來自 動提取數據特征,獲取高精度的云檢測結果。 **

從20世紀90年代開始,通過分析圖像中不 同波段的反射信息,各類基于圖像光譜閾值的云 檢測方法被廣泛研究,由于該類方法簡單易行的 特性,有著十分廣泛的應用。但是,由于波段反射信息對不同檢測場景泛化能力較差,容易將其 他高反射率物體(如積雪、建筑等)誤判為云層, 導致傳統基于閾值的云檢測方法精度相對較低。 為了解決這一問題,2010年后,一些基于統計學 習(支持向量機、隨機森林等)的方法被廣泛應用 于云檢測,通過提取圖像的紋理或統計學特征來 提升云檢測的精度。基于統計學習的相關云檢 測方法也被實際應用于中巴資源02B 衛星[6]。 然而,由于統計學習模型本身需要人工進行特征 的篩選 和 定 義,使 得 特 征 提 取 過 程 較 為 低 效。 2012年,隨著 AlexNet模型[7]的提出,以卷積神 經網絡(convolutionalneuralnetworks,CNNs) 為代表的深度學習模型,由于其自動提取特征的 特性被廣泛應用于圖像識別的各個領域,其性能 在某些任務下可以超越人類。因此,近些年大量 基于深度學習的云檢測方法被不斷提出。基于 深度學習的云檢測方法由于其精度高、泛化能力 強的特點,逐漸成為當前最為主流的云檢測方法 之一。 **除云層遮擋外,光學遙感圖像當中,霧、霾等 各類氣溶膠以及云陰影也會對遙感圖像的成像 質量造成影響。**此外,高反射率的積雪和建筑會 呈現出與云層相似的光學特征,從而影響云檢測 的結果。因此,對于上述目標的檢測和識別也是 云檢測的重要內容,相關方向也被廣泛研究。此 外,由于遙感影像來源多樣的特性,不同衛星產 生的遙感影像往往會使用不同的云檢測方法,因 此對于云檢測數據來源和公開數據集的總結也 十分必要。 國內外已有一些綜述性工作對遙感圖像的 云檢測方法進行總結和分析,但缺少針對云檢測 方法層面的系統全面梳理,也缺乏對未來云檢測 方法發展的分析和展望。劉紫涵等人針對不同 的衛星數據類型,重點介紹和梳理了傳統基于光 譜閾值和經典機器學習的云檢測方法[6]。Foga 等人重點針對 Landsat衛星的數據產品,對比了 不同 云 檢 測 算 法 的 實 際 檢 測 效 果 和 精 度[8]。 Mahajan等人從具體檢測任務出發(如:云檢測、 云雪檢 測、薄 云 厚 云 檢 測 等),回 顧 了 2004- 2018 年 間 的 傳 統 閾 值 方 法 以 及 機 器 學 習 方 法[9]。Li等人主要關注了基于深度學習的云檢 測方法,梳理了深度學習云檢測方法的公開數據集以及代表算法模型,并且介紹了主流的深度學 習模型壓縮和輕量化方法[10]。 **本文從云檢測三種不同的主流技術路線出 發,詳細介紹了遙感圖像云檢測方法的研究進展 和現狀,對不同技術路線的代表性云檢測工作進 行了對比分析。**介紹了遙感圖像云檢測的公開 數據集并對比了各類代表性方法的云檢測精度。 此外,簡要梳理了與云檢測相關的云霧(霾)檢 測、云雪檢測、云陰影檢測以及去云的代表性工 作。最后對國內外研究當前存在的問題和未來 的發展方向進行了分析和展望。 **2 云檢測方法 **

20世紀80年代以來,隨著國內外研究人員 的廣泛研究,眾多云檢測工作被提出。本文將現 有工作根據核心方法的不同,大致分為三類:基 于光譜閾值的云檢測方法、基于經典機器學習的 云檢測方法以及基于深度學習的云檢測方法。 本章將對以上三種方法的代表性工作進行梳理 和介紹。圖1總結了當前云檢測方法的主要分 類和代表性工作。

**2.1 基于光譜閾值的云檢測方法 **

基于光譜閾值的云檢測方法是最早被廣泛 研究和應用的云檢測方法。該類方法通過分析 圖像不同光譜波段之間的差異,設置閾值來區分 云和背景圖像,以達到云檢測的目的。早期的基 于光譜閾值的云檢測方法可以追溯到1994年, Kegelmeyer等人通過設置單一閾值,對經過偽 笛卡 爾 變 換 (pseudo-cartesiantransformation) 的 WSI(wholeskyimage)EO-5相機獲取的圖 像進行閾值分割,得出灰度圖像,來達到云檢測 的目的[11]。但是單一閾值方法精度較低,并沒 有被廣泛使用。在之后的研究當中,自動云覆蓋 評估 方 法 (automaticcloudcoverassessment, ACCA)[12-13]以 及 掩 膜 函 數 (functionofmask, Fmask)[14]方法成為了基于光譜閾值的云檢測 方法中最具代表性的方法,并被廣泛研究和應 用。其中,Irish 等 人 提 出 的 ACCA 方 法 用 于 Landsat7ETM+(EnhancedThematicMapper Plus)衛星圖像的自動云檢測。 ACCA 方法基于 Landsat7ETM+圖像中第2至7波段,首先通 過設置多個光譜濾波器,使用云層的反射和熱能 特征來判斷圖像中云層的存在性,而后對于有云 的圖像,利用所建立的云層熱刨面圖,根據云的熱能性質來進一步進行云檢測[12-13]。該方法在 地球大部分區域可以取得較好的云檢測精度,但 是對于存在積雪的高緯度、高海拔區域(如南極 洲),由于反射率相似,ACCA 方法難以有效區 分云層和積雪。Fmask方法由 Zhu等人提出, 用于對 Landsat圖 像 進 行 云 層 和 云 陰 影 的 檢 測[10]。該方 法 將 Landsat大 氣 層 頂 端 (topof atmosphere,TOA)反射和亮度溫度(brightness temperature,BT)作為輸入,通過云的物理特性 以及相關物理量的概率信息來進行云檢測,并還 通過近 紅 外 波 段 來 檢 測 云 陰 影。此 外,Fmask 工作中還明確了云檢測的精度計算方法,許多精 度評判指標(如全局精度等)被沿用至今。 ACCA 方法和 Fmask方法被提出后,在相 當長的時間當中成為了云檢測的主流方法,許多 研究人員也受到上述兩種方法的啟發,提出了更 多的基于光譜閾值的云檢測方法。劉希等人利 用雙通道動態閾值法實現了日本 GMS-5靜止氣 象衛星圖像的自動云檢測[15]。馬芳等人進一步 考慮了 GMS-5衛星中的四個光譜通道,提出了 通道綜合運算云檢測方法,改善了地理位置對于 云檢測的影響[16]。2015年,Zhu等人又通過取 消對熱光譜(thermalband)的使用以及增加卷 云概率,提高了傳統 Fmask方法對于薄卷云的 檢 測 精 度[17]。Shi 等 人 提 出 的 MFmask (mountainousfmask)方 法,針 對 Landsats4-8 圖像,提升了傳統 Fmask方法在多山區域的云 檢 測 精 度[18]。 隨 后,Qiu 等 人 提 出 了 Fmask4.0,通過對輔助數據的整合和新的基于 HOT(hazeoptimizedtransformation)云概率方 法的提出,結合光譜紋理信息,提升了云檢測的 精度[19]。 基于光譜閾值的方法通過對圖像的不同光 譜設置閾值的方式實現了云的自動檢測,該類方 法無需像素級的標記和復雜的模型訓練,可以較 為高效地進行部署和運行。但是,基于光譜閾值 的方法通常要求遙感圖像具有較為豐富的光譜 信息,因此 此 類 方 法 大 多 基 于 Landsat系 列 或 Sentinel-2衛星,對于光譜數量較少的遙感圖像 或可見光圖像,此類算法難以有效運行。為了緩 解對于光譜信息的依賴,Zhu等人在 Fmask的 基礎之上,提出了 Tmask(multitemproalmask) 方法,通過引入多時相圖像來提供額外的信息, 一定程度減少對于過多光譜信息的使用,同時提 高云檢測的精度[20]。Li等人提出的 MFC 方法 通過使用圖像紋理信息和光譜信息同時進行云 檢測,實現了對4通道圖像的高精度云檢測[21]。 除對光譜信息的依賴之外,基于光譜閾值的方法 往往泛化能力較差,針對不同場景尤其是復雜場 景往往算法的魯棒性不足[6]。表1對本章提到 的基于光譜閾值的云檢測方法的數據來源和方 法優劣勢進行了總結。 **2.2 基于經典機器學習的云檢測方法 **

針對基于閾值分割的傳統云檢測方法過于 依賴圖像光譜信息、場景適應性及魯棒性較差的 問題,研究人員更多地考慮了將經典機器學習方 法引入云檢測任務中,被廣泛應用的機器學習模 型包 括 支 持 向 量 機 (supportvector machine, SVM)以 及 隨 機 森 林 (randomforest,RF)等。 機器學習理論的迅猛發展同時為云檢測領域吸 引了更高的研究注意力,推動了云檢測技術的快 速發展。包括紋理、邊緣等的圖像特征選擇是機 器學習方法的核心環節之一,根據所使用圖像特 征的語義級別的不同,可以將基于經典機器學習 理論的云檢測方法大致分為三類:亮度特征、紋 理特征以及局部統計特征。 亮度特征即圖像不同波段的反射率,是遙感 影像最底層的原始特征,是早期機器學習云檢測 方法中最常用的特征。Kang等人提出了一種 無監督云檢測方法,他們訓練支持向量機在 HSI 顏色空間分割云層,并使用引導濾波技術細化云 層邊界[22]。Fu等人將隨機森林技術引入云檢 測領域,相比于支持向量機,隨機森林能更好地 處理多種特征類型之間復雜的非線性依賴關系, 模型的樣本容量更高,執行速度更快,也具有更 好的可解釋性[23]。Wei等人提出的云檢測方法 進一步改進了基于隨機森林模型的云檢測方法, 他們的算法引入了 SEEDS 分割方法進行后處 理,進一步優化了基于隨機森林的云檢測算法的 性能[24]。該方法能夠較好地識別碎云和薄云、 遺漏很少,并且可以更準確地區分大部分云層和 相似的高反光人工地物,很少有誤判,但是該算 法不能很好地解決云層和積雪分離任務。

紋理特征是相比亮度特征更高級別的遙感 影像特征,包含更高級別的圖像語義信息,有利 于實現更精確的云檢測性能。通過設置不同尺 寸的特征提取窗口,可以在多個尺度上提取圖像 特征。Chen等人提出的云檢測方法利用灰度共 生 矩 陣 (gray level co-occurrence matrix, GLCM)提取紋理特征,然后訓練非線性支持向 量機分割云層[25]。該方法適用于南極地區,特 別是適合于薄卷云的檢測,但是魯棒性一般。Li 等人提出的方法同樣采用支持向量機模型,不同 的是,他們計算灰度共生矩陣二階矩的平均梯度 和角度提取圖像塊的紋理特征[26]。該算法的整 體檢測 精 度 較 高,但 是 對 于 云 占 比 為 50% ~ 95%的圖像檢測精度較低。Sui等人進一步發 展了基于支持向量機的云檢測方法。他們引入 了前處理步驟,利用簡單線性迭代聚類(simple lineariterativeclustering,SLIC)算法將遙感圖 像分割為超像素,然后計算圖像 Gabor響應的 能量特性和光譜特性提取紋理特征[27]。該算法 在有限的光譜波段下具有較高的精度。An等 人提出的方法不再使用傳統的支持向量機模型, 他們訓練基于最小化數據特征及標簽之間殘差 的場景 學 習 器 實 現 對 云 層 的 精 確 分 割[28]。此 外,該算法相比于其他方法構建了更加復雜的圖 像特征空間,通過堆疊顏色特征、統計信息、紋理 特征和結構化信息建立圖像特征。 局部統計特征覆蓋了相比于紋理特征更廣 泛的特征類型,可以提取更高語義級別、任務特 異性更強的圖像特征,通過計算滑動窗內像素的 統計特征實現更可靠、更精細的云像素分類效 果。Yuan等人提出的云檢測方法基于支持向 量機,結合SLIC算法進行前處理將圖像分割成 超像素,以及 GrabCut算法進行后處理細化云 檢 測 結 果[29]。 他 們 基 于 詞 袋 (Bag-of-words,BOW)模型提取超像素的統計特征。Tan等人 提出的方法同樣基于支持向量機模型,并且同樣 結合了 SLIC 算法和 GrabCut算法[30]。不同的 是,他們提取了更加復雜的基于光譜、紋理、頻率 和線段的圖像特征。該算法的精度較高,但是耗 時較長,并且會將紋理精細的卷云識別為非云區 域。Deng等人提出的方法進一步發展了基于支 持向量機的云檢測算法[31]。他們使用更加復雜 的高級別圖像統計特征實現了更優的云層分割 性能。在采用SLIC算法分割圖像之后,提取自 然場景統計模型的空間域 NSS特征以及 Gabor 特征進行云像素分割。該算法的檢測精度和魯 棒性較好,但是對薄云相比厚云的檢測精度略 低。Tian等人將極限學習機(ELM)模型引入了 云檢測領域[32]。他們研究跨軌紅外探測器 CrIS 的 全 光 譜 分 辨 率 (FSR)數 據,選 取 CrIS 的 LWIR-SWIR 通道對的亮度溫度,提取 FSR 數 據的云檢測指標(FCDIs)特征,該算法的分類結 果良好,但是誤檢率較高。 相比于傳統的基于光譜閾值的云檢測方法 對獨立像素的分類潛力研究,基于經典機器學習 的方法開始了對遙感影像空間模式信息的挖掘 利用,這有效提高了分割模型對遙感影像信息的 利用率。同時,圖像特征的使用也大大降低了傳 統云檢測方法對衛星圖像數據光譜范圍的高度 依賴。但是,由于經典的機器學習模型通常需要 手工設計圖像特征,使得基于經典機器學習的方 法難以更加高效地提取遙感圖像更高級別的語 義信息。當面對復雜場景時,此類方法會面臨精 度下降的問題[9]。

**2.3 基于深度學習的云檢測方法 **

2012 年 開 始,以 AlexNet [7]、VGG [33]、 ResNet [34] 等 卷 積 神 經 網 絡 (convolutional neuralnetworks,CNNs)為代表的深 度 學 習 模 型 在 ILSVRC (imagenet large scale visual recognitionchallenge)競賽[35]中取得了突出表 現,并被廣泛應用于圖像分類、目標檢測等計算機視覺領域。深度學習方法在遙感圖像處理和 識別領域也取得了許多的成果,這也進一步推動 了基于深度學習的云檢測方法的快速發展。 早期基于深度學習的云檢測方法將遙感圖 像切分為多個圖像塊,并將云檢測任務建模為圖 像分類過程。其中,Mateo等人將原始遙感圖像 切分為33×33的圖像塊,并利用2層卷積神經 網絡來對圖像塊進行分類[36]。Xie等人同樣將 原始圖像進行切分,但通過使用 SLIC 方法生成 超像素,并使用雙分支卷積神經網絡來對超像素 進行分類[37]。基于圖像切分的方法使用卷積神 經網絡來自動提取圖像特征,通常可以獲得比經 典機器學習方法更高的云檢測精度;但是對于圖 像塊中同時包含云層和非云層像素的情況,會造 成分類的誤差。 為了解決上述問題,受到計算機視覺領域圖 像分 割 代 表 工 作 全 卷 積 神 經 網 絡 (fully convolutionalnetworks,FCN)[38]的 啟 發,基 于 深度 學 習 的 云 檢 測 方 法 逐 步 從 圖 像 塊 分 類 (patch-wiseclassification)發展為圖像像素分類 (pixel-wiseclassification)。Wu等人針對高分1 號寬幅遙感圖像(GF-1 WFV),通過融合 CNNs 提取的低層(low-level)和高層(high-level)的特 征來獲取云層的概率圖,并通過復合圖像濾波技 術來細化云檢測結果[39]。Yan等人利用修改的 殘差模型和金字塔池化模塊來實現云和云陰影 的檢測[40]。 傳統的FCN 模型在特征提取(即編碼器)階 段對圖像的下采樣很大程度上造成了圖像空間 信息的缺失。并且在上采樣(解碼器)階段直接 對低分辨率特征進行一次性的恢復,難以有效恢 復圖像的細節信息。Ronneberge等人通過在編 解 碼 器 之 間 加 入 特 征 融 合 以 及 反 卷 積 (transposeconvolution)的操作,提出了 U-Net 模型,很 大 程 度 上 提 升 了 圖 像 分 割 的 精 度[41]。 許多研究人員也提出了各類基于 U-Net模型的 云檢測方法。其中,Francis等人基于 U-Net框 架,結合了Inception等模塊,提出了 CloudFCN 云檢測方法[42]。Marc等人基于 U-Net框架,實 現了對云、云陰影等五種目標的檢測和分類,并 驗證了方法對不同衛星傳感器的泛化能力[43]。 Jeppesen等人同樣基于 U-Net框架提出了 RSNet(remotesensing network)模 型,僅 使 用 Landsat衛星圖像中的 RGB 通道,實現了高精 度的云 檢 測[44]。張 家 強 等 人 將 殘 差 模 塊 引 入 U-Net進行云檢測,提高了模型的表示能力和泛 化能力[45]。除 U-Net模型之外,另一種FCN 模 型的變體 SegNet模型[46]也被用于云檢測任務 當中。Chai等 人 基 于 SegNet分 割 模 型,針 對 Landsat衛星圖像實現了云和云陰影的檢測[47]。 么嘉棋等人將SegNet與隨機條件場相結合,提 升了云邊緣輪廓的檢測精度[48]。李佳欣等人以 SegNet模型為基礎,使用 POLDER多角度探測 衛星數據,構建了含有多角度信息的遙感圖像云 檢測模型[49]。上述工作大多直接使用自然圖像 的語義分割模型在云檢測數據集上進行訓練,沒 有針對云檢測的任務特點對模型結構進行特別 的優化和設計,因此對于云檢測任務當中出現的 諸如薄云、云邊緣、高反光的積雪和建筑物等難 樣本,上述方法通常表現較差。 近些年,隨著對云檢測任務的不斷研究,研 究人員發現,如何針對云檢測任務本身的特點和 難點,設計更加有效的多尺度特征提取和融合方 法,是提 升 云 檢 測 算 法 精 度 的 關 鍵 技 術 之 一。 Yang等人針對低分辨率遙感縮略圖像提出了 CDnet,通過設計特征金字塔、邊緣細化等模塊 提高了低分辨率圖像云檢測的檢測精度[50]。Li 等人則特別針對中高分辨率的遙感圖像,設計了 多尺度的卷積特征融合方法 MSCFF,提升了云 檢測精度,并在不同的傳感器所獲取的遙感圖像 上驗證了方法的有效性[51]。Shao等人針對云 檢測任務,在原有全卷積神經網絡的基礎上設計 了多尺度特征融合模塊,并提出了 MF-CNN 模 型,提升了對于薄云和厚云的檢測精度[52]。Yu 等人針對 GF-5圖像提出了多尺度融合門控云 檢 測 模 型 MFGNet(multiscalefusion gated network)[53]。MFGNet設計了雙分支 的 CNN 云檢測模型提取淺層和深層信息,并利用帶注意 力機制的金字塔池化和空間注意力機制來進行 特征融合,提升了云檢測的精度。Wang等人通過設計信息利用更充分的特征融合方式使云檢 測結果更準確精細[54]。Guo等人通過增加自適 應特征融合模塊以及高級語義信息指導流模塊, 結合空間維度和通道維度的注意力機制,提出了 CDNetV2模型,實現了云雪共存場景下的高精 度云檢測[55]。然而,過于復雜的特征融合方式 往往會導致模型的計算和內存復雜度過高。為 了解決 這 一 問 題,He等 人 提 出 了 DABNet方 法,通過使用 DCFP模塊動態提取多尺度特征, 并且設計了新的 BW 損失函數,提升云邊緣的 檢測精度[56]。 除上述對特征融合方式進行改進的工作外, 近期有部分工作針對云檢測任務和遙感圖像的特 點,提出了多種多樣的模型結構,取得了較好的云 檢測效果。其中,Li等人通過將云檢測過程結合 衛星成像機理,提出了 CloudMatting方法,可以 同時獲取云掩膜以及云層不透明度參數,可以一 定程度上估計云層的厚度[57]。Wu等人將經緯 度、海拔等地理信息和遙感圖像進行特征融合,提 出了 GeoInfoNet,實 現 了 對 云 和 雪 的 高 精 度 檢 測[58]。Wu等 人 提 出 了 場 景 聚 合 網 絡 (scene aggregationnetwork,SAN),其將場景信息與遙感 影響相融合,并利用融合的特征獲取高精度的云 檢測結果,同時可以實現對不同場景的分類[59]。 上述基于深度學習的云檢測方法相較于傳 統的基于光譜閾值和經典機器學習的方法可以 取得更高的云檢測精度,但是所有模型均需要使 用深度學習方法中常用的監督學習來進行訓練, 需要人工進行大量的像素級標注,十分耗費人 力。為了解決這一問題,近期許多基于弱監督學 習的云檢測方法被不斷提出。Zou等人通過生 成對 抗 網 絡 (generativeadversarialnetwork, GAN)來生成大量用于訓練的含云的遙感圖像, 從而避免了大量的人工標注[60]。Li等人將像素 級別的標注弱化為圖像塊(block-level)級別的 標注 信 息,并 提 出 了 全 局 卷 積 池 化 (global convolutionalpooling,GCP)運算來實現弱監督 下的云檢測[61]。仇一帆等同樣受到弱監督學習 的啟發,使用傳統的 CFmask方法(基于 C 語言 的 Fmask方法)代替人工標注來獲取云檢測標 注,而后基于SegNet模型進行云檢測[62]。 上述基于弱監督的云檢測方法雖然一定程 度上緩解了深度學習云檢測方法對于大量標注 信息的需求,但基于弱監督的云檢測方法精度相 較于主流的基于監督學習的云檢測方法存在一 定的差距。此外,深度學習方法本身對于大量訓 練樣本和計算資源的需求,仍是其在實際應用和 部署當中需要進一步解決的問題。表3對比了 本章提到的基于深度學習的云檢測方法的數據 來源和優缺點。

付費5元查看完整內容

行為識別是當前計算機視覺方向中視頻理解領域的重要研究課題。從視頻中準確提取人體動作的特征并識別動作,能為醫療、安防等領域提供重要的信息,是一個十分具有前景的方向。本文從數據驅動的角度出發,全面介紹了行為識別技術的研究發展,對具有代表性的行為識別方法或模型進行了系統闡述。行為識別的數據分為RGB模態數據、深度模態數據、骨骼模態數據以及融合模態數據。首先介紹了行為識別的主要過程和人類行為識別領域不同數據模態的公開數據集;然后根據數據模態分類,回顧了RGB模態、深度模態和骨骼模態下基于傳統手工特征和深度學習的行為識別方法,以及多模態融合分類下RGB模態與深度模態融合的方法和其他模態融合的方法。傳統手工特征法包括基于時空體積和時空興趣點的方法(RGB模態)、基于運動變化和外觀的方法(深度模態)以及基于骨骼特征的方法(骨骼模態)等;深度學習方法主要涉及卷積網絡、圖卷積網絡和混合網絡,重點介紹了其改進點、特點以及模型的創新點。基于不同模態的數據集分類進行不同行為識別技術的對比分析。通過類別內部和類別之間兩個角度對比分析后,得出不同模態的優缺點與適用場景、手工特征法與深度學習法的區別和融合多模態的優勢。最后,總結了行為識別技術當前面臨的問題和挑戰,并基于數據模態的角度提出了未來可行的研究方向和研究重點。 //www.cjig.cn/jig/ch/reader/view_abstract.aspx?file_no=20221101&flag=1

付費5元查看完整內容

隨著多媒體技術的發展,可獲取的媒體數據在種類和量級上大幅提升。 受人類感知方式的啟發,多種媒 體數據互相融合處理,促進了人工智能在計算機視覺領域的研究發展,在遙感圖像解譯、生物醫學和深度估計等方 面有廣泛的應用。 盡管多模態數據在描述事物特征時具有明顯優勢,但仍面臨著較大的挑戰。 1)受到不同成像設 備和傳感器的限制,難以收集到大規模、高質量的多模態數據集;2)多模態數據需要匹配成對用于研究,任一模態 的缺失都會造成可用數據的減少;3)圖像、視頻數據在處理和標注上需要耗費較多的時間和人力成本,這些問題使 得目前本領域的技術尚待攻關。 本文立足于數據受限條件下的多模態學習方法,根據樣本數量、標注信息和樣本 質量等不同的維度,將計算機視覺領域中的多模態數據受限方法分為小樣本學習、缺乏強監督標注信息、主動學 習、數據去噪和數據增強 5 個方向,詳細闡述了各類方法的樣本特點和模型方法的最新進展。 并介紹了數據受限 前提下的多模態學習方法使用的數據集及其應用方向(包括人體姿態估計、行人重識別等),對比分析了現有算法 的優缺點以及未來的發展方向,對該領域的發展具有積極的意義。

**1. 引 言

**模態是事物的一種表現形式,是對事物某特定 角度的描述。 多模態通常包含兩個或者兩個以上的 模態形式,是指從多個視角出發對事物進行描述。 人們在感知世界時,多種感官總是同時接收外在信 息,如看見圖像、聽見聲音、聞到氣味和觸摸感知等。 隨著多媒體技術的發展,可獲取的媒體數據在種類 和量級上都大幅提升。 例如,傳感器不僅可以生成 圖像或者視頻,還包含與之匹配的深度、溫度信息 等。 為使人工智能技術更好地解譯數據,必須使人 工智能具有多模態學習的能力。在人工智能技術的早期研究中,學者通常使用 單一模態的數據。 受到人類感知方式的啟發,研究 認為每個模態對事物的描述具有相對獨立性,使用多模態數據的互補表述能夠使事物呈現更立體、表 現更全面(Baltru?aitis 等,2019)。 近年來,多模態數 據的處理和應用成為重點研究方向,在情感分析、機 器翻譯、自然語言處理和生物醫學等前沿方向取得 了重要突破。 計算機視覺是深度學習的重要應用領 域和熱點研究問題,本文重點圍繞多模態在計算機 視覺領域的發展進行介紹。 如圖 1 所示,計算機視覺領域內的多模態學習 主要是通過對圖像、視頻等多模態數據進行分析, 學習并互補不同模態間的信息,實現圖像檢測識 別、語 義 分 割 和 視 頻 動 作 預 測 等 任 務 ( Liu 和 Wang,2015;Eigen 和 Fergus,2015) ,并廣泛應用于 自動駕駛、農業監測、生物醫療、交通管理和災難 預測等領域。 如在醫學領域,醫學影像作為醫療 診斷的重要依據,相較于單角度描述病灶特征的 圖像,多模態醫療影像能有效輔助醫生從多個層 面聯合判斷病灶及其周邊部分,加快診斷時間;在 遙感領域,單傳感器依據設備特點從某種固定的 角度描述地理目標,獨立分析時會受到成像原理 限制,而對不同成像方式、不同傳感器獲取到的多 模態遙感影像進行分析,可以有效提取地物目標 的綜合信息。

圖 1 多模態數據受限解決方法及應用

盡管多模態數據在描述事物特征時有著明顯的 優勢,但目前仍面臨著較大的挑戰。 1)雖然成像技 術層出不窮,但其同步帶來的圖像、視頻數據的處 理和標注任務有著不容忽視的工作量,需要耗費 較多的時間成本和人力資源。 2)傳統深度學習模 型需要將多模態數據匹配成對用于研究,任一模 態的缺失都會造成可用數據的減少。 3)由于使用 目的是利用多模態互補的特性,因此對數據內部的 完整度要求較高,但受到不同成像設備和傳感器的 限制,數據量少、質量模糊和缺失現象嚴重,這些現 象都會對后續的研究造成不利影響。 因此,在數據 受限的前提下進行的多模態處理研究具有重要的現 實意義。 面對以上的難點問題,根據多模態樣本數量、標 注信息和樣本質量等不同的維度,目前處理多模態 數據受限的方法主要分為以下幾類:

1)小樣本學習方法。 在多模態數據不足的情 況下,小樣本學習方法僅通過學習少量樣本就能做 出正確判斷的認知能力,在數據量匱乏的情況下仍 能夠有效地學習目標特征。 2)缺乏強監督標注信息的方法。 由于數據標 注過程會產生高額的成本,較難獲取所有模態的全 部真值標簽對模型進行強監督學習。 常見的非完全 監督的方法有基于弱監督、無監督、半監督和自監督 的學習方法,這些方法可以有效改善模態缺乏標注 信息的問題,大大減少人工標注成本。 3)主動學習方法。 該類方法通過設計具有自 主學習能力的模型,將人類經驗與學習規則充分結 合,致力于研究如何使用標注盡可能少的樣本來獲 得盡可能較好的效果。 通過選擇最有用的樣本,可 以在保持性能的同時有效降低標注成本。 4)數據去噪方法。 在多模態數據的獲取和處 理的過程中,外界環境和設備內部因素都可能會引 入噪聲。 任何模態的數據受到噪聲污染都可能會影 響多模態數據處理的結果。 多模態數據去噪是指減 少數據中的噪聲,恢復原始數據,進而再提取感興趣 的信息。 5)數據增強。 在樣本較少的前提下,為進行有限 多模態數據的充分利用,數據增強方法通過對原始數 據集進行一系列變換操作,擴張數據的可使用性。

本文主要對數據受限下的多模態數據處理方法進行綜述

已有研究者對相關領域進行了研究,在 多模態學習、小樣本學習、弱監督學習、主動學習、數 據去噪和增強等方面進行了深入研究。 Baltru?aitis 等人(2019)從整體的角度探討了多模態機器學習 的進展,并對多模態機器學習方法進行分類,但沒有 介紹具體的應用場景。 Wang 等人 (2020b)從網絡 架構的角度介紹了多模態模型,但沒有討論多模態 數據本身的特點。 Ramachandram 和 Taylor (2017) 對多模態深度學習現狀進行了總結,并提出網絡體 系結構的設計應該考慮融合模式、模態信息和對缺 失的數據或模態的處理,但沒有詳細綜述目前處理 缺失數據以提高模型的魯棒性的方法。 Gao 等人 (2020)總結了具有代表性的處理異構數據的深度 學習網絡架構,并認為一些深度學習模型只關注單 模態噪聲數據,未來迫切需要解決針對低質量多模 態數據的深度學習模型。 上述綜述缺乏對數據受限 條件下多模態數據發展的詳細介紹。 Wang 等人 (2021c)綜述了近年來小樣本學習方法的進展,并 進行統一分類。 Zhou 等人 (2019)綜述了弱監督學 習的一些研究進展。 Settles (2011)回顧了將主動學 習應用于實踐遇到的挑戰,并介紹為解決挑戰所做 的工作。 但上述文獻都僅基于單模態數據進行總 結,并沒有關注多模態數據背景問題。

針對在數據受限條件下多模態數據處理面臨的 各種挑戰和難題,已有研究者提供了一些解決思路, 但是尚未形成相關的綜述文獻。 因此,本文總結了 數據受限條件下多模態分析處理的研究方法和進 展,以及多模態數據在不同領域的應用情況。 首先 闡述了多模態數據在計算機視覺方向的研究現狀與 數據受限的難題挑戰,介紹了對不同數據受限情況 的處理方法,展示該研究的背景和目的。 然后分類 闡明不同數據受限處理方法的現狀與研究方法,區 分不同的受限情況所面臨的困難和挑戰。 最后對多 模態數據的各個應用領域的典型數據集進行介紹, 總結目前的研究成果,能夠啟發未來多模態的應用 前景,展望下一步研究方向。

**1 多模態數據的應用 **

首先介紹了多模態數據融合的方法,然后介紹 了多模態數據在計算機視覺領域常見的應用場景。

多模態數據檢測識別

圖像分類指的是計算機可以識別圖像所屬的 “類別”。 本質上是為圖像分配一個標簽,例如,“汽 車”、“動物”和“建筑”等。 在分類技術的基礎上延 伸出了目標檢測技術,它允許計算機在圖像或視頻 中識別和定位目標。 通過這種識別和定位,目標檢 測可以用來計算場景中的目標數量,確定并跟蹤它 們的精確位置,同時準確地標記。 檢測識別技術作 為計算機視覺中的重要技術,已經應用到如行人重 識別、場景識別和人體動作識別等多模態數據場景 下的任務中。

多模態圖像語義分割

圖像語義分割是指根據圖像的語義為其每個像 素分配類別標簽。 具體來說,在進行圖像分割的過 程中,每個像素歸類到某一個標簽下,歸屬于同一 標簽的像素在視覺特性上具有某些共同點。 同 樣,該技術也在如道路場景分割、醫學圖像分割和遙感圖像分割等多模態數據場景中得到了廣泛 應用。 多模態數據預測估計

在深度學習領域,預測估計是一個重要的應用 方向,經過訓練的深度學習模型可以根據輸入的數 據對當前或未來的某些狀態或參數進行估計或預 測。 在多模態數據預測估計領域,諸如單目深度估 計、3 維人體姿態估計和路徑規劃等技術都已經得 到了廣泛的應用。

2 多模態數據受限的處理方法

本文根據多模態樣本數量、標注信息和樣本質 量等不同的維度,將目前處理多模態數據受限的方 法主要分為小樣本學習方法、缺乏強監督信息的方 法、主動學習方法、數據去噪和數據增強方法。

**多模態數據集 **目前,在第 1 節提到的各個領域下的應用場景 對應的多模態數據集種類、數量繁多,本文按照數據 集的應用領域、數據集名稱、包含的模態、提出的年 份和其對應的應用場景等將這些領域常用的數據集 總結整理為如表 5 所示。

**4 結 語 **

多模態數據的處理和應用成為重點研究方向, 在情感分析、機器翻譯、自然語言處理和生物醫學等 前沿方向取得了重要突破。 國內外研究學者針對數 據受限條件下的多模態學習展開了大量研究。 本文 深入不同的數據受限形式,總結了計算機視覺領域 中數據受限下的多模態數據處理發展現狀。 此外, 基于以上分析,本文簡要介紹了多模態數據處理領 域未來仍需進一步研究的方向。

1)輕量級的多模態數據處理方法。 數據受限 條件下的多模態學習仍然存在模型應用于移動式設 備的挑戰性。 現有方法在融合多個模態的信息時, 普遍需要使用兩個及以上的網絡進行特征提取,進 而將特征進行融合,因此模型的參數量大、模型結構 復雜限制了其應用于移動式設備。 在未來工作中, 輕量化模型有待進一步研究。

2)通用的多模態智能處理模型。 現有多模態 數據處理方法多是為不同任務開發的不同算法,需 要在特定的任務上進行訓練。 這種針對特定任務的 訓練方法很大程度上增加了開發模型的成本,難以 滿足快速增長的應用場景的需求。 因此,針對不同 模態的數據,需要提出適合的通用感知模型,學習多 模態數據的通用表征,使得在不同的應用場景可以 共享通用模型的參數和特征。

3)知識與數據混合驅動的模型。 不同模態的 數據往往包含不同的特性,本文認為在進行多模態 數據處理時,除了使用多模態數據外,可以考慮引入 數據特性和知識,建立知識與數據混合驅動的模型, 增強模型的性能和可解釋性。

付費5元查看完整內容

隨著遙感(RS)技術的飛速發展,大量具有復雜的異質的地觀(EO)數據的出現,使得研究人員有機會以一種全新的方式處理當前的地球科學應用。近年來,隨著地觀數據的聯合利用,多模態遙感數據融合的研究取得了巨大的進展,但由于缺乏對這些強異構數據的綜合分析和解釋能力,這些已開發的傳統算法不可避免地遇到了性能瓶頸。因此,這一不可忽視的局限性進一步引發了對具有強大加工能力的替代工具的強烈需求。深度學習(Deep learning, DL)作為一項前沿技術,憑借其出色的數據表示和重構能力,在眾多計算機視覺任務中取得了顯著的突破。自然,該方法已成功應用于多模態遙感數據融合領域,與傳統方法相比有了很大的改進。本研究旨在對基于深度學習的多模態遙感數據融合進行系統的綜述。更具體地說,首先給出了關于這個主題的一些基本知識。隨后,通過文獻調研分析了該領域的發展趨勢。從擬融合數據模態的角度,綜述了多模態遙感數據融合中的一些流行子領域,即空間光譜、時空、光探測和測距光學。從融合數據模態的角度,綜述了多模態遙感數據融合的幾個子領域,即空間光譜、時空、光探測與測距-光學、合成孔徑雷達-光學、RS-地理空間大數據融合。在此基礎上,對多模態遙感數據融合技術的發展進行了有益的總結。最后,強調了剩余的挑戰和潛在的未來方向。

引言

由于RS在觀測地球環境方面的優勢,在各種EO任務中發揮著越來越重要的作用(Hong et al., 2021b; Zhang et al., 2019a)。隨著多模態RS數據的可用性不斷增加,研究人員可以方便地訪問這些數據,這適合于現有的應用。盡管有大量的多模態數據可用,但每個模態幾乎不能捕捉到一個或幾個特定的屬性,因此不能完全描述觀測到的場景,這對后續應用造成了很大的限制。自然,多模態遙感數據融合是突破單模態數據困境的一條可行途徑。通過整合從多模態數據中提取的互補信息,可以在許多任務中做出更穩健可靠的決策,如變化檢測、LULC分類等。與多源、多時相遙感不同,“模態”一詞一直缺乏明確、統一的定義。

基于深度學習的多模態遙感數據融合

本文在前人研究(G′omez-Chova et al., 2015; Dalla Mura et al., 2015)。遙感數據的主要特征有兩個主要因素,即傳感器的技術規格和實際采集條件。具體來說,前者決定了產品的內部特征,如成像機理和空間、光譜、輻射、時間等領域的分辨率。后者控制外部屬性,如采集時間、觀測角度、安裝平臺等。因此,上述因素有助于描述所捕獲的場景,可以被描述為“模態”。顯然,多模態遙感數據融合包括多源數據融合和多時數據融合。

一些典型的RS模態包括Pan、MS、HS、LiDAR、SAR、紅外、夜間燈光和衛星視頻數據。最近,GBD作為RS家族的新成員,在EO任務中受到越來越多的關注。為了整合這些模態提供的互補信息,傳統方法已經被深入研究,基于領域特定知識設計手工特征和利用粗糙融合策略,這不可避免地削弱了融合性能,特別是對于異構數據(Hong et al., 2021a)。隨著人工智能的發展,數字學習通過自適應的自動實現特征提取和融合,在為輸入和輸出數據之間的復雜關系建模方面顯示出巨大的潛力。因此,本文將重點介紹在每個融合子領域提出的方法,并簡要介紹每個模態和相關任務。 目前,有一些關于多模態數據融合的文獻綜述,根據不同的模態融合,綜述如表2所示。現有文獻對多模態遙感數據融合的發展方向關注較少,或只涉及少數子領域,缺乏對這一主題的全面、系統的描述。本研究的目的是全面回顧基于數據挖掘的多模態遙感數據融合研究的熱點領域,進一步推動和促進這一新興領域的相關研究。第二節收集和分析了與本課題相關的文獻,第三節闡述了多模態RS數據融合的代表性子領域。在第四節中,給出了一些有用的教程、數據集和代碼。最后,第五節提供了關于挑戰和前景的評論。為方便讀者,表1列出了本文使用的主要縮寫。

本文將現有的融合方法分為兩大類,即同質融合和異質融合。同質融合包括pansharpening、HS pansharpening、HS- ms和時空融合,異構融合包括HS-optical融合、SAR-optical融合和RS-GBD融合。由于上述子領域的發展差異很大,因此采用不同的標準來引入每個子領域,如圖5所示。為了方便讀者,我們還在每個方向列出了一些經典文獻。

日益增多的多模態遙感數據對地觀任務既是挑戰,也是機遇。近年來,雙方共同利用優勢互補的特點,取得了重大突破。特別是與人工智能相關的技術,由于其在特征提取方面的優勢,已經顯示出其相對于傳統方法的優勢。在上述遙感大數據和前沿工具的推動下,基于深度學習的遙感多模態數據融合成為遙感領域的一個重要課題。因此,本文對這一快速發展的研究領域進行了全面的介紹,包括文獻分析、系統總結了遙感融合研究的幾個主要子領域、現有的研究資源,并對未來的發展進行了展望。具體來說,我們重點研究了第二部分,即不同融合子領域中基于深度學習的方法,并從使用的模型、任務和數據類型等方面進行了詳細的研究。最后,令人鼓舞的是,近年來DL已經應用到多模態遙感數據融合的各個領域,并取得了巨大而有前景的成果,這為研究者今后進行深入研究提供了更多的信心。

付費5元查看完整內容

小目標檢測一直是目標檢測領域中的熱點和難點,其主要挑戰是小目標像素少,難以提取有效的特征信息.近年來,隨著深度學習理論和技術的快速發展,基于深度學習的小目標檢測取得了較大進展,研究者從網絡結構、訓練策略、數據處理等方面入手,提出了一系列用于提高小目標檢測性能的方法.該文對基于深度學習的小目標檢測方法進行詳細綜述,按照方法原理將現有的小目標檢測方法分為基于多尺度預測、基于數據增強技術、基于提高特征分辨率、基于上下文信息,以及基于新的主干網絡和訓練策略等5類方法,全面分析總結基于深度學習的小目標檢測方法的研究現狀和最新進展,對比分析這些方法的特點和性能,并介紹常用的小目標檢測數據集.在總體梳理小目標檢測方法的研究進展的基礎上,對未來的研究方向進行展望.

//journal.bjut.edu.cn/article/2021/0254-0037/20210310.html

付費5元查看完整內容

摘要: 行人重識別是近年來計算機視覺領域的熱點問題, 經過多年的發展, 基于可見光圖像的一般行人重識別技術已經趨近成熟. 然而, 目前的研究多基于一個相對理想的假設, 即行人圖像都是在光照充足的條件下拍攝的高分辨率圖像. 因此雖然大多數的研究都能取得較為滿意的效果, 但在實際環境中并不適用. 多源數據行人重識別即利用多種行人信息進行行人匹配的問題. 除了需要解決一般行人重識別所面臨的問題外, 多源數據行人重識別技術還需要解決不同類型行人信息與一般行人圖片相互匹配時的差異問題, 如低分辨率圖像、紅外圖像、深度圖像、文本信息和素描圖像等. 因此, 與一般行人重識別方法相比, 多源數據行人重識別研究更具實用性, 同時也更具有挑戰性. 本文首先介紹了一般行人重識別的發展現狀和所面臨的問題, 然后比較了多源數據行人重識別與一般行人重識別的區別, 并根據不同數據類型總結了5 類多源數據行人重識別問題, 分別從方法、數據集兩個方面對現有工作做了歸納和分析. 與一般行人重識別技術相比, 多源數據行人重識別的優點是可以充分利用各類數據學習跨模態和類型的特征轉換. 最后, 本文討論了多源數據行人重識別未來的發展.

//www.aas.net.cn/cn/article/doi/10.16383/j.aas.c190278

付費5元查看完整內容

隨著數據采集技術的進步,帶有地理位置信息的時空數據迅速增長,迫切需要探索有效的時空數據建模方法。時空序列預測是時空數據建模的基礎方法之一,它廣泛應用于很多領域。目前缺乏對它進行綜述的中文文獻,因而對這些方法進行歸納和總結具有重要的研究意義。針對時空序列預測問題進行了研究,首先回顧了其應用背景和發展歷程,介紹了它的相關定義及特點。然后按其類別介紹了傳統的時空序列預測方法、基于傳統機器學習的時空序列預測方法和基于深度學習的時空序列預測方法,并分析了這些方法的應用范圍和優缺點。最后對時空序列預測未來的研究方向進行了梳理和展望,為研究者們進一步深入研究時空序列預測問題奠定了理論基礎。

//kns.cnki.net/kcms/detail/detail.aspx?dbcode=CJFD&dbname=CJFDAUTO&filename=JSYJ202010001&v=Dhm5rO5ZeYgyZbNpnHoaIPZm2jZat5Y1%25mmd2BxLMLQnQvulreqkfkSD6lv0FxAe0uh1D

付費5元查看完整內容
北京阿比特科技有限公司