亚洲男人的天堂2018av,欧美草比,久久久久久免费视频精选,国色天香在线看免费,久久久久亚洲av成人片仓井空

以深度學習為代表的人工智能技術已被廣泛應用于遙感圖像解譯中. 相比自然場景圖像, 遙 感圖像具有載荷類型多、成像機理差異大等特點, 使得現有面向單傳感器、純數據驅動的智能解譯方 法應用到不同模態數據時, 性能上限難以突破. 尤其在面向多傳感獲取的、大范圍的、目標種類較多 的復雜應用場景時, 實際性能受限更為嚴重. 本文主要對遙感智能解譯結合多模態數據和多任務學習的研究工作進行綜述, 重點從基本概念、研究方法和應用場景三個方面進行展開. 并且介紹了基于 分域提取和跨域融合理念設計的模型架構, 通過從海量多模態數據中提取通用特征, 實現單個基礎模 型完成多類下游任務的泛化解譯, 在不同模態解譯任務中表現優異, 并實際應用推廣. 最后, 對遙感 多模態多任務學習未來技術發展方向進行展望.

**1 引言 **

衛星對地觀測系統具有全球覆蓋、全天候、全譜段探測能力, 在提升遙感信息獲取能力, 及時把 握全球經濟、資源、環境、社會發展等方面發揮了重要作用 [1]. 近年來, 全球遙感衛星發射數量整 體呈增長趨勢, 衛星數據源的極大豐富和新型載荷譜系的不斷拓展使得每天可獲取全球上千萬平方 公里數據. 然而, 現有的遙感解譯方法主要依靠人工目視判讀和半自動化方式進行, 通過積累的專家 知識進行判讀, 具有準確率高、可靠性強等特點, 但會導致時效性差、數據利用率低等問題, 無法滿 足從海量數據中進行遙感數據快速、準確解譯的發展需求. 以深度學習為代表的人工智能方法顯著 提升了遙感數據解譯的工作效率 [2~4], 目前大多采用深度神經網絡對輸入的遙感數據進行端到端的 特征提取, 能夠快速、準確地實現地物分類、變化檢測、三維重建等多種解譯任務. 然而, 現有的面 向單傳感器、純數據驅動的方法高度依賴模型的構建方式, 計算資源能耗大, 且自主學習、自適應能 力弱, 在應用于目標種類較多的復雜場景時, 實際性能嚴重受限。 相比單傳感器, 多分辨率、多傳感器、多時相的遙感數據可為地物提供“時-空-譜”的不同描述 信息, 進而為各類應用任務提供更豐富的信息 [5~7], 有助于突破單模態數據解譯的性能瓶頸. 此外, 為滿足遙感大范圍目標要素提取的應用需求, 實現上千種不同要素的快速并行提取, 開展多傳感器的 多任務處理分析具有重要研究意義. 因此, 面向大規模多傳感器數據, 使模型具有多任務泛化能力, 并能夠高效高精度推理和持續集 成擴展, 是當前遙感智能解譯領域重要的發展方向, 通過預訓練基礎模型 [9] 結合下游任務開展應用 的模式是一種行之有效的解決方案. 基礎模型通過從海量數據中學習數據的通用特征, 再根據下游 任務進行增量訓練, 有利于獲得良好的泛化性、通用性和魯棒性. 近些年基礎模型在自然場景領域受 到了廣泛的關注和研究. 例如, 文心視覺大模型 [10] 設計了新的預訓練框架, 在隱含的編碼表征空間 完成掩碼預測任務, 在圖像分類、語義分割等經典下游任務上取得突出成就. BEiT-3 模型 [11] 在單 模態和多模態數據上進行掩碼數據建模, 在目標檢測、視覺問答、跨模態檢索等多個任務上表現出色。

與自然場景圖像不同, 遙感圖像具有幅寬大、目標尺寸小等特性, 成像機理和應用場景方面也不 盡相同. 不同遙感數據的成像機理和目標特性復雜多變, 傳統跨模態解譯方式在同一特征空間降維 融合, 由于各模態數據特性與空間度量匹配性不一, 散射、輻射等非視覺特征信息損失大, 模型難以 突破單模態特征誤差上限; 且遙感場景更加復雜, 要素類別繁多, 導致解譯任務類型多, 自然場景的 基礎模型無法直接遷移與應用到遙感場景. 基于對以上難點問題的思考, 本文發現了在不同特征空 間中分別提取多模態數據特征穩定性強的規律, 創新性地提出了“分域提取、跨域融合”的思想, 并 基于此介紹了提出的遙感跨模態基礎模型, 通過在各自特征空間提取降維, 減少信息損失, 然后將異 構的輸出特征進行融合共享, 提升跨模態數據解譯精度, 進而實現單個基礎模型完成多類下游任務泛 化解譯, 已在多個國際標準數據集上進行實驗驗證, 并開展了應用示范, 證明了該方法的有效性. 本文總結了遙感領域多模態多任務學習方法的研究現狀, 分別闡述了遙感跨模態解譯和多任務 學習的基本概念、研究方法和應用場景. 然后, 針對基礎模型應用到遙感領域的難點, 介紹了遙感跨 模態基礎模型的網絡架構, 并進行實驗與結果分析. 最后, 展望了該方法的未來技術攻關方向.

2 遙感跨模態解譯的研究現狀

2.1 遙感多模態數據的基本概念

在遙感領域, 模態通常可以理解為同一場景和目標在不同傳感器下的成像結果 [13]. 由于成像 機理不同, 多源遙感數據通常具有對地物更豐富的表達信息, 綜合分析時能獲取更多的知識, 有效突 破單一傳感器數據解譯的瓶頸, 從而實現更加全面的對地觀測和分析工作 [14]. 因此, 遙感跨模態解 譯任務通常是基于多個傳感器數據, 結合不同空間、光譜和時間分辨率信息進行訓練學習, 進而提 升在實際應用中的解譯精度. 不同傳感器數據對采集方式、成像模式和目標特性的反映形式具有差 異 [16], 體現空間、時間和光譜分辨率等重要指標時也有不同的表現. 為了更全面地掌握典型遙感 模態所描述的目標特性, 對全色圖像、多光譜圖像、紅外圖像、合成孔徑雷達 (Synthetic Aperture Radar, SAR) 數據等模態進行介紹, 總結如表1所示。

2.2 遙感跨模態解譯的研究方法

遙感跨模態解譯涉及到廣泛的研究領域, 從不同的角度出發, 具有不同的分類結果. 本節從多模 態機器學習 [17,18] 的角度, 將遙感跨模態解譯分為模態的表征學習、模態的對齊映射和模態的協同 融合三個關鍵研究方向, 如圖1所示

模態的表征學習主要研究如何將不同模態數據中包含的語義信息抽象為實值向量. 通過將模態 轉化成向量表示, 有利于計算機識別處理和下游任務分析. 良好的模態表示往往有助于得到優異的 遙感圖像解譯效果, 所以模態的表征學習十分重要. 目前, 單個模態的特征提取發展比較成熟. 多個 模態的表示學習需要聯合多模態的數據, 如何利用模態間的互補性和去除模態間的冗余性是遙感跨 模態解譯研究的重點和難點. 模態的對齊映射方法通過研究兩種或者多種模態間元素的連接關系來進行對齊. 例如, 將來自不同傳感器的兩幅相同場景的遙感圖像進行對齊. 一般來說, 遙感跨模態將不同模態的連接關系分 為空間連接和時間連接, 對應空間對齊和時間對齊. 模態的協同融合旨在通過算法將不同模態的信息合并, 然后利用組合后的信息進行處理、分析 和決策. 和單個模態相比, 兩個或者多個模態信息融合利用了不同模態的互補信息, 得到的融合后的 數據質量更高、信息更豐富、可用性更強. 本節從兩個方面闡述遙感跨模態的融合策略, 根據模態融 合的階段可以分為數據級融合、特征級融合和決策級融合等; 根據數據融合的類型可以分為同質數 據融合、異質數據融合等.

2.3 遙感跨模態解譯的應用場景

在遙感領域, 跨模態解譯常見的應用場景主要有目標檢測、要素提取和預測估計. 為了克服單一 傳感器成像的局限性和智能解譯能力上的不足, 對具有不同成像機理的多模態遙感數據進行聯合分 析, 提取不同模態數據之間的互補信息, 有助于從多角度對目標特性進行理解和當前學習任務進行優 化. 由于遙感圖像通常具有尺度較大、待檢測目標小而密集、方向隨機等特點, 跨模態遙感目標檢 測通常面臨著小目標難以識別等挑戰. 同時, 受傳感器限制, 單模態遙感目標檢測的性能幾乎達到 瓶頸. Huang 等人 [81] 提出了一種基于橋接神經網絡的光學-SAR 圖像聯合智能解譯框架, 通過光 學-SAR 匹配優化多模態的特征相關性, 提升目標通用特征提取能力, 進而提高艦船檢測精度. Zhang 等人 [82] 提出一種快速準確的小目標檢測方法 SuperYOLO, 利用像素級多模態融合從紅外圖像和可見光圖像中提取信息, 以獲得更適合的小目標特征, 并在多尺度目標上進行高分辨率目標檢測, 提 升檢測精度的同時有效地降低了計算代價. 跨模態遙感解譯對要素提取任務也顯示出巨大的潛力. Audebert 等人 [83] 利用殘差校正對來 自光學和激光雷達的數據進行融合, 設計雙流模型對跨模態數據進行提取, 再對預測結果進行平均得 到最終的結果, 通過融合兩個模態的信息提升了語義分割的精度. Hong 等人 [84] 設計了由提取網絡 (Ex-Net)和融合網絡(Fu-Net)組成的雙流深度模型, 針對多光譜和 SAR 圖像的多模態數據集, 研 究如何訓練深度網絡和構建網絡架構, 并嘗試了五種不同的融合策略, 提出的融合模型有效提升了像 素級分類任務的精度. 利用多模態數據進行預測估計是遙感領域的熱門研究方向, 基于多模態圖像的單目深度估計作 為其中的一個重要研究任務, 該類方法旨在利用輸入圖像推測出具體的深度, 目前已應用于城市規 劃、三維重建等多個領域. Ghamisi 等人 [85] 首次在遙感領域使用條件生成對抗網絡模擬來自彩色 圖像的高程信息, 所研究的架構使用具有跳躍連接的編碼器-解碼器網絡, 建立了圖像到數字表面模 型(Digital Surface Model, DSM)的轉換規則, 生成合理的高程信息, 從而顯著提高分類精度.

3 遙感多任務學習的研究現狀

3.1 遙感多任務的基本概念

雖然深度學習技術極大地提升了遙感單任務解譯的性能, 但面對復雜遙感場景, 單任務學習往往 難以取得令人滿意的結果. 例如, 針對地物要素提取任務, 深度神經網絡在降采樣過程中, 往往會丟 失形狀細節, 從而導致邊界模糊; 大多數目標跟蹤算法都由檢測和重識別兩個獨立的階段組成, 這導 致網絡運行效率低下, 難以實現實時跟蹤. 此外, 單任務模型在實際應用時還存在效率低下的問題, 針對覆蓋范圍上萬平方公里的大范圍場景, 上千種目標要素快速分類提取的應用需求, 需要多個單任 務模型針對同樣的數據重復處理, 不僅需要龐大的計算、存儲等資源, 還要求較長的推理運行時間. 多任務學習 (Multi-Task Learning, MTL) 旨在利用不同任務之間的相似性, 通過決策并行的模式同 時解決多個不同任務. 各個任務在學習過程中共享知識, 能從相關聯的任務中獲得額外的有用信息, 從而學到的模型效果更好、更魯棒、泛化性能更好; 同時多任務學習在訓練過程中使用共享表示, 多 個任務同時預測, 減少了數據來源的數量以及整體模型參數的規模, 使預測更加高效. 表3總結展示 了遙感智能解譯領域的常見任務.

3.2 遙感多任務學習的研究方法

近年來, 對于遙感多任務的研究主要包括多任務共享機制、多任務學習優化和多任務增量學習 等方面, 如圖3所示. 多任務共享機制旨在為不同任務選擇合適的網絡共享機制進行學習, 主要包含 硬參數共享、軟參數共享、混合參數共享等模式. 多任務學習優化的目的是在訓練過程中平衡多個 任務使之達到最優, 一般包括多任務損失平衡、對抗訓練、預測蒸餾等優化策略. 此外, 多任務學習 通常假設所有任務數據可同時獲得并對網絡進行聯合訓練, 然而在現實場景中, 不同任務的數據通常 是按次序到來的, 模型在多個任務上依次訓練會面臨災難性遺忘問題. 多任務增量學習方法研究如 何在時序任務的學習過程中, 學習新任務的同時不會忘記先前任務的知識, 從而減輕或避免模型的災難性遺忘, 主要包括記憶重放、參數擴展與隔離、正則化等方法.

4 遙感基礎模型

4.1 背景介紹

盡管現有多模態多任務方法可初步幫助模型在不同數據源及任務上提升泛化性能, 但此類策略 仍存在一些亟待解決的問題. 首先, 部分方法為實現多源信息融合與交互, 將模型整體結構設計的相 對復雜, 導致難以泛化至其他領域. 其次, 模型的訓練普遍基于有監督范式, 需要有標注數據以學習與理解不同任務間的關聯關系. 模型的泛化能力很大程度上仍限制在標注信息內, 缺乏普適性. 最 后, 已有多模態多任務模型對于數據有更高的成像與標注要求, 增加了訓練成本. 基礎模型能夠以自監督的方式來幫助模型從海量的未標注樣本中學習到更通用的泛化特征. 相 比于現有多模態多任務方法, 基礎模型對于數據標注的要求更低, 卻可以極大地提升模型的泛化性. 因此, 多模態多任務基礎模型在近些年受到了更多的關注與研究.

本節關注于多模態遙感衛星觀測信息和多任務智能處理需求, 構建了基礎模型和下游任務結合 的解決方案. 目前, 雖然已有若干面向光學遙感數據解譯的單模態基礎模型被提出 [12, 170~172], 但 由于多模態遙感數據特性各異, 具有不同的傳感器、成像機制、分辨率和空間信息 [188], 導致現有 單模態方法直接應用于多模態數據無法穩定提取各模態特征, 難以突破解譯性能上限. 在基礎模型 構建方面, 針對跨模態遙感解譯領域的固有挑戰, 研究發現不同泛函空間中分別提取多模態數據特征 穩定性強的規律, 創新性地提出“分域提取、跨域融合”的思想, 基于此設計了遙感跨模態基礎模型, 將特征在各自特征空間提取降維, 減少信息損失, 然后將異構的輸出特征進行融合共享, 實現單個基 礎模型適配多類下游應用任務的泛化解譯。 如圖6所示, 該遙感跨模態基礎模型主要部件包括用于分域提取的多空間特征提取網絡和用于跨 域融合的多模態特征融合網絡. 具體而言, 對于輸入的多模態遙感數據, 多空間特征提取網絡首先學 習相應特征空間中的多類異構特征. 然后, 多模態特征融合網絡利用特征對齊和交互來實現跨模態 互補信息的學習, 并通過自監督預訓練提高多模態遙感數據基礎模型的解譯性能. 形式上, 給定具有 M 個遙感模態的無標簽數據集 D = {xm} M m=1, 該遙感跨模態基礎模型旨在以自監督的方式來學習 多模態遙感表示 fθ(xm). 假設利用 θ 參數化該模型表示為 fθ, 通過最小化 fθ 生成的特征和特定目 標 ym 之間的損失函數來更新:

其中 ym 在無標簽數據中未被顯式定義, 通過特定前置任務來進行自監督學習. 本節假設通過上述訓 練的模型可學到更通用的多模態遙感表示, 從而有利于多類下游解譯任務性能的提升.

5 下一步研究展望

遙感跨模態和多任務智能處理技術極大豐富了模型學習到的有用知識, 有助于提升模型在各項 任務中的準確性; 并保證了模型不局限于單一任務的優化, 增加模型的通用泛化性. 基礎模型其作為 遙感解譯領域的智能基座, 受到了學術界和工業界越來越多的關注. 目前該領域還有許多極具潛力 的研究方向有待進一步探索: (1)統一模型構建. 盡管預訓練大模型已經在多種下游任務上取得顯著成效, 但是目前仍局限于 特定的任務, 當面對數據采集困難、采集設備昂貴的任務, 預訓練大模型的泛化能力仍不足以支持其 實現良好效果. 通過構建統一模型和規范化接口, 僅使用一套模型參數即可支持多種模態的輸入數 據, 輸出多種任務及其組合, 拋棄針對固定任務訓練固定模型的訓練模式, 打破數據之間的界限, 實 現針對任一任務都可以進行效果良好的預測, 是有待研究的關鍵技術. (2)知識嵌入. 國內外基礎模型已經取得較大進展, 但是對于大部分基礎模型普遍認知能力有限 的問題仍然尚未解決. 例如, 基礎模型仍然不具備自動校驗能力和判斷能力, 在面對一些觀點時會陷 入矛盾和糾結. 為了進一步增強基礎模型的認知能力, 引入額外的先驗知識至關重要. 因此, 后續可 以嘗試將知識圖譜引入基礎模型, 使用專家知識對模型進行引導, 在加強感知能力的基礎上來提升認 知能力. (3)時空預測. 基礎模型目前主要針對圖像數據進行訓練, 并在識別任務上具有良好的泛化效果, 對其他計算機視覺任務同樣具有啟發意義. 視頻預測、目標跟蹤、時序圖像語義分割等任務是基礎 的計算機視覺任務, 對于軍事、國防等領域具有重要意義. 針對預測任務進行預訓練大模型的設計仍 然處于初級階段, 可以進一步考慮對時空預測大模型展開研究. 時空預測大模型通過使用統一的模 型架構, 輸入遙感時序數據對模型展開訓練, 分析時序數據中包含的動態時間信息, 在下游任務上進 行微調后, 實現良好的預測效果.

付費5元查看完整內容

相關內容

 機器學習的一個分支,它基于試圖使用包含復雜結構或由多重非線性變換構成的多個處理層對數據進行高層抽象的一系列算法。

知識薈萃

精品入門和進階教程、論文和代碼整理等

更多

查看相關VIP內容、論文、資訊等

隨著多媒體技術的發展,可獲取的媒體數據在種類和量級上大幅提升。 受人類感知方式的啟發,多種媒 體數據互相融合處理,促進了人工智能在計算機視覺領域的研究發展,在遙感圖像解譯、生物醫學和深度估計等方 面有廣泛的應用。 盡管多模態數據在描述事物特征時具有明顯優勢,但仍面臨著較大的挑戰。 1)受到不同成像設 備和傳感器的限制,難以收集到大規模、高質量的多模態數據集;2)多模態數據需要匹配成對用于研究,任一模態 的缺失都會造成可用數據的減少;3)圖像、視頻數據在處理和標注上需要耗費較多的時間和人力成本,這些問題使 得目前本領域的技術尚待攻關。 本文立足于數據受限條件下的多模態學習方法,根據樣本數量、標注信息和樣本 質量等不同的維度,將計算機視覺領域中的多模態數據受限方法分為小樣本學習、缺乏強監督標注信息、主動學 習、數據去噪和數據增強 5 個方向,詳細闡述了各類方法的樣本特點和模型方法的最新進展。 并介紹了數據受限 前提下的多模態學習方法使用的數據集及其應用方向(包括人體姿態估計、行人重識別等),對比分析了現有算法 的優缺點以及未來的發展方向,對該領域的發展具有積極的意義。

**1. 引 言

**模態是事物的一種表現形式,是對事物某特定 角度的描述。 多模態通常包含兩個或者兩個以上的 模態形式,是指從多個視角出發對事物進行描述。 人們在感知世界時,多種感官總是同時接收外在信 息,如看見圖像、聽見聲音、聞到氣味和觸摸感知等。 隨著多媒體技術的發展,可獲取的媒體數據在種類 和量級上都大幅提升。 例如,傳感器不僅可以生成 圖像或者視頻,還包含與之匹配的深度、溫度信息 等。 為使人工智能技術更好地解譯數據,必須使人 工智能具有多模態學習的能力。在人工智能技術的早期研究中,學者通常使用 單一模態的數據。 受到人類感知方式的啟發,研究 認為每個模態對事物的描述具有相對獨立性,使用多模態數據的互補表述能夠使事物呈現更立體、表 現更全面(Baltru?aitis 等,2019)。 近年來,多模態數 據的處理和應用成為重點研究方向,在情感分析、機 器翻譯、自然語言處理和生物醫學等前沿方向取得 了重要突破。 計算機視覺是深度學習的重要應用領 域和熱點研究問題,本文重點圍繞多模態在計算機 視覺領域的發展進行介紹。 如圖 1 所示,計算機視覺領域內的多模態學習 主要是通過對圖像、視頻等多模態數據進行分析, 學習并互補不同模態間的信息,實現圖像檢測識 別、語 義 分 割 和 視 頻 動 作 預 測 等 任 務 ( Liu 和 Wang,2015;Eigen 和 Fergus,2015) ,并廣泛應用于 自動駕駛、農業監測、生物醫療、交通管理和災難 預測等領域。 如在醫學領域,醫學影像作為醫療 診斷的重要依據,相較于單角度描述病灶特征的 圖像,多模態醫療影像能有效輔助醫生從多個層 面聯合判斷病灶及其周邊部分,加快診斷時間;在 遙感領域,單傳感器依據設備特點從某種固定的 角度描述地理目標,獨立分析時會受到成像原理 限制,而對不同成像方式、不同傳感器獲取到的多 模態遙感影像進行分析,可以有效提取地物目標 的綜合信息。

圖 1 多模態數據受限解決方法及應用

盡管多模態數據在描述事物特征時有著明顯的 優勢,但目前仍面臨著較大的挑戰。 1)雖然成像技 術層出不窮,但其同步帶來的圖像、視頻數據的處 理和標注任務有著不容忽視的工作量,需要耗費 較多的時間成本和人力資源。 2)傳統深度學習模 型需要將多模態數據匹配成對用于研究,任一模 態的缺失都會造成可用數據的減少。 3)由于使用 目的是利用多模態互補的特性,因此對數據內部的 完整度要求較高,但受到不同成像設備和傳感器的 限制,數據量少、質量模糊和缺失現象嚴重,這些現 象都會對后續的研究造成不利影響。 因此,在數據 受限的前提下進行的多模態處理研究具有重要的現 實意義。 面對以上的難點問題,根據多模態樣本數量、標 注信息和樣本質量等不同的維度,目前處理多模態 數據受限的方法主要分為以下幾類:

1)小樣本學習方法。 在多模態數據不足的情 況下,小樣本學習方法僅通過學習少量樣本就能做 出正確判斷的認知能力,在數據量匱乏的情況下仍 能夠有效地學習目標特征。 2)缺乏強監督標注信息的方法。 由于數據標 注過程會產生高額的成本,較難獲取所有模態的全 部真值標簽對模型進行強監督學習。 常見的非完全 監督的方法有基于弱監督、無監督、半監督和自監督 的學習方法,這些方法可以有效改善模態缺乏標注 信息的問題,大大減少人工標注成本。 3)主動學習方法。 該類方法通過設計具有自 主學習能力的模型,將人類經驗與學習規則充分結 合,致力于研究如何使用標注盡可能少的樣本來獲 得盡可能較好的效果。 通過選擇最有用的樣本,可 以在保持性能的同時有效降低標注成本。 4)數據去噪方法。 在多模態數據的獲取和處 理的過程中,外界環境和設備內部因素都可能會引 入噪聲。 任何模態的數據受到噪聲污染都可能會影 響多模態數據處理的結果。 多模態數據去噪是指減 少數據中的噪聲,恢復原始數據,進而再提取感興趣 的信息。 5)數據增強。 在樣本較少的前提下,為進行有限 多模態數據的充分利用,數據增強方法通過對原始數 據集進行一系列變換操作,擴張數據的可使用性。

本文主要對數據受限下的多模態數據處理方法進行綜述

已有研究者對相關領域進行了研究,在 多模態學習、小樣本學習、弱監督學習、主動學習、數 據去噪和增強等方面進行了深入研究。 Baltru?aitis 等人(2019)從整體的角度探討了多模態機器學習 的進展,并對多模態機器學習方法進行分類,但沒有 介紹具體的應用場景。 Wang 等人 (2020b)從網絡 架構的角度介紹了多模態模型,但沒有討論多模態 數據本身的特點。 Ramachandram 和 Taylor (2017) 對多模態深度學習現狀進行了總結,并提出網絡體 系結構的設計應該考慮融合模式、模態信息和對缺 失的數據或模態的處理,但沒有詳細綜述目前處理 缺失數據以提高模型的魯棒性的方法。 Gao 等人 (2020)總結了具有代表性的處理異構數據的深度 學習網絡架構,并認為一些深度學習模型只關注單 模態噪聲數據,未來迫切需要解決針對低質量多模 態數據的深度學習模型。 上述綜述缺乏對數據受限 條件下多模態數據發展的詳細介紹。 Wang 等人 (2021c)綜述了近年來小樣本學習方法的進展,并 進行統一分類。 Zhou 等人 (2019)綜述了弱監督學 習的一些研究進展。 Settles (2011)回顧了將主動學 習應用于實踐遇到的挑戰,并介紹為解決挑戰所做 的工作。 但上述文獻都僅基于單模態數據進行總 結,并沒有關注多模態數據背景問題。

針對在數據受限條件下多模態數據處理面臨的 各種挑戰和難題,已有研究者提供了一些解決思路, 但是尚未形成相關的綜述文獻。 因此,本文總結了 數據受限條件下多模態分析處理的研究方法和進 展,以及多模態數據在不同領域的應用情況。 首先 闡述了多模態數據在計算機視覺方向的研究現狀與 數據受限的難題挑戰,介紹了對不同數據受限情況 的處理方法,展示該研究的背景和目的。 然后分類 闡明不同數據受限處理方法的現狀與研究方法,區 分不同的受限情況所面臨的困難和挑戰。 最后對多 模態數據的各個應用領域的典型數據集進行介紹, 總結目前的研究成果,能夠啟發未來多模態的應用 前景,展望下一步研究方向。

**1 多模態數據的應用 **

首先介紹了多模態數據融合的方法,然后介紹 了多模態數據在計算機視覺領域常見的應用場景。

多模態數據檢測識別

圖像分類指的是計算機可以識別圖像所屬的 “類別”。 本質上是為圖像分配一個標簽,例如,“汽 車”、“動物”和“建筑”等。 在分類技術的基礎上延 伸出了目標檢測技術,它允許計算機在圖像或視頻 中識別和定位目標。 通過這種識別和定位,目標檢 測可以用來計算場景中的目標數量,確定并跟蹤它 們的精確位置,同時準確地標記。 檢測識別技術作 為計算機視覺中的重要技術,已經應用到如行人重 識別、場景識別和人體動作識別等多模態數據場景 下的任務中。

多模態圖像語義分割

圖像語義分割是指根據圖像的語義為其每個像 素分配類別標簽。 具體來說,在進行圖像分割的過 程中,每個像素歸類到某一個標簽下,歸屬于同一 標簽的像素在視覺特性上具有某些共同點。 同 樣,該技術也在如道路場景分割、醫學圖像分割和遙感圖像分割等多模態數據場景中得到了廣泛 應用。 多模態數據預測估計

在深度學習領域,預測估計是一個重要的應用 方向,經過訓練的深度學習模型可以根據輸入的數 據對當前或未來的某些狀態或參數進行估計或預 測。 在多模態數據預測估計領域,諸如單目深度估 計、3 維人體姿態估計和路徑規劃等技術都已經得 到了廣泛的應用。

2 多模態數據受限的處理方法

本文根據多模態樣本數量、標注信息和樣本質 量等不同的維度,將目前處理多模態數據受限的方 法主要分為小樣本學習方法、缺乏強監督信息的方 法、主動學習方法、數據去噪和數據增強方法。

**多模態數據集 **目前,在第 1 節提到的各個領域下的應用場景 對應的多模態數據集種類、數量繁多,本文按照數據 集的應用領域、數據集名稱、包含的模態、提出的年 份和其對應的應用場景等將這些領域常用的數據集 總結整理為如表 5 所示。

**4 結 語 **

多模態數據的處理和應用成為重點研究方向, 在情感分析、機器翻譯、自然語言處理和生物醫學等 前沿方向取得了重要突破。 國內外研究學者針對數 據受限條件下的多模態學習展開了大量研究。 本文 深入不同的數據受限形式,總結了計算機視覺領域 中數據受限下的多模態數據處理發展現狀。 此外, 基于以上分析,本文簡要介紹了多模態數據處理領 域未來仍需進一步研究的方向。

1)輕量級的多模態數據處理方法。 數據受限 條件下的多模態學習仍然存在模型應用于移動式設 備的挑戰性。 現有方法在融合多個模態的信息時, 普遍需要使用兩個及以上的網絡進行特征提取,進 而將特征進行融合,因此模型的參數量大、模型結構 復雜限制了其應用于移動式設備。 在未來工作中, 輕量化模型有待進一步研究。

2)通用的多模態智能處理模型。 現有多模態 數據處理方法多是為不同任務開發的不同算法,需 要在特定的任務上進行訓練。 這種針對特定任務的 訓練方法很大程度上增加了開發模型的成本,難以 滿足快速增長的應用場景的需求。 因此,針對不同 模態的數據,需要提出適合的通用感知模型,學習多 模態數據的通用表征,使得在不同的應用場景可以 共享通用模型的參數和特征。

3)知識與數據混合驅動的模型。 不同模態的 數據往往包含不同的特性,本文認為在進行多模態 數據處理時,除了使用多模態數據外,可以考慮引入 數據特性和知識,建立知識與數據混合驅動的模型, 增強模型的性能和可解釋性。

付費5元查看完整內容

隨著多媒體技術的發展,可獲取的媒體數據在種類和量級上都大幅提升。受人類感知方式的啟發,多種媒體數據互相融合處理,促進了人工智能在計算機視覺領域的研究發展,在遙感圖像解譯、生物醫學、深度估計等方面有廣泛的應用。盡管多模態數據在描述事物特征時有著明顯的優勢,仍面臨著較大的挑戰。首先,受到不同成像設備和傳感器的限制,難以收集到大規模、高質量的多模態數據集;其次,多模態數據需要匹配成對用于研究,任一模態的缺失都會造成可用數據的減少;同時,圖像、視頻數據在處理和標注上需要耗費較多的時間和人力成本,這些問題使得目前本領域的技術尚待攻關。本文立足于數據受限條件下的多模態學習方法,根據樣本數量、標注信息、樣本質量等不同的維度,將計算機視覺領域中的多模態數據受限方法分為小樣本學習、缺乏強監督標注信息、主動學習、數據去噪和數據增強 5 個方向,詳細闡述了各類方法的樣本特點和模型方法的最新進展。并且,介紹了數據受限前提下的多模態學習方法使用的數據集(包括SUNRGB+D、SYSU-MM01 等)及其應用方向(包括人體姿態估計、行人重識別等),比對分析了現有算法的優缺點以及未來的發展方向,對該領域的發展具有積極的意義。

模態是事物的一種表現形式,是對事物某特 定角度的描述。多模態通常包含兩個或者兩個以 上的模態形式,是指從多個視角出發對事物進行 描述。人們在感知世界時,多種感官總是同時接 收外在信息,如看見圖像、聽見聲音、聞到氣味 和觸摸感知等。隨著多媒體技術的發展,可獲取 的媒體數據在種類和量級上都大幅提升。例如, 傳感器不僅可以生成圖像或者視頻,還包含與之 匹配的深度、溫度信息等。為使人工智能技術更 好地解譯數據,必須使人工智能具有多模態學習 的能力。在人工智能技術的早期研究中,學者通常使 用單一模態的數據。受到人類感知方式的啟發, 研究認為每個模態對事物的描述具有相對獨立性, 使用多模態數據的互補表述能夠使事物呈現更立 體、表現更全面(Baltru?aitis 等,2019)。近年來,多模態數據的處理和應用成為重點研究方向,在情感分析、機器翻譯、自然語言處理和生物醫學等前沿方向取得了重要突破。計算機視覺是深度學習的重要應用領域和熱點研究問題,本文重點圍繞多模態在計算機視覺領域的發展進行介紹。如圖 1 所示,計算機視覺領域內的多模態學習主要是通過對圖像、視頻等多模態數據進行分析,學習并互補不同模態間的信息,實現圖像檢測識別、語義分割、視頻動作預測等任務(Liu等,2015a; Eigen 和R. Fergus, 2015),并廣泛應用于自動駕駛、農業監測、生物醫療、交通管理和災難預測等領域。如在醫學領域,醫學影像作為醫療診斷的重要依據,相較于單角度描述病灶特征的圖像,多模態醫療影像能有效輔助醫生從多個層面聯合判斷病灶及其周邊部分,加快診斷時間;在遙感領域,單傳感器依據設備特點從某種固定的角度描述地理目標,獨立分析時會受到成 像原理限制,而對不同成像方式、不同傳感器獲取 到的多模態遙感影像進行分析,可以有效提取地物 目標的綜合信息。

盡管多模態數據在描述事物特征時有著明顯的 優勢,但目前仍面臨著較大的挑戰。首先,雖然成 像技術層出不窮,但其同步帶來的圖像、視頻數據 的處理和標注任務有著不容忽視的工作量,需要耗 費較多的時間成本和人力資源。其次,傳統深度學 習模型需要將多模態數據匹配成對用于研究,任一 模態的缺失都會造成可用數據的減少。同時,由于 使用目的是利用多模態互補的特性,因此對數據內 部的完整度要求較高,但受到不同成像設備和傳感 器的限制,數據量少、質量模糊和缺失現象嚴重, 這些現象都會對后續的研究造成不利影響。因此, 在數據受限的前提下進行的多模態處理研究具有重 要的現實意義。面對以上的難點問題,根據多模態樣本數量、 標注信息、樣本質量等不同的維度,目前處理多模 態數據受限的方法主要分為以下幾類:

  1. 小樣本學習方法。在多模態數據不足的情 況下,小樣本學習方法僅通過學習少量樣本就能做 出正確判斷的認知能力,在數據量匱乏的情況下仍 能夠有效地學習目標特征。
  2. 缺乏強監督標注信息的方法。由于數據標 注過程會產生高額的成本,較難獲取所有模態的全 部真值標簽對模型進行強監督學習。常見的非完全 監督的方法有基于弱監督、無監督、半監督、自監 督的學習方法,這些方法可以有效改善模態缺乏標 注信息的問題,大大減少人工標注成本。
  3. 主動學習方法。該類方法通過設計具有自 主學習能力的模型,將人類經驗與學習規則充分結 合,致力于研究如何使用標注盡可能少的樣本來獲 得盡可能較好的效果。通過選擇最有用的樣本,可 以在保持性能的同時有效降低標注成本。
  4. 數據去噪方法。在多模態數據的獲取和處 理的過程中,外界環境和設備內部因素都可能會引 入噪聲。任何模態的數據受到噪聲污染都可能會影 響多模態數據處理的結果。多模態數據去噪是指減 少數據中的噪聲,恢復原始數據,進而再提取感興 趣的信息。
  5. 數據增強。在樣本較少的前提下,為進行 有限多模態數據的充分利用,數據增強方法通過對 原始數據集進行一系列變換操作,擴張數據的可使用性。

本文主要對數據受限下的多模態數據處理方法進行綜述。在此之前,本文作者對相關領域進行了研究,在多模態學習、小樣本學習、弱監督學習、主動學習、數據去噪和增強等方面進行了深入調研。Baltru?aitis 等人(2019)從整體的角度探討了多模態機器學習的進展,并對多模態機器學習方法進行分類,但沒有介紹具體的應用場景。Wang 等人(2020b)從網絡架構的角度介紹了多模態模型,但沒有討論多模態數據本身的特點。Ramachandram等人(2017)對多模態深度學習現狀進行了總結,并提出網絡體系結構的設計應該考慮融合模式、模態信息和對缺失的數據或模態的處理,但沒有詳細綜述目前處理缺失數據以提高模型的魯棒性的方法。Gao等人(2020)總結了具有代表性的處理異構數據的深度學習網絡架構,并認為一些深度學習模型只關注單模態噪聲數據,未來迫切需要解決針對低質量多模態數據的深度學習模型。上述的綜述缺乏對數據受限條件下多模態數據發展的詳細介紹。Wang等人(2020a)綜述了近年來小樣本學習方法的進展,并進行統一分類。Zhou 等人(2018)綜述了弱監督學習的一些研究進展。Settles 等人(2011)回顧了將主動學習應用于實踐遇到的挑戰,并介紹為解決挑戰所做的工作。但上述文獻都僅基于單模態數據進行總結,并沒有關注多模態數據背景問題。針對在數據受限條件下多模態數據處理面臨的各種挑戰和難題,已有研究者提供了一些解決思路,但是尚未形成相關的綜述文獻。因此,本文總結了數據受限條件下多模態分析處理的研究方法和進展,以及多模態數據在不同領域的應用情況。首先闡述了多模態數據在計算機視覺方向的研究現狀與數據受限的難題挑戰,介紹了對不同數據受限情況的處理方法,幫助讀者熟悉和了解該研究的背景和目的。然后分類闡明不同數據受限處理方法的現狀與研究方法,區分不同的受限情況所面臨的困難和挑戰。最后對多模態數據的各個應用領域的典型數據集進行介紹,總結目前的研究成果,能夠啟發未來多模態的應用前景,展望下一步研究方向。

付費5元查看完整內容

隨著人工智能的發展和落地應用,以地理空間大數據為基礎,利用人工智能技術對遙感數據智能分析與解譯成 為未來發展趨勢。本文以遙感數據轉化過程中對觀測對象的整體觀測、分析解譯與規律挖掘為主線,通過綜合國內外文獻 和相關報道,梳理了該領域在遙感數據精準處理、遙感數據時空處理與分析、遙感目標要素分類識別、遙感數據關聯挖掘 以及遙感開源數據集和共享平臺等方面的研究現狀和進展。首先,針對遙感數據精準處理任務,從光學、SAR等遙感數據 成像質量提升和低質圖像重建兩個方面對精細化處理研究進展進行了回顧,并從遙感圖像的局部特征匹配和區域特征匹配 兩個方面對定量化提升研究進展進行了回顧。其次,針對遙感數據時空處理與分析任務,從遙感影像時間序列修復和多源 遙感時空融合兩個方面對其研究進展進行了回顧。再次,針對遙感目標要素分類識別任務,從典型地物要素提取和多要素 并行提取兩個方面對其研究進展進行了回顧。最后,針對遙感數據關聯挖掘任務,從數據組織關聯、專業知識圖譜構建兩 個方面對其研究進展進行了回顧。除此之外,面向大智能分析技術發展需求,本文還對遙感開源數據集和共享平臺方面的 研究進展進行了回顧。在此基礎上,對遙感數據智能分析與解譯的研究情況進行梳理、總結,給出了該領域的未來發展趨 勢與展望。

//www.cjig.cn/jig/ch/reader/view_abstract.aspx?flag=2&file_no=202203010000001&journal_id=jig

1. 引言

近幾年來,國內外人工智能的發展和落地應用如 火如荼,促成這種現象的原因可以歸納為兩個關鍵 詞,即“大數據”與“高算力”。在地理空間數據 分析與應用領域,這種變化也正在發生著,比如在 國家高分辨率對地觀測重大科技專項(簡稱“高分 專項”)等國家重大任務的推動下,我們可獲取的 地理空間數據越來越多,另外,以“云+端”架構為 代表的高性能計算框架也在不斷發展,促進了算力 的提升。在此背景下,以地理空間大數據為基礎, 利用人工智能技術挖掘其深層信息、賦予其更多的 應用模式,將成為未來地理空間數據分析應用領域 發展的長期主題

發展遙感數據智能分析技術的目的是將長期積 累的遙感數據轉化為對觀測對象的整體觀測、分析、 解譯,獲取豐富準確的屬性信息,挖掘目標區域的 演化規律,主要包括遙感數據精準處理、遙感數據 時空處理與分析、遙感目標要素分類識別、遙感數 據關聯挖掘等。此外,面向大智能分析技術發展需 求,遙感開源數據集和共享平臺方面也取得了顯著 進展(陳述彭等, 2000; 宮輝力等, 2005)。

遙感數據精準處理方面,遙感數據精準處理的目 的是對傳感器獲取的光譜反射或雷達散射數據進行 成像處理和定標校正,恢復為與地物觀測對象某些 信息維度精確關聯的圖像產品。傳統方法需要根據 衛星、傳感器、傳輸環境、地形地表等先驗模型, 以及外場定標試驗獲取定標參數,建立精確的成像 模型將觀測數據映射為圖像產品。隨著傳感器新技 術的發展和分辨率等性能的提升,先驗模型的建立 越來越困難,外場定標的難度和消耗也越來越大, 并且成像處理和定標校正獲取的模型和參數與傳感 器的耦合,只能以一星一議的方式實現,無法多星 一體化實現。如何在傳統方法的基礎上,構建觀測 數據到精準圖像產品的深度學習網絡結構,設置面 向不同應用的圖像優化指標體系,以大量歷史數據 和標注結果作為輸入,實現網絡結構對傳感器物理 模型和參數的精確重構和逼近,形成基于人工智能 技術的多星一體化遙感圖像精準處理能力。

遙感數據時空處理與分析方面,多時相影像相比 單一時相的遙感影像,能夠進一步展示地表的動態 變化和揭示地物的演化規律。然而,一方面受限于 遙感自身的時間分辨率與空間分辨率之間的不可兼 得;另一方面受氣象、地形等成像條件的影響,光 學傳感器獲取的遙感影像往往被云層及其陰影覆蓋 (特別是在多云多雨地區,如我國西南地區),而 難以獲取真實的地面信息。這樣的數據缺失,嚴重 限制了遙感影像的應用;特別是對于多時相影像的 遙感應用(如森林退化、作物生長、城市擴張和濕 地流失等監測),云層及其陰影所導致的數據缺失 將延長影像獲取的時間間隔、造成時序間隔不規則 的問題,加大后續時間序列處理與分析的難度。因 此,進行遙感影像的時間與空間維度的處理與分析 對提高遙感影像數據的可用性、時間序列分析水平 和遙感應用的深度廣度具有重要意義。

遙感目標要素分類識別方面,遙感數據中一般包 含大量噪聲,大多數現有的處理分析方法并未充分 利用計算機強大的自主學習能力,依賴的信息獲取 和計算手段較為有限,很難滿足準確率、虛警率等 性能要求。如何在傳統的基于人工數學分析的方法 基礎上,結合人工智能方法,定量描述并分析遙感 數據中目標模型失真和背景噪聲干擾對于解譯精度 的影響機理,是遙感智能分析面臨的另一項關鍵科 學問題。通過該問題的分析與發展,有望實現構建 一個基于深度學習的多源遙感數據自動化分析框 架,在統一框架下有機融合模型、算法和知識,提 升遙感數據中目標要素提取和識別的智能化水平。

遙感數據關聯挖掘方面,隨著遙感大數據時代的 到來,我們可以更方便地獲取高分辨率和高時間采 集頻率的遙感數據,對于目標信息的需求,也由目 標靜態解譯信息,拓展到全維度的綜合認知與預測 分析。為了滿足上述需求,基于海量多源異構遙感 數據,實現時間、空間等多維度的信息快速關聯組 織與分析,是未來遙感解譯技術發展的重要方向

遙感開源數據集和共享平臺方面,大多數現有數 據集仍然存在數據規模較小、缺乏遙感特性的問題, 并且現有深度學習平臺難以有效支撐遙感特性及應 用,領域內數據集算法模型的準確性、實用性、智 能化程度也待進一步提高。如何結合遙感數據特性, 建設更具遙感特色的開源數據集和共享平臺,是遙 感智能生態建設的一項重要研究內容。 本文主要圍繞上述五個方面的研究,論述遙感智 能分析技術的發展現狀、前沿動態、熱點問題和未 來趨勢。

2 國際研究現狀

2.1 遙感數據精準處理

利用智能手段開展數據預處理技術,國外將智能技術用于遙感數據(光學、SAR、光譜)配準、校 正等的工作。

**1.1.1 光學/SAR 精細化處理 **

遙感圖像為遙感應用分析提供了數據基礎,可廣 泛應用于農林監測、城市規劃、軍事偵察等領域, 遙感數據質量是決定其應用性能的關鍵。評價遙感 數據質量的指標包括圖像時間/空間分辨率、圖像幅 寬、空間特征、光譜特征、輻射幾何精度等。高質 量遙感影像具有高分辨率、高信噪比等特點。提升 遙感影像質量的方法可大致分為兩類,一是改進傳 統成像算法聚焦得到高質量圖像;二是將已有的低 質量的圖像通過去噪去云以及超分辨率重建等技術 得到高分辨率高質量圖像。 與傳統的 SAR 成像算法比較,基于深度學習的 SAR 成像算法可以簡化成像過程。Rittenbach 等人 (2020)提出 RDAnet 神經網絡從原始雷達回波數 據訓練聚焦得到 SAR 圖像,網絡經過訓練可以匹配 距離多普勒算法的性能,算法將 SAR 成像問題處理 為監督學習問題,RDAnet 是第一個基于深度學習的 SAR 成像算法。Gao 等人(2019)提出了一種基于 深度網絡的線譜估計方法,并將其應用于三維 SAR 成像,大大加快了成像過程。Pu(2021)提出了一 種深度 SAR 成像算法,減少了 SAR 的采樣量,并 且提出了一種基于深度學習的 SAR 運動補償方法, 可以有效地消除運動誤差的影響。 僅依賴遙感衛星載荷能力推動圖像分辨率提升, 使得高分辨率圖像成本大幅提高,給遙感圖像大規 模應用力帶來困難。以超分辨、圖像重構等為代表 的圖像級和信號級處理方法為遙感圖像分辨率和質 量提升提供了另一種可行的技術途徑。Wei 等人 (2021)提出了基于 MC-ADM 和基于 PSRI-Net 的 兩種參數化超分辨率 SAR 圖像重建方法,根據預先 設計的損耗,深度網絡通過端到端訓練來學習,可 應用于得到高質量 SAR 超分辨率圖像的參數估計。 Luo 等人(2019)提出了一種基于卷積神經網絡的 SAR 圖像超分辨率重建的方法,針對浮點圖像數據 采用深度學習對 SAR 圖像進行重建,可以更好地重 建 SAR 圖像。針對非生成對抗網絡在光學遙感圖像 超分辨重建以及噪聲去除中出現的信息損失和對比 度降低的問題,Feng(2020)提出了利用生成對抗 網絡對小波變換域光學遙感圖像進行超分辨重建以 及噪聲去除的方法。Xiong(2021)提出了一種適應 于遙感圖像超分辨的改進超分辨率生成對抗網絡 (Super-resolution GAN, SRGAN),增強了模型在跨區 域和傳感器的遷移能力。Bai 等人(2021)提出一種 改進的密集連接網絡遙感圖像超分辨重建算法。 Dong 等(2020)提出了一種改進的反投影網絡實現 遙感圖像的超分辨率重建。Tao(2020)提出了一種 以 DPSRResNet 作為其超級解析器的 DPSR 框架的 遙感圖像超分辨重建算法。Yang 等(2020)提出了 一種多尺度深度殘差網絡(MDRN)用于從遙感圖像 中去除云。Wang 等(2021)構建了 SAR 輔助下光 學圖像去云數據庫,建立了基于條件生成對抗網絡 的 SAR 輔助下的光學遙感圖像去云模型,實現了 SAR 輔助下光學圖像薄云、霧、厚云等覆蓋下地物 信息的有效復原與重建。

目前,人工智能在遙感數據處理和圖像質量提升 方面的應用主要得益于機器學習技術的引入。基于 GAN 網絡的方法試圖利用生成器克服原始高分辨 率遙感圖像難以獲取的問題,另一些無監督的學習 方法則通過學習圖像質量退化前后關系試圖獲取原 始的高分辨率遙感圖像。由于遷移學習可以從其它 域樣本中獲得先驗信息,并且在目標域中進一步優 化,借鑒遷移學習和零樣本學習的思路可以嘗試解 決遙感圖像質量提升的問題。由于作用距離遠,遙 感圖像分辨率和清晰度相對于自然圖像仍有一定的 差距,這導致遙感圖像細節丟失相對較為嚴重。

為了從遙感圖像中獲取更為豐富的信息,需要對 遙感圖像空間特征進行提取(注意力機制、局部-全 局聯合特征提取等),需要對遙感圖像目視效果進 行可視化增強(邊緣增強、小波變換等)。此外, 面向圖像細節特征解譯的需求,還需要對遙感圖像 中的弱小目標和細微結構進行檢測、提取和增強(弱 小目標檢測等),提升遙感圖像中細節缺失造成的 信息損失。

1.1.2 光學/SAR 定量化提升

可見光、SAR、高光譜等遙感圖像的定量化提升 主要體現在幾何、輻射、光譜、極化等幾個方面, 通過尋找穩定點來消除成像過程中產生的畸變,改 善圖像質量,使數據產品能夠定量化反映地物的真 實信息,以達到定量化提升的效果。在國際主流研 究中,神經網絡技術主要被應用在提升圖像匹配精 度方面,并以此帶動幾何定位精度定量化提升。得 益于機器學習方法的引進,遙感圖像匹配技術獲得 了系統性發展,匹配精度獲得了顯著進步。典型的 兩種方法為局部特征點匹配方法和區域匹配方法。 與全局特征相比,局部特征點與遙感圖像獲取的大 場景松耦合,對大場景的仿射變化、輻射/亮度變化噪聲水平不敏感。目前,基于特征點匹配的遙感圖 像質量提升技術取得了一系列研究成果。典型的特 征點匹配包括關鍵點檢測和描述子提取兩個部分。 深度學習應用于局部特征點匹配可以分成三個階 段,形成了三類代表性方法。 第一類方法重點關注和解決關鍵點檢測問題,即 如何檢測得到特征點的方向、位置、以及尺度信息。 關鍵點檢測中響應圖的構建是重點,關鍵點檢測的 數量和準確性依賴于特征準確、信息豐富的響應圖。 Savinov 等人(2017)提出了無監督學習的神經網絡 訓練方法,該方法首先將遙感圖像目標像素點映射 為實值響應圖,進而排列得到響應值序列,響應序 列的頂部/底部像素點即可以視為關鍵點。Ma 等人 (2019b)采用由粗到細的策略,先用一個卷積神經 網絡計算近似空間關系,然后在基于局部特征的匹 配方法中引入考慮空間關系的匹配策略,同時保證 了精度和魯棒性。 第二類方法重點關注和解決描述子提取問題,即 用一組特征向量表示描述子,描述子代表了特征點 的信息,可以通過端到端訓練獲得描述子。描述子 訓練是獲得高精度匹配結果的關鍵。Simo-Serra 等 人(2015)提出了 Deep-Desc 特征點描述子提取方 法,該方法中神經網絡采用了 Siamese 結構(Chopra 等, 2005),構造了一種 128 維的描述子,應用于具 有一定差異性的圖像對匹配問題,通過比較描述子 歐氏距離對圖像間描述子的相似性進行衡量。 第三類方法關注于聯合訓練關鍵點檢測模塊和 描述子提取模塊。關鍵點檢測和描述子提取兩個模 塊的協同工作和聯合訓練是該方法重點解決的難 點。Yi 等人(2016)提出了基于 LIFT 網絡的聯合 訓練,是最早解決關鍵點檢測和描述子提取的聯合 訓練的網絡之一。 LIFT 網絡的輸入是以 SIFT 特征點(Lowe, 2004) 所在圖像塊,LIFT 網絡的關鍵點檢測效果也與 SIFT 算法類似,魯棒性較好。Ono 等人(2018)提出的 LF-Net,采用 Siamese 結構訓練整個網絡,通過深 層特征提取網絡產生特征圖。Shen 等人(2019)以 LF-Net 為的基礎,提出了基于感受野的 RF-Net 匹 配網絡,該網絡實現關鍵點檢測時保留了遙感圖像 低層特征、部分保留了遙感圖像高層特征,在描述 子提取中采用了與 Hard-Net(Mishchuk 等, 2017) 一致的網絡結構。 與局部特征點相比,區域特征對整體性表征更加 完整,對區域形變、區域變化等的穩定性更好。傳 統區域特征匹配技術的代表為模板匹配方法。深度 學習應用于區域特征匹配形成了兩類代表性方法。 第一類方法的核心思想是用分類技術解決匹配 問題。Han 等人(2015)利用 MatchNet 提取圖像 區域特征,將三個全連接層得到特征的相似性作為 輸出,對輸出采用概率歸一化處理(Softmax)進行分 類匹配。Zagoruko 等人(2015)重點解決了對光照 變化、觀測角度具有很好適應性的區域特征提取問 題,提出了基于 DeepCompare 網絡的區域特征提取 方法,該方法的匹配性能對于不同時間空間獲取的 遙感圖像具有極佳的穩定性。 第二類方法的核心思想是構建合適的描述子解 決區域特征匹配問題。Tian 等人(2017)提出了一 種 L2-Net網絡的區域匹配方,該網絡生成了128 維 的描述子,在迭代次數較少的約束下,利用遞進采 樣策略,對百萬量級的訓練樣本進行遍歷學習,并 通過額外引入監督提高學習效率,該網絡泛化能力 較好。

可見,深度學習網絡的引入在特征提取、關鍵點 檢測和描述子提取等多方面優化了遙感圖像匹配能 力。考慮到深度學習網絡的持續研究,網絡結構、 訓練方式的更新和進步有望進一步提升遙感圖像匹 配精度,基于深度學習的遙感圖像匹配算法仍然具 有相當的研究價值和應用前景。

除了幾何質量定量化提升外,還有少數研究學者 開展了利用神經網絡技術在輻射、光譜、極化定量 化提升方面的研究工作。楊進濤等人(2019)提出 了一種基于海量 SAR 數據進行地物散射穩定特性 的分析與挖掘,并成功在普通地物中找到一種統計 意義下穩定的散射特征量用作定標參考,從而為 SAR 系統的常態化輻射定標奠定初步的技術基礎。 Jiang 等人(2018)考慮到極化觀測過程中會受到多 種誤差的影響,造成極化測量失真,影響數據的極 化應用性能,提出一種利用普遍分布的地物進行串 擾和幅相不平衡的定量評價方法,該方法不受時間 和空間限制,能夠實現大量數據極化校正性能的實 時、便捷評估,對極化數據質量進行長期監測。和 幾何定量化提升不同,神經網絡技術在這些領域還 沒有大量的、深入的應用,為后續進一步進行系統 性、規模化研究提供了指導方向。

1.2 遙感數據時空處理與分析

近年來,陸續開展多源遙感時間與空間協同處理 與分析方面開展研究工作,力求實現多源數據間互 補協同、融合重建,提高遙感時空分析的能力

1.2.1 遙感影像時間序列修復

研究人員構建了大量的時間序列遙感影像修復 和重建的方法。根據修復所用參考數據的不同,這 些方法大致可以分為三類:基于影像本身的修補方 法(self-complementation-based)、基于參考影像的 修補方法(reference-complementation-based)和基于 多時相影像的修補方法 (multi-temporal-complementation-based)。基于影 像本身的修復方法利用同一影像上無云/影覆蓋區 域的數據來修補被云/影覆蓋區域的缺失數據;假設 影像中數據缺失區域與剩余區域具有相似或相同的 統計與幾何紋理結構,通過傳播局部或非局部無云 區域的幾何結構來重建云/影區域的缺失數據。依據 空間插值與誤差傳播理論,缺失像素插值(missing pixel interpolation)、影像修補(image inpainting) 和模型擬合(model fitting)等多種方法被廣泛應用 于云影區域的數據重建。雖然能夠重建出貌似真實 的影像區域,但這些方法對云/影覆蓋下地物的類型 非常敏感,其修補數據也不適用于進一步的數據分 析;并且由于不確定性和誤差隨著傳播而積累,這 些方法很難修復大區域或異質缺失數據。為了克服 基于影像本身修補方法的瓶頸,Chen 等人(2016) 提出了通過模擬參考影像與云/影覆蓋影像之間映 射與轉換關系的基于參考影像修補方法;這類方法 依賴于不同光譜數據之間的強相關性,利用多光譜 或高光譜影像中對云不敏感的光譜波段來重建被云 /影覆蓋區域其他波段的缺失數據。比如利用 MODIS 數據的第七波段來修復第六波段的數據缺失、利用 Landsat 近紅外波段來估算水面區域的可見光波段、 利用 MODIS 數據預測 Landsat 影像的缺失數據和利 用不受云雨干擾的合成空間雷達數據來重建被云影 覆蓋的光學數據等。盡管參考影像能夠提供云影覆 蓋區域的缺失信息,但這類方法仍然受到光譜一致 性、空間分辨率和成像時間相關性等限制,而難以 重建出高質量的用于模擬地表變化的時間序列數 據。前兩種方法受限于其對重建影像沒有漸進變化 的假設,這種平穩性假設將成為土地覆蓋變化和作 物生長監測等時間序列應用中的明顯弱點。遙感衛 星以固定的重復周期來觀測地表,同一區域又不可 能總是被云影覆蓋,因此很容易獲得同一區域的多 時相影像。這些同一區域的多時相影像(有云/影覆 蓋的和無云/影覆蓋的)提供了利用多時相影像修復 云/影覆蓋區域缺失影像的可能(Chen 等, 2011)。 基于多時相影像的修補方法包括兩個主要步驟:查 找有云/影覆蓋區域和無云/影覆蓋區域相似的像元 (pixel)或區域(patch)和利用相似的像元(區域) 預測云/影覆蓋區域的缺失數據。在查找相似像元 中,Roy 等人(2008)深入研究并集成空間、光譜 和時相等信息來度量有云/影覆蓋區域和無云/影覆 蓋區域像元的相似性。在重建云/影覆蓋像元中,Gao 等(2017)提出和發展了諸如多時相直接替換、基 于泊松方程的復制、時空加權插值等方法;同時也 吸納用于修復傳感器條帶修復的方法,如近鄰相似 像元插值(neighborhood similar pixel interpolator, NSPI)(Zhu 等, 2011)和加權線性回歸(weighted linear regression,WLR)等。 近年來,深度學習方法也被運用于云影覆蓋影像 的修復和重建;Grohnfeldt 等人(2018)利用生成對 抗網絡(generative adversarial networks)來融合合 成空間雷達數據和光學影像生成無云影像;Malek 等人(2017)利用自動編碼網絡(autoencoder neural network)來構建有云影覆蓋區域和無云影覆蓋區域 影像的映射函數;Zhang 等人(2018a)利用深度卷 積網絡(deep convolutional neural networks)集成光 譜、空間和時相信息來修復缺失數據。

雖然現有研究取得了不錯的重建效果,但仍存在 一些局限性:(1)相對于光譜和空間相似性,多時相 影像中的時間趨勢能更詳細地反映地表覆蓋變化, 而以往方法(尤其是傳統方法)中的簡單線性回歸 或光譜、空間度量很難捕捉復雜的非線性時間趨勢; (2)現有的利用深度學習的重建方法多集中運用空間 卷積網絡 CNN 獲取光譜和空間紋理信息(且需要大 量的訓練樣本),少有研究使用循環神經網絡 RNN 學習跨影像的時間趨勢;(3)由于云/影總在不確定的 影像區域和不確定的時間上出現,像元級的時間序 列難以保證多時相影像的時間間隔相等與時相對 齊,加大了現有方法進行時間序列重建的難度。

1.2.2 多源遙感時空融合

遙感圖像融合研究可大致分為兩個階段。第一階 段主要集中于全色增強算法研究,即通過融合來自 同一傳感器的全色波段和多光譜波段進而生成高分 辨率的多光譜圖像。這類算法研究較多,已形成較 為成熟的系列算法。第二階段則是多源多分辨的時 空融合算法研究,即通過融合高空間分辨率遙感數 據的空間分辨率特征和高時間分辨率遙感數據的時 間分辨率特征,進而生成兼具高時間和高空間分辨 率的遙感數據。這類研究從最近十幾年才發展起來, 仍處于快速發展階段,研究成果相對較少,但是對遙感數據的應用具有重要意義。 時空融合算法研究最早出現在 2006 年美國農業 部 Gao(2006)的研究中。其在 Landsat ETM+和 MODIS 數據地表反射率的融合中提出一種時空自 適應反射率融合模型(Spatial and Temporal Adaptive Reflectance Fusion Model,STARFM),可融合生成 具有和 Landsat ETM+數據一樣空間分辨率的逐日 (和 MODIS 數據時間分辨率一樣)地表反射率數 據。此后,系列基于 STARFM 或其他理論框架的融 合算法相繼被提出。當前的時空融合算法根據其融 合原理可大致分為三種:基于解混、基于濾波和基 于學習的方法。基于解混的方法,通過光譜替換的 方式生成融合圖像。基于濾波的方法,待預測像元 值通過對其一定鄰域內光譜相似像元的加權求和獲 得。而基于學習的方法(Huang 等, 2012; Song 等, 2012),首先通過學習待融合傳感器圖像之間的映 射關系,然后將先驗圖像的信息融入融合模型最終 生成融合圖像。 基于學習的時空融合研究起初多在 MODIS 和 Landsat 這兩類遙感圖像上。如針對這兩類數據的融 合,Song 等人(2012)提出基于稀疏表示的時空反 射融合模型。該模型在已知兩對 MODIS 和 Landsat 圖像對差分域中學習它們的映射關系,形成字典對 信息。而因為兩者圖像的空間分辨率存在較大差異, 作者設計了兩層融合框架,使得基于稀疏表示的方 法大大提高了融合精度,但字典對中存在擾動的問 題一直不可忽視。Wu 等人(2015)通過引入誤差 邊界正則化的方法到字段對學習中解決了擾動問 題。近年來,因深度卷積神經網絡在各類圖像領域 表現出良好性能,Song 等人(2018)提出基于卷積 神經網絡的遙感圖像時空融合算法(Spatiotemporal Satellite Image Fusion Using Deep Convolutional Neural Networks,STFDCNN)。他們的模型分兩階 段進行學習,首先學習降采樣 Landsat 圖像(low spatial resolution,LSR)與 MODIS 圖像之間的非線 性映射關系;其次學習 LSR Landsat 圖像與原始 Landsat 圖像之間的超分辨率映射關系。通過這兩階 段學習模型實現對遙感圖像中豐富細節信息的利 用。盡管 STFDCNN 模型在時空融合性能上大幅度 超過其他融合算法,但因其神經網絡層數較少(僅 有 3 個隱藏層),如此淺層的卷積神經網絡對存在 較大空間尺度差異的不同衛星傳感器數據 (MODIS-Landsat)間的非線性映射關系的學習仍 是有難度的。因此,當前如何處理兩類傳感器數據 (MODIS-Landsat)之間的空間差異變化,以及如 何確定深度卷積網絡的最優層數和卷積核數目仍舊 是卷積神經網絡時空融合算法研究中亟待解決的問 題。此外,Kim 等人(2016)在超分辨重建研究中, 通過利用殘差網絡結構得以訓練一個深度的卷積神 經網絡模型,這對后續遙感圖像融合研究具有一定 啟發。

1.3 遙感目標要素分類識別

經典遙感要素分類與識別方法一般為“單輸入單 輸出”的模型架構,面向不同目標要素、不同模態 數據或不同分類識別任務時,通常設計不同的專用 網絡模型。而我們實際面臨的應用場景中,常會有 不同模態的數據供我們使用,并給出多種類型的決 策結果,例如,人類的感知系統會結合聽、說、看 等多種輸入,并給出目標的位置、屬性等多種信息。 而傳統的模型架構難以實現這種“多輸入多輸出” 的能力,主要問題在于,一是傳統模型對新場景、 新任務的適應能力不足;二是模型對各類數據的特 征提取過程相對獨立,難以實現不同數據的特征共 享從而實現性能增益;三是在多輸入多輸出情況下, 傳統模型的簡單疊加會導致計算和空間復雜度的顯 著上升,限制其實用能力。 為了解決上述問題,當前的主流發展方向是多要 素目標信息并行提取,通過在網絡模型中探索多模 態數據、多任務多要素特征的共享學習,在降低模 型復雜度的同時提升其泛化能力。

1.3.1 典型遙感目標要素提取

傳統的遙感目標要素提取方法面向不同目標要 素時,通常設計不同的專用的方法流程。這種流程 設計主要解決兩類問題,一是針對遙感數據本身的 特征/特性分析,為構建適合數據特征/特性的模型提 供依據;二是適合遙感數據特點的專用網絡模型構 建,即以通用的網絡模型為基礎,構建符合遙感數 據特點的模型,改進通用模型在遙感數據中的應用 能力。 遙感數據的獲取過程中存在諸多與自然場景圖 像不同的影響因素,如電磁波散射特性、大氣輻射 特性、目標反射特性等,因此對于數據的上述特性 的分析和表達是構建有效模型的基礎。Kusk 等人 (2016)和 Hansen 等人(2017)通過對 SAR 成像 時地形、回波噪聲等要素進行建模,實現基于 3D CAD 對不同類型地物要素的 SAR 圖像仿真。Yan 等(2019)通過對艦船等目標進行三維模型構建, 從而生成仿真的目標點云數據。Ma 等(2019a)提出了一種包含生成和判別結構的網絡模型,通過對 抗學習實現樣本表觀真實性的增強。Zhan 等(2017) 和 Zhu 等(2018)提出了一種針對高光譜影像分類 的生成對抗網絡模型。Zhang 等(2018b)設計出一 種基于條件模型的生成對抗網絡,用于遙感圖像中 飛機目標的精細仿真。Yan 等人(2019)則基于點 云數據在三維空間上進行船舶模型構建,并利用正 射投影變換將模型從模型空間投影至海岸遙感圖像 上進行仿真數據生成。為了進一步提升仿真對象和 遙感背景間的適配性,Wang 等人(2020b)則進一 步提出利用 CycleGAN 對仿真的飛機目標和背景進 行自適應調整,設計了一種用于目標檢測任務的建 模仿真數據生成框架。在地物要素分類任務上, Kong 等人(2020)則利用 CityEngine 仿真平臺的批 量建模特性,首次探索在廣域范圍內進行城市級別 的場景建模,并發布了一套用于建筑物分割的遙感 仿真數據集 Synthinel-1。 面向遙感數據特點的專用網絡模型設計方面,主 要結合遙感圖像中目標旋轉、多尺度、目標分布特 性等特點,針對性設計網絡結構來提升專用模型性 能。Zhou 等(2018)設計了一種源域到目標域數據 共現特征聚焦結構,提升高光譜圖像的語義分割效 果。Luo 等(2018)針對高光譜圖像語義分割中存 在的類內特征分布差異,提出了一種均值差異最大 化約束模型。Rao 等(2019)設計了一種自適應距 離度量模型,提升高光譜圖像地物要素的分類精度。 Kampffmeyer 等(2016)針對地物要素數量、空間 分布差異大的問題,提出了一種結合區域分組與像 素分組的模型訓練策略,用于國土資源監測任務。 Liu 等(2017)針對遙感目標尺度差異大的特點,提 出基于沙漏網絡的多尺度特征增強模型,提升光學 遙感圖像的分類精度。Marcos 等人(2018)提出了 基于旋轉卷積構建的多源數據提取網絡,通過編碼 圖像的旋轉不變性特征在多個數據集取得了先進的 結果。Peng 等人(2020)基于注意機制和密集連接 網絡有效融合 DSM 數據和光譜圖像并獲得了更好 的分割效果。Hua 等人(2021)提出了特征和空間 關系調節網絡,利用稀疏注釋,基于無監督的學習 信號來補充監督任務,顯著提升了語義分割的性能。 隨著遙感圖像分辨率的提升、網絡深度的增加、 參數的堆疊帶來性能的提升,與之相伴的是龐大的 模型、巨量的參數和緩慢的算法效率。考慮到星上 遙感數據實時處理對計算資源、存儲資源的限制, 一些工作嘗試在保留算法高性能前提下,減少模型 參數,提高算法運算速度。Valada 等人(2019)利 用分組卷積的設計思想提出了一種高效的帶孔空間 金字塔池化結構,用于高分辨遙感圖像地物要素提 取。提出的方法能夠減少 87.87%的參數量,減少 89.88%每秒浮點運算次數(floating-point operations per second, FLOPS)。Zhang 等人(2019b)基于深 度可分卷積設計了一種面向合成孔徑雷達圖像的船 舶檢測算法的特征提取網絡,大大提升了檢測速度, 相比于輕量化前的網絡檢測速度提高了 2.7 倍。Cao 等人(2019)利用深度可分卷積設計了一種用于提 取數字表面模型數據的結構,該網絡結構無需預訓 練模型仍可以快速收斂,將網絡訓練時間降低 50% 以上。Wang 等人(2019b)提出一種輕量級網絡 MFNet,實現對高分辨率航拍數據的地物要素分類 任務的高效推理,相比于輕量級網絡 ResNet-18,提 出的網絡在分類精度提升的同時,將參數量減少了 40%,推理速度提高了 27%。Ma 等人(2020)針對 災后損毀評估任務,以 ShuffleNet v2 模型為基礎, 設計了一種輕量化建筑物提取模型,相比傳統模型, 在精度提升 5.24%的同時,速度提高 5.21f/s。 上述方法通過結合遙感目標要素特點,通過提出 專用網絡結構或特征提取方法,提升傳統模型針對 遙感數據的應用能力。然而,對于不同類型數據、 不同特征/特性,仍缺乏統一的網絡結構進行表征, 因此多要素信息多任務并行網絡和模型仍需進一步研究。

1.3.2 多要素信息并行提取

多要素信息并行提取方法的研究,主要集中于探 索如何在一個統一模型中實現多類遙感地物要素目 標的類別、位置等屬性信息的高精度獲取。如前所 述,針對這種典型的“多輸入多輸出”場景,現有 方法重點針對多模態輸入數據的特征表示和多任務 輸出特征的共享融合兩方面問題開展研究。 特征共享研究方面,根據模型共享參數實現方式 的區別,現有方法可大致分為硬參數共享 ( hard-parameter sharing ) 和軟參數共享 (soft-parameter sharing)兩種。 硬參數共享方法利用同一個模型實現在輸入和 輸出端的多任務分支模型特征共享融合。Liebel 等 (2020)面向城市建設狀況分析任務,將多個任務 共享同一編碼器,并分別解碼輸出,實現同時輸出 建筑物位置和深度信息。Papadomanolaki 等(2019) 將地物要素重建模型融合到分類模型中,并約束分 類模型訓練,來提升分類效果。Khalel 等(2019)則在同一個網絡模型中同時嵌入圖像銳化與地物要 素分類兩類任務的模型。Rosa 等(2020)設計了一 種面向農業生產狀況監控的多任務全卷積回歸網 絡。 軟參數共享方法直接將針對不同任務的多個獨 立網絡通過參數加權連接,實現多類任務的共享輸 出。Volpi 等(2018)將條件隨機場擬合結果與圖像 同時作為數據,構建類內相似度和邊界值預測的兩 個分支模型,改善地物要素分類結果。Zhang 等 (2019a)提出了面向極化 SAR 多通道數據的地物 要素分類方法,利用獨立的特征提取網絡對幅值和 相位信息分別建模,利用分類器進行聯合約束訓練, 來提升精度。Shi 等(2020)針對高光譜圖像的多類 要素分類任務,利用多任務集成學習實現通道選擇, 獲取最優通道組合。 針對多模態數據的聯合特征表示,如圖像紋理特 征、三維高程特征、目標要素矢量拓撲特征等,能 有效提升各類任務的性能。Chen 等(2019)針對洪 災區域檢測任務,提出融合多時相的多模態圖像的 模型,來提升其檢測精度。Fernandez 等(2018)將 SAR 圖像和多光譜圖像作為輸入,進行無監督的地 物要素分類。Benson 等(2017)在森林冠層三維高 度估計任務中,提出利用光譜特性數據的方法,能 有效改善傳統三維估計方法的精度。

1.4 遙感數據關聯挖掘

**1.4.1 數據組織關聯 **

隨著遙感大數據時代的到來,對海量多源異構遙 感數據的挖掘與關聯分析變得至關重要。通過將多 源遙感影像建立關聯,進而從時間、空間等維度進 行數據隱含特征的挖掘與分析應用,可以有效提升 遙感大數據的價值。 2012 年,國際對地觀測組織(Group on Earth Observation, GEO)提出了一套數據共享框架體系。 其在全球范圍內建立一個對地觀測資源的集成平 臺,該平臺被廣泛應用于農業、氣候、能源、健康、 水資源、天氣等多個領域(白玉琪等, 2013)。此外, 美國聯邦地理數據委員會(Federal Geographic Data Committee,FGDC)創建了美國國際空間數據基礎設 施(National Spatial Data Infrastructure, NSDI),設計 了一種地理空間互操作的參考框架,實現了位置參 考信息和更寬泛的信息集和之間的無縫整合。

**1.4.2 專業知識圖譜構建 **

針對如何從認知的角度實現各類數據的有效關 聯與分析,部分學者從地理空間認知的角度出發, 通過構建地理知識圖譜理解實現多源信息的語義理 解。目前,基開放街道地圖(OpenStreetMap,OSM) (Haklay 等, 2008)的系列圖譜以及基于 YAGO2 (Hoffart 等, 2013)的系列圖譜等地理知識圖譜被 廣泛使用。人們利用 OSM 數據和資源描述框架 (Resource Description Framework,RDF)數據模型轉 換方法,構建了 LinkedGeo-Data(Auer 等, 2009), 實現了網絡數據的空間信息自動標注。部分學者提 出一種新的 OSM2KG(Tempelmeier 等, 2021)鏈路 發現方法,在 OSM 節點和知識圖譜中構建等價地理 信息實體之間建立身份鏈路。此外,還有部分學者 提出了 CrowdGeoKG(Chen 等, 2017)方法,該方 法首先提取 OSM 中不同的地理信息實體,再通過 Wikidata 中的人文地理信息來補充信息。YAGO2 基 以 Wikipedia、GeoNames 和 WordNet 為信息源進行 構建,其中包含約 980 萬個實體,其中實體、事實 和事件都錨定在時間和空間中。一些學者利用幾何 圖形(如直線、多邊形等)實現地理空間信息的擴 展表示(Karalis 等, 2019),該地理知識圖譜以官方 的行政區劃信息和來 OSM 數據集為數據源。部分學 者提出了基于形式化的地理知識表示框架 GeoKG, 解決了離散知識表示方法難以表示地理狀態、演變 的問題(Wang 等, 2019a)。 此外,為實現圖譜關系優化和關系分配,Yuan 等(2020)在實體識別、關系嵌入等步驟基礎上, 提出了一種面向生物醫學領域的,基于非結構化特 定上下文的知識圖譜構造方法。Zhao 等(2020a) 提出了一種文檔主題信息自動提取模型,能夠自動 識別文檔標題、狀態、會議、組織等文檔主題信息。 此外,部分學者(Piplai 等, 2020)通過相似實體融 合,提出了一種針對行動報告的信息抽取方法,用 于構建網絡安全知識圖譜。Dessì 等(2021)結合 監督學習和無監督學習,提取研究出版物中的實體 和關系,并以三元組的形式集成到知識圖譜中。

1.5 遙感開源數據集和共享平臺

**1.5.1 遙感領域開源數據集 **

目前,國際上的遙感解譯樣本數據主要是針對不 同的解譯任務而構建的,主要包括場景分類數據集、 遙感目標檢測數據集、地物要素提取數據集、變化 檢測數據集等幾類,涵蓋了光學、SAR 等傳感器數 據。 場景分類指的是根據遙感圖像的場景內容,對圖 像進行分類,將其標注為某個特定的場景類別。國 際上,常見的開源數據集有加州大學發布的 UCMerced Land Use 數據集(Yang 等, 2010),該數據 集包含 21 類土地利用的圖像數據集;有美國路易斯 安那州立大學發布的 SAT-4 和 SAT-6 數據集(Basu 等, 2015),涵蓋來自美國的 330,000 個場景圖像; 還包括來自德國人工智能研究中心的 EuroSAT 數據 集(Helber 等, 2018),包含來自 Sentinel-2 衛星的 27,000 張遙感圖像。 遙感目標檢測是指通過檢測算法確定圖像是否 包含一個或者多個預定類別的目標,并提供目標的 位置信息。國際上常見的遙感圖像目標檢測數據集 有 DLR-MVDA 數據集(Liu 等, 2015)、SpaceNet 數據集(Van Etten 等, 2018)和 XView 數據集(Lam 等, 2018)等。DLR-MVDA 數據集是德國航空航天 中心(DLR)遙感技術研究所發布的車輛檢測數據集; SpaceNet 是由亞馬遜等多個國際組織聯合發布的一 系列目標檢測數據集,涵蓋道路檢測、建筑檢測等 多個任務。xView 是由美國國家地理空間情報局構 建的一套多類目標識別檢測數據集,它包含來自世 界各地復雜場景的圖像,圖像分辨率為 0.3 米,具 有 60 類不同類別的目標。 遙感圖像地物要素提取任務是指為遙感圖像中 的每一個像素分配類別標簽,實現像素級的預測。 國際攝影測量與遙感協會發布的 ISPRS 數據集提供 了兩個機載數據集,該數據集包含 Vaihingen 和 Postdam 兩個城市 6 類地物要素標注結果。Vaihingen 是一個相對較小的村莊,里面主要是分布著一些獨 立的、小型的建筑物。而 Postdam 是一座擁有大型 建筑、密集居民區的歷史名城。兩個城市的數據具 有不同的建筑風格,給地物要素分類任務帶來了一 定的挑戰。 變化檢測是從不同時期的遙感數據中定量分析 和確定地表變化的特征與過程。OSCD 數據集 (Daudt 等, 2018)包含 2015 年至 2018 年之間從 Sentinel-2 衛星拍攝的 24 對多光譜圖像。區域涵蓋 世界各地(巴西,美國,歐洲,中東和亞洲)。 對 于每個位置,均提供了 Sentinel-2 衛星獲得的 13 個 波段的多光譜衛星圖像的配準對。圖像的空間分辨 率在 10m,20m 和 60m 之間變化。 在 SAR 圖像樣本集方面,美國為了解決“SAR 圖像目標識別技術”全美多個研究團隊積極參與協 作,提出了一個小型 MSTAR 數據集(Ross 等, 1999),該數據集包含 40 多類車輛目標,每個車輛 有 72 個不同視角和 360 度范圍內不同方向的樣本。 德國 EADS 建立的 DOSAR 樣本集(Hoffmann 等, 2002)包含 26 幅 X 波段 SAR 圖像和 521 張紅外圖 像。

1.5.2 開源平臺、社區和競賽

開源是一種面向全球的大規模協作工作模式,它 以開放共享、合作共贏為宗旨,有效地推進了全球 化進程。目前,已有越來越多的國際組織致力于建 設開放共享的交流平臺/社區,吸引來自全球各地的 研究者共享成果。全球知名代碼托管平臺 GitHub 上的開發者數量已經達到了 7300 萬,涵蓋了數十種 語言、框架和領域,成為世界上最大的代碼托管平 臺。Kaggle 是由聯合創始人、首席執行官安東尼·高 德布盧姆 2010 年在墨爾本創立的,主要為開發商和 數據科學家提供舉辦機器學習競賽、托管數據庫、 編寫和分享代碼的平臺。OCP 已經成為全球最大的 硬件開源社區之一,制定了數據中心基礎設施領域 的諸多開放標準。Stack OverFlow 作為全球最大的 技術問答網站之一,主要面向編程人員,提供一個 技術交流的平臺。 為促進對地觀測領域學術發展和成果轉化,國際 學術組織也在積極致力于舉辦各種學術競賽。IEEE GRSS 數據融合大賽(Data Fusion Contest)由 IEEE GRSS 數據融合技術委員會(DFTC)組織,自 2006 年以來已舉辦 5 屆,旨在評價現有方法在利用多源 傳感器數據解決實際問題方面的能力。DIUx xView 挑戰賽中給定高分辨率的衛星圖像,任務是為圖像 中的每個對象預測邊界框。隨著遙感技術的發展, 計算機視覺領域的國際頂級會議組織也在積極推動 遙感領域的學術進展,國際計算機視覺會議 ICCV 和 CVPR 都開設了遙感領域的 Workshop,以促進深 度學習技術在遙感領域的發展。SpaceNet-7 挑戰賽 聚焦于遙感變化檢測技術的應用,競賽任務要求參 賽者使用已建立的多目標跟蹤準確性指標跟蹤建筑 物的建設進度,從而直接評估城市化程度。

2 國內研究進展

**2.1 遙感數據精準處理 **

傳統遙感數據精準處理技術需要根據光譜和電 磁信號在“天-地”鏈路中的傳播模型,建立地表物 理信息與觀測數據的關聯關系,從而構建逆向模型, 利用數據處理技術將觀測數據重新映射為地表物理 信息。傳統方法受到各類誤差的影響,圖像清晰度、 聚焦質量有所退化,輻射、幾何等定量化特征精度 也有所下降。 高質量遙感影像在氣象、災害以及軍事等諸多方面有著廣闊的應用前景。實際成像條件下,大氣擾 動、目標運動、場景變化、成像系統硬件限制等諸 多因素,都制約著遙感圖像的獲取質量。實際圖像 往往表現出光學模糊、運動散焦、系統噪聲、欠采 樣等圖像質量退化,使得分辨率、信噪比等遙感圖 像關鍵指標難以得到有效保障。深度學習網絡可以 實現去云去噪以及超分辨率重建,獲得高質量的遙 感圖像。 王軍軍等(2021)提出了一種新的生成對抗網絡, 該網絡通過端到端訓練,對光學遙感圖像去云,將 清晰的光學遙感圖像從原始含云圖像中恢復出來。 郭保(2021)使用目前在計算機視覺領域效果較好 的生成對抗網絡方法實現了遙感圖像去云模型。張 意等(2021)結合注意力機制、殘差自編碼器結構 和感知損失,提出了一種新的基于殘差自編碼器的 遙感圖像去噪網絡(ARED-VGG),將注意力機制 應用于圖像去噪,可以進一步使得網絡更加專注于 圖像的重要特 征以及細節信息。李盛等(2021)提 出增強少樣本學習方法解決模糊核未知時的超分重 建問題。張艷等(2021)針對遙感圖像超分辨率重 建算法特征利用率低、重建速度慢等問題,提出一 種基于多路徑特征融合的遙感圖像超分辨率重建算 法,提高了重建效率。劉明等(2020)結合生成對 抗網絡提出了一種新的基于自然感知的端到端單向 特征提取的去霧方法。李玉峰等(2021)提出了一 種新的基于深度學習網絡的光學遙感圖像去霧方 法,該方法可以有效去除遙感圖像中由于霧霾導致 的清晰度下降問題,有效提升了遙感圖像在霧霾天 氣狀況下的清晰度。 去云去噪以及超分辨率重建等技術可以有效獲 得高質量的遙感圖像,為遙感應用提供了良好的數 據基礎。利用機器學習技術進行遙感圖像去云去噪 和超分辨率重建面臨著以下挑戰:遙感圖像難以配 準;低頻信號易模糊;模擬退化模型與實際退化模 型不符合等等。 將深度學習等人工智能技術引入遙感圖像質量 提升是近幾年最被關注的研究熱點。我國也一直重 視利用人工智能技術開展相關研究工作,和國際研 究現狀類似,主要研究進展集中在圖像匹配方面。 郭正盛等人(2019)通過尋找最大穩定極值區域 (Maximally Stable Extremal Regions, MSERs),實現 遙感圖像關鍵點檢測,并根據關鍵點進行圖像特征 截取和匹配。廖明哲等人(2020)融合了兩個通道 分別生成的感受野遞增的淺層特征和表征能力更強 的高層特征,得到包含有豐富信息的特征圖,用于 提高遙感圖像的匹配效率。王少杰等人(2021)將 高斯差分圖像 DoG 與 VGG 網絡組合起來,構成一 個新網絡,基于新網絡提取特征圖描述特征點,提 取高斯差分圖像中的極大值點作為待配準特征點, 對兩幅圖像特征點的匹配相似度進行計算。岳國華 等人(2021)使用仿射變換網絡對遙感圖像進行空 間變換,批量生成訓練圖像,將特征提取和匹配放 在卷積神經網絡的端到端架構中,直接預測仿射變 換參數;通過采用校正網絡對卷積神經網絡的結果 進行改進,實現遙感圖像更加精確的配準。 張洪群(2017)提出了基于深度學習的遙感圖像 半監督檢索,提高了檢索速度和準確性。蘇燕飛 (2018)研究了 CNN 網絡中的全連接層特征、以及 不同聚合大小的卷積層特征,并利用上述特征實現 了圖像配準。陳恒實(2020)提出了空間變換網絡 和灰度投影相結合的遙感圖像配準方法,利用區域 約束移動最小二乘法和卷積神經網絡實現了遙感圖 像精確配準。劉宇雁(2021)提出了一個生成對抗 鄰域表征網絡來替代人工選取圖像塊表征的策略, 并在二通道網絡中設計了一個多層融合網絡來解決 部分冗余點背景相似導致被誤認為內點的問題。 將卷積神經網絡成功應用于圖像配準,使得圖像 配準技術又開拓了新的思路。但是針對一些復雜圖 像,比如配準圖像有較大的縮放、旋轉變換時,很 難實現圖像間精準配準。此外,當計算圖像融合特 征時,兩個特征的權重是固定的,在一定程度上限 制了數據和方法的適用范圍。

除了幾何定量化提升,輻射、極化定量化提升方 面也逐漸滲透了一些神經網絡思想,但尚未形成體 系研究。劉李等人(2017)基于長期輻射定標場輻 射測量數據的積累,通過對定標場實測數據和遙感 圖像的映射學習,建立出定標場表觀反射率模型, 預測傳感器待成像時刻的定標場表觀反射率,得到 遙感圖像的絕對輻射定標結果。上官松濤等(2021) 利用結合統計計算和深度神經網絡方法,實現了基 于星載極化 SAR 大數據的極化穩定特征提取,據此 完成了極化失真定量化估計。楊進濤等(2019)利 用深度神經網絡提取建筑物統計特征,據此完成基 于建筑物的無場化輻射定標和輻射質量定量化評 估。基于神經網絡等人工智能方法進行遙感數據定 量化提升已經起步,仍需經過大量試驗和長期探索 系統性形成基于人工智能的遙感數據定量化提升能 力。

2.2 遙感數據時空處理與分析

伴隨著國家“高分專項”計劃的實施與無人機 技術的飛速發展,我國已經初步構建了空天地一體 化的對地觀測網絡,生產出多源、多模態、多時空 分辨率、多專題的遙感數據。并且隨著我國遙感科 學與應用研究國際化程度的不斷提高,國內的遙感 研究幾乎已經緊跟國際先進水平,并在某些領域引 領研究潮流。在遙感數據時空處理與分析方面,一 方面保持著對國際研究進展的緊密跟隨與并跑,另 一方面保持國家應用的特色。

2.2.1 緊跟或領跑國際研究

在深度學習等智能計算快速發展的背景下,借鑒 深度學習在自然圖像或醫學圖像的時空處理與分析 算法(如超分辨率重建、視頻預測等),遙感數據 的時空分析研究能快速遷移并適用。加上我國遙感 研究基礎較好,往往能快速復制并超越國外研究水 平。如 Zhang 等人(2018a)借助卷積神經網絡構建 了通用的時間—空間—光譜聯合的數據重建框架, 用于修復云影遮擋、傳感器故障等引起的數據缺失; Zhou 等人(2020)利用 Sentinel-1 微波數據與 Landsat 數據之間的時序轉換關系,提出了用微波數據輔助 光學影像重建的時間序列修復方法。

2.2.2 保持中國特色

隨著“將論文寫在祖國大地上”思想的深入人 心,在遙感數據時空處理與分析方面,國內的研究 更加關注于國內區域、國產衛星數據和國家實際應 用需求。在研究范圍上,一方面保持著全球視野, 另一方面快速開展國內區域的適用和優化。隨著國 產衛星數據的不斷豐富,數據源也逐步轉換到國產 的 GF-1、GF-2、GF-6、ZY-3 等衛星數據。緊跟國 家高質量農業發展的思路,面向精準農業應用,開 展地塊尺度的精細遙感農業應用(Sun 等, 2019)。

2.3 遙感目標要素分類識別

得益于深度學習強大的特征表達能力,國內研究 學者同樣開展了典型地物要素提取的相關工作,基 于遙感數據的多光譜、高地物復雜度、高類間相似 和類內差異性等特點構建專用的方法和策略。楊建 宇等人(2019)利用遙感圖像的光譜和空間特征信 息基于 SegNet(Badrinarayanan 等, 2017)對遙感圖 像中的農村建筑物覆蓋區域進行提取。類似地,考 慮到編碼器-解碼器結構在訓練數據較少情況下的 有效性和魯棒性,研究人員(徐昭洪等, 2019; 蘇健 民等, 2019)改進了網絡結構,并成功應用到建筑物 分割和地物要素分類中。針對編碼器結構中特征分 辨率降低,有效感受野不足以及語義上下文信息較 為薄弱地問題,一些學者針對性進行了相應地研究 工作。廖旋等人(2019)在遙感序列圖像和多視角 圖像地地物要素提取問題中,提出將圖像的分割先 驗與模型深層特征相融合的策略,解決序列圖像前/ 背景的分割歧義和分割一致性問題。洪亮等人 (2020)基于面向對象圖像分析方法,引入了局部 方差準則,通過對全局分割和局部分割融合處理解 決遙感圖像的多尺度分割。 遙感任務往往存在較高的關聯性,例如,地物要 素分類任務與邊緣檢測任務以及高度估計任務和表 面法線估計任務等。不同任務的特征分布和類間差 異可以對相似任務提供一定程度上的促進作用,因 此,基于多任務集成方法被用來提升遙感目標要素 分類識別的性能。多任務集成方法源于多任務學習, 針對地物要素的編解碼結構,Wang 等(2020a)使 用共享編碼器從遙感圖像中提取特征,然后構建不 同的局部獨立的解碼器結構實現地物要素的分類、 邊緣提取與深度估計等,此外,邊緣提取的結果也 用于輔助其他任務的正則化約束。Zhang 等(2016) 面向具有多個光譜通道的高光譜圖像,通過探索其 光譜通道之間的相關關系,并將相鄰通道的相似性 約束用于不同類任務的模型訓練,來提升高光譜圖 像中目標的檢測精度。Li 等(2015)針對圖像中超 像素的生成和分類,利用多個不同任務的互補特征, 提升超像素的分類精度。 考慮到遙感數據通常包含多種數據源信息,多模 態數據中豐富的特征在大圖幅遙感場景應用范圍下 的目標要素分類任務中能夠帶來有價值的信息。因 此,研究遙感圖像中多種不同模態數據的特征提取 同樣成為了一個重要的研究方向。多模態學習的關 鍵問題是如何對多模態的數據和特征進行有效的聯 合學習。Mou 等人(2018)基于迭代的密集連接編 解碼卷積神經網絡提取多光譜數據和激光雷達數據 實現準確的邊界推斷和要素分類。Peng 等人(2020) 提出基于注意機制和密集連接網絡有效融合數字表 面模型信息和光譜圖像并獲得了更好的分割效果。 Zhao 等人(2020b)分別用兩個不同的編解碼網絡 提取光學和紅外影像的分割預測結果并融合,實現 了對最終預測精度的進一步優化。此外,一些方法 提出在不改變原有模型的基礎上,引入輔助的數據 或先驗信息作為額外的監督信息,在新的學習階段 與原有學習階段產生的結果進行融合,以進一步改 善模型的性能。例如,Sun 等人(2018)利用卷積神經網絡獲取多光譜數據的初次分割結果后,引入 數字表面模型信息,作為額外的空間信息,以多階 段聯合學習的方式進一步細化初次分割的結果,最 終得到更加精細化的分割效果。

2.4 遙感數據關聯挖掘

2.4.1 數據組織關聯

各類遙感數據由于位置、尺度等差異,在各種投 影坐標系統和球面格網系統中會存在顯著的不同。 不同數據集在多樣化的空間參考框架下,難以在空 間上進行關聯,給統一時空框架下各類數據的關聯 分析帶來困難。 針對上述問題,Wu 等人(2013)提出了一種地 球系統空間格網(Earth System Spatial Grid, ESSG) 的概念,實現多源數據在多空間參考、多尺度等條 件下的關聯。Deng 等人(2015)提出了一種基于全 球剖分網格 GeoSOT 的多源遙感數據空間關聯方 法,該方法同時考慮了遙感數據本身的特性與 GeoSOT 剖分網格所具有的無縫無疊、多尺度的特 性,根據剖分網格將遙感數據塊做統一的劃分和組 織,從而實現多源遙感數據的結構化關聯。

2.4.2 專業知識圖譜構建

專業知識圖譜通常用于輔助各種復雜的分析應 用或決策支持,高精度的知識圖譜有利于幫助應用 取得更好地效果。面向特定應用領域的專業知識圖 譜中實體通常屬性復雜,其重點在于如何更精確的 識別、提取和關聯特定領域的實體。 Sun 等人(2018)基于最大熵模型實現對中文命 名實體的抽取。傳統機器學習算法對中文實體識別 存在準確率低、泛化能力差的問題。為此,Wang 等 人 ( 2019 ) 將 基 于轉換器的雙向編碼表征 (Bidirectional Encoder Representations from Transformers, Bert)和神經網絡相結合,基于大規 模未標注預料預訓練模型提出了一種新的命名實體 識別方法。Wang 等人(2016)將深度置信網絡運用 于中文商務領域,提出了一種自動提取知識實體及 其相互關系的方法。在企業領域實體識別中,數據 集規模往往較小。Yang 等人(2021)在實體識別任 務前進行了詞嵌入預訓練,實現了面向企業動態風 險構建知識圖譜的功能。Zhou 等人(2021)提出了 一種基于 Bert 預訓練模型的全連接和卷積神經網 絡,面向教材和百度百科中的初中數學知識數據構 建了知識圖譜。知識圖譜也可以應用于自然災害應 急任務當中,Du 等人(2020)對災害應急中的事件、 應急任務、災害數據、模型描述方法等核心元素進 行了歸納與定義,設計了一種自然災害應急知識圖 譜構建方法。

2.5 遙感開源數據集和共享平臺

2.5.1 遙感領域開源數據集

隨著人工智能技術在遙感領域的深入發展,國內 相關的高校和科研機構陸續構建了一批高質量的遙 感圖像解譯數據集。 在場景分類領域,越來越多高分辨率場景分類數 據集相繼被提出。AID(Xia 等, 2017)是 2017 年由 武漢大學發布的遙感圖像分類數據集。其中包含 10000 幅圖像,空間分辨率為 0.5-8 米,涵蓋 30 類 地物要素,每類要素包括 220-420 幅圖像。 NWPU-RESISC45(Cheng 等, 2017)是 2017 年由西 北工業大學發布的遙感場景分類數據集,包含約 31500 幅圖像,空間分辨率為 0.2-30 米,涵蓋 45 類 地物要素,每類月 700 幅圖像。 在遙感圖像目標檢測領域,NWPU VHR-10 數據 集(Cheng 等, 2014)于 2014 年由西北工業大學發 布,包含 10 類常見的地物目標。該數據集共包含 800 幅高分辨率遙感圖像,目標標注方式為水平框 標注。西北工業大學發布另一個較大規模的是 DIOR 數據集(Li 等, 2020),DIOR 數據集包含 23463 個 圖像和 192472 個實例,覆蓋 20 個常見目標類別。 數據集中圖像大小為 800×800 像素,空間分辨率為 0.5m-30m,標注方式依然為水平框標注。武漢大學 發布了包含 15 類目標的 DOTA 數據集(Xia 等, 2018),包含從 Google Earth 在內多個平臺上采集 的圖像,圖像的尺寸為 800-4000 像素不等,標注方 式為帶方向的旋轉框標注方式。高分辨率 SAR 艦船 檢測數據集(AIR-SARShip)(Xian 等, 2019)發布 3000 余幅圖像,圖像分辨率包括 1m 和 3m,成像模 式包括聚束式和條帶式,極化方式為單極化,場景 類型包含港口、島礁、不同等級海況的海面,目標 覆蓋運輸船、油船、漁船等十余類近千艘艦船。以 上數據集都是針對通用目標檢測提出的數據集,為 推進高分辨率遙感圖像解譯算法由檢測定位向精細 分類發展,近期,中國科學院空天信息創新研究院 牽頭,聯合廈門大學、德國卡爾斯魯厄理工學院等 國內外高校,發布了面向目標細粒度識別的大規模 遙感圖像數據集 FAIR1M(Sun 等, 2021),數據集 標注的實例數量超過 100 萬,目標實例涵蓋了來自 全球百余個城市、鄉村、機場、港口等場景中各種 角度、尺度的典型目標。 在地物要素提取方面,GID(Tong 等, 2020)是一個用于土地利用和土地覆蓋分類的數據集,包含 來自中國 60 多個不同城市的 150 幅高質量圖像,覆 蓋面積超過了 5 萬平方公里。iSAID 數據集(Waqas Zamir 等, 2019)是由武漢大學發布的包含 15 類地 物要素標注的數據集。此外,還有針對于水體、建 筑等單類典型目標提出的數據集。 2.5.2 開源平臺、社區和競賽 數據集的發展有效促進了國內學者科研技術的 發展,各個方向上都涌現出了大量優秀的算法。為 了將這些優秀的算法成果發揮出更大的價值,國內 科研院所和機構積極推動開源平臺和開放競賽的建 設。 OSGeo 中國中心是地理空間領域開源的技術、 數據、知識共享平臺,其鏈接了多個科研項目網站, 同時網站上還集成了大量的在線科學計算工具,包 括地理、測繪、電力、物理、化學、環境、大氣、 農業、機械、建筑等。在科研創新方面,依托武漢 人工智能計算中心的算力,武漢大學打造了遙感專 用框架 LuojiaNet,針對大幅面、多通道遙感影像, 在整圖分析和數據集極簡讀取處理等方面實現了技 術突破。 在競賽方面,“天智杯”人工智能挑戰賽、“昇 騰杯”遙感影像智能處理算法大賽、全國人工智能 大賽、高分遙感智能解譯大賽等國內研究機構舉辦 的比賽也在如火如荼的開展。其中,由中科院空天 院聯合 IEEE GRSS 和 ISPRS 兩個國際學術組織舉 辦的高分遙感圖像解譯大賽(Gaofen Challenge)已 經面向國際開放參賽,五年間吸引來自全球 20 多個 國家的 3000 余隊伍參加,推動創新人才培養和科研 隊伍建設,促進了高分領域技術交流合作和應用轉 化。

3 國內外研究進展比較

3.1 遙感數據精準處理

基于人工智能開展遙感圖像精細化處理研究,研 究思路大致分為兩類,一是改進傳統成像算法,基 于深度學習的 SAR 成像算法可以簡化成像過程,得 到高質量聚焦圖像;二是將已有的低分辨率的遙感 圖像通過基于機器學習的超分辨率重建技術得到高 分辨率高信噪比圖像。國外已經開展了基于深度學 習改進遙感圖像成像算法方面的研究工作,國內相 關研究工作開展較少,更多研究工作集中在遙感圖 像超分辨率和高質量重建方面。在超分辨率重建方 面,國內和國際上解決思路和研究途徑基本一致; 在去云去霧去噪方面,國內結合星載光學實際數據 開展的工作相對更為豐富。 深度學習等人工智能方法具有很好的特征提取 和特征表達能力,基于深度學習網絡實現特征提取 和特征描述,進而定量化提升遙感圖像幾何精度已 經成為主流研究思路,國內外學者研究思路和進展 基本一致。受傳統特征檢測器啟發,基于卷積神經 網絡的特征提取在全監督、半監督和無監督環境下 提取特征點。這種優勢在遙感圖像配準精度提升方 面具有很大的潛力。但是,基于深度學習的方法也 面臨一些亟待解決的新問題。比如無監督學習中多 時相場景存在成像條件差異大等難點 (尺度變換、 灰度變化、局部畸變和噪聲影響等),在有限數據集 支撐下很難全面解決上述難點。針對這一問題,國 外學者提出了一個以孿生網絡為基礎的框架,從目 前研究進展來看,基于該基礎框架有望解決困難條 件下遙感圖像匹配問題,并在次基礎上拓展出更多 的成果。

3.2 遙感數據時空處理與分析

受益于深度學習的快速發展于國產遙感對地觀 測體系的逐步建設,國內的遙感數據時空處理于分 析已經緊跟甚至在某些領域超越國際水平。然而, 從遙感時空處理與分析的數據源來說,國內的相關 研究也表現出獨有的特色。(1)遙感數據源的質量; 受衛星傳感器設備成像水平與衛星平臺定軌定姿水 平的限制,國產衛星數據的幾何定位和輻射光譜質 量均低于國際水平,這給后續的數據時空處理與分 析帶了更大的挑戰。(2)遙感數據的時相;相對于 國際衛星(如 Landsat 與 Sentinel 系列),國產衛星往 往難以保持相對穩定的重返周期,造成多時相遙感 數據時間間隔的混亂;(3)遙感時空處理與分析的 場景;從農業應用場景來說,面向我國西南山地復 雜耕作環境與多云雨天氣條件,我國作物生長監測 對時空重建數據要求更高的時空分辨率。這些條件 都在一定程度上制約了智能遙感算法在國產遙感數 據上的適用,但不可否認的是其也促進了國內遙感 時空處理與分析水平的提升。

3.3 遙感目標要素分類識別

隨著深度學習的發展,對遙感目標要素分類識別 提出了更高的要求。遙感大數據場景下,獲取數據 的載荷手段更加豐富,但不同類型載荷獲取的數據 其成像機理、特征分布、表觀特性等差異顯著,且 遙感探測手段覆蓋范圍廣、場景復雜、地物要素類 別多樣、目標尺度差異大、表觀特征變化復雜,導致不僅不同類別目標的特征差異大,同類目標在不 同載荷數據中呈現的特征也差異明顯。典型的地物 要素提取方法,包括遙感數據和要素特性分析方法 和遙感專用模型構建方法,存在著較大的局限性, 已經無法滿足當前遙感目標要素分類識別的要求。 目前,國內外均展開了對多要素信息并行提取方面 的相關研究,相比國外研究工作,部分國內相關研 究工作開展了基于國產遙感數據的研究,并取得了 不錯的成果。此外,現有方法或模型的創新思路主 要依賴數據、模型簡單疊加或融合,難以從根本上 解決多要素聯合學習的問題,發展基于多目標多任 務特征共享的遙感目標要素分類識別方法,成為了 國內外研究學者的研究熱點。

3.4 遙感數據關聯挖掘

國內外研究現狀表明數據關聯技術已然被主要 應用在機器理解和大規模異構信息語義集成與互操 作等領域方面。領域知識圖譜在部分專業方向取得 了較為成功的研究成果和應用,但在遙感應用領域, 領域知識仍存在著系統化不足、結構化表示困難等 問題,同時在深度推理和靈活性也存在著一定的阻 礙。盡管當前基于遙感數據、全球化專題圖的研究 效果越來越好,數據仍存在著被零散應用,僅用于 特定區域的特定專題,無法構成知識體系,無法實 現知識積累、更新和優化等一系列問題。 3.5 遙感開源數據集和共享平臺 在開源數據集方面,在深度學習發展初期,國外 的遙感開源數據集相對來說發展更快,但基本也是 圍繞一些較基礎的任務,目標類別及傳感器類型較 單一。隨著國內科技的發展,西北工業大學、武漢 大學、中科院空天院等高校/科研機構也積極致力于 開源數據集的建設,在目標類別、任務類型、樣本 規模等方面持續創新。 在共享平臺方面,國內外積極推進科學技術成果 的應用轉化,致力于建設開放、共享的解譯平臺, 打通人工智能技術在該領域從學術研究、系統研發、 成果應用到持續改進的完整應用鏈路,實現產學研 協同推進的良好遙感智能生態環境。此外,國內的 研究機構也在積極將國產化技術引入開源平臺中, 打破國外技術壟斷現象。

4 發展趨勢與展望

4.1 遙感數據精準處理

隨著近幾十年遙感衛星的蓬勃發展,遙感數據精 確處理技術迎來了高速發展,光學和微波遙感數據 成像處理和定標校正的精度大幅提高,圖像產品分 辨率提高 1 個數量級、幅寬提高 1-2 個數量級、幾 何定位精度優于 10 米、輻射精度優于 1dB(微波) /10%(光學)。然后,基于精確模型和參數測量的 方式仍需要耗費大量的人力物力和時間成本,一星 一議的處理和定標模式制約了協同應用能力提升。 現有技術探索驗證了通過人工智能技術實現高精度 遙感數據處理的可行性,通過構建與成像數據獲取 和誤差影響機理相適應的神經網絡,通過大量歷史 數據和標注結果訓練學習,正向/逆向逼近地物物理 信息和成像數據特征之間的映射關系,并通過結果 循環迭代實現網絡模型與傳感器狀態的動態一致、 實現圖像質量的持續提升。

4.2 遙感數據時空處理與分析

隨著智能計算于遙感大數據技術的發展,遙感數 據時空處理于分析的發展區域主要集中體現在以下 幾個方面: (1)多源多模態遙感數據的協同分析;遙感大 數據提供了豐富的數據源,這些數據往往具有不同 的時間、空間、波譜等優勢,如何發揮多源數據的 聯合優勢,是當前遙感時空分析的重點發展方向。 (2)對遙感機理的探究;當前智能計算方法多 源于統計學習領域,因此其對遙感輻射傳輸機理的 探究和利用相對較少,這在一定程度上限制了方法 性能的提升;因此加強對遙感過程的理解與模擬, 將遙感機理融入智能計算過程將提升遙感時空處理 與分析的能力。

4.3 遙感目標要素分類識別

現有的研究工作雖能一定程度上實現在同一模 型框架中同時提取或解譯對多類地物要素,然而其 本質上仍主要以提升時間或空間代價,來提升模型 對于多類要素的泛化能力。在實際應用中面臨的多 載荷、多要素、多任務聯合解譯場景中,我們所面 臨的問題更加復雜,因此探索新的模型框架和特征 表征方式,尤其是針對多任務、多模態一體化聯合 學習成為未來遙感目標要素分類識別領域的發展趨 勢。

4.4 遙感數據關聯挖掘

機器理解和大規模異構信息語義集成與互操作 等應用場景不斷證實遙感影像數據挖掘具有廣闊的 應用前景。但存在的一些問題仍有待進一步研究: ①如何直接從數字圖像上建模數據挖掘模型,在空 間圖形和圖像數據上實現一體化的管理及操作勢在 必行。②隨著新型遙感衛星的增多,衛星數據也相應持續增多。同時用戶在海量的衛星數據中尋找需要 的數據會耗取大量的時間。如何基于內容快速查詢 檢索,從而提供高效的可視化數據挖掘環境顯得十 分重要。③遙感數據具有諸多特點,使用單一技術 對其進行處理可能存在知識漏缺的風險。因此在對 遙感數據分析時,盡可能的融合多種不同空間數據 挖掘技術對遙感數據進行分析有利于解決漏缺隱含 知識的難題。④“維數災難”現象阻礙了高維數據 的索引及聚類的發展。對于大規模高維空間而言, 應開發自適應無參數的聚類算法,而不是人為確定 聚類算法的輸入參數。同時通過高效的索引技術來 提高空間數據的處理效率也極為重要。

4.5 遙感開源數據集和共享平臺

當前,隨著計算機視覺領域的興起,遙感領域的 開源數據集和共享平臺也快速發展起來。相比于自 然場景,遙感數據具有其獨特的屬性。多分辨率、 多要素、多時相、多傳感的特性使得遙感圖像智能 解譯更具有挑戰性。因此,在了解空天大數據特點 的基礎上,構建適合本領域的智能模型、方法和解 譯系統,是充分發揮空天大數據效益的有效途徑。 未來要繼續依托于這些獨特屬性,做更適合遙感的 數據和平臺。

付費5元查看完整內容

隨著遙感(RS)技術的飛速發展,大量具有復雜的異質的地觀(EO)數據的出現,使得研究人員有機會以一種全新的方式處理當前的地球科學應用。近年來,隨著地觀數據的聯合利用,多模態遙感數據融合的研究取得了巨大的進展,但由于缺乏對這些強異構數據的綜合分析和解釋能力,這些已開發的傳統算法不可避免地遇到了性能瓶頸。因此,這一不可忽視的局限性進一步引發了對具有強大加工能力的替代工具的強烈需求。深度學習(Deep learning, DL)作為一項前沿技術,憑借其出色的數據表示和重構能力,在眾多計算機視覺任務中取得了顯著的突破。自然,該方法已成功應用于多模態遙感數據融合領域,與傳統方法相比有了很大的改進。本研究旨在對基于深度學習的多模態遙感數據融合進行系統的綜述。更具體地說,首先給出了關于這個主題的一些基本知識。隨后,通過文獻調研分析了該領域的發展趨勢。從擬融合數據模態的角度,綜述了多模態遙感數據融合中的一些流行子領域,即空間光譜、時空、光探測和測距光學。從融合數據模態的角度,綜述了多模態遙感數據融合的幾個子領域,即空間光譜、時空、光探測與測距-光學、合成孔徑雷達-光學、RS-地理空間大數據融合。在此基礎上,對多模態遙感數據融合技術的發展進行了有益的總結。最后,強調了剩余的挑戰和潛在的未來方向。

引言

由于RS在觀測地球環境方面的優勢,在各種EO任務中發揮著越來越重要的作用(Hong et al., 2021b; Zhang et al., 2019a)。隨著多模態RS數據的可用性不斷增加,研究人員可以方便地訪問這些數據,這適合于現有的應用。盡管有大量的多模態數據可用,但每個模態幾乎不能捕捉到一個或幾個特定的屬性,因此不能完全描述觀測到的場景,這對后續應用造成了很大的限制。自然,多模態遙感數據融合是突破單模態數據困境的一條可行途徑。通過整合從多模態數據中提取的互補信息,可以在許多任務中做出更穩健可靠的決策,如變化檢測、LULC分類等。與多源、多時相遙感不同,“模態”一詞一直缺乏明確、統一的定義。

基于深度學習的多模態遙感數據融合

本文在前人研究(G′omez-Chova et al., 2015; Dalla Mura et al., 2015)。遙感數據的主要特征有兩個主要因素,即傳感器的技術規格和實際采集條件。具體來說,前者決定了產品的內部特征,如成像機理和空間、光譜、輻射、時間等領域的分辨率。后者控制外部屬性,如采集時間、觀測角度、安裝平臺等。因此,上述因素有助于描述所捕獲的場景,可以被描述為“模態”。顯然,多模態遙感數據融合包括多源數據融合和多時數據融合。

一些典型的RS模態包括Pan、MS、HS、LiDAR、SAR、紅外、夜間燈光和衛星視頻數據。最近,GBD作為RS家族的新成員,在EO任務中受到越來越多的關注。為了整合這些模態提供的互補信息,傳統方法已經被深入研究,基于領域特定知識設計手工特征和利用粗糙融合策略,這不可避免地削弱了融合性能,特別是對于異構數據(Hong et al., 2021a)。隨著人工智能的發展,數字學習通過自適應的自動實現特征提取和融合,在為輸入和輸出數據之間的復雜關系建模方面顯示出巨大的潛力。因此,本文將重點介紹在每個融合子領域提出的方法,并簡要介紹每個模態和相關任務。 目前,有一些關于多模態數據融合的文獻綜述,根據不同的模態融合,綜述如表2所示。現有文獻對多模態遙感數據融合的發展方向關注較少,或只涉及少數子領域,缺乏對這一主題的全面、系統的描述。本研究的目的是全面回顧基于數據挖掘的多模態遙感數據融合研究的熱點領域,進一步推動和促進這一新興領域的相關研究。第二節收集和分析了與本課題相關的文獻,第三節闡述了多模態RS數據融合的代表性子領域。在第四節中,給出了一些有用的教程、數據集和代碼。最后,第五節提供了關于挑戰和前景的評論。為方便讀者,表1列出了本文使用的主要縮寫。

本文將現有的融合方法分為兩大類,即同質融合和異質融合。同質融合包括pansharpening、HS pansharpening、HS- ms和時空融合,異構融合包括HS-optical融合、SAR-optical融合和RS-GBD融合。由于上述子領域的發展差異很大,因此采用不同的標準來引入每個子領域,如圖5所示。為了方便讀者,我們還在每個方向列出了一些經典文獻。

日益增多的多模態遙感數據對地觀任務既是挑戰,也是機遇。近年來,雙方共同利用優勢互補的特點,取得了重大突破。特別是與人工智能相關的技術,由于其在特征提取方面的優勢,已經顯示出其相對于傳統方法的優勢。在上述遙感大數據和前沿工具的推動下,基于深度學習的遙感多模態數據融合成為遙感領域的一個重要課題。因此,本文對這一快速發展的研究領域進行了全面的介紹,包括文獻分析、系統總結了遙感融合研究的幾個主要子領域、現有的研究資源,并對未來的發展進行了展望。具體來說,我們重點研究了第二部分,即不同融合子領域中基于深度學習的方法,并從使用的模型、任務和數據類型等方面進行了詳細的研究。最后,令人鼓舞的是,近年來DL已經應用到多模態遙感數據融合的各個領域,并取得了巨大而有前景的成果,這為研究者今后進行深入研究提供了更多的信心。

付費5元查看完整內容
北京阿比特科技有限公司