摘要:深度學習極大地推動了遙感圖像處理技術的發展,在精度和速度方面展現了顯著優勢。然 而,深度學習模型在實際應用中通常需要大量人工標注的訓練樣本,且其泛化性能相對較弱。近 年來,視覺基礎模型和大語言模型的發展為遙感圖像處理的大模型研究引入了新的范式。遙感大 模型也稱為遙感基礎模型,基礎模型因其在下游任務中的卓越遷移性能而備受矚目,這些模型首 先在大型數據集上進行與具體任務無關的預訓練,然后通過微調適應各種下游應用。基礎模型在 語言和視覺及其他領域已經得到了廣泛應用,其在遙感領域的潛力也正逐漸引起學術界的重視。 然而,目前針對這些模型在遙感任務中的全面調查和性能比較仍然缺乏。由于自然圖像與遙感圖 像之間存在固有差異,這些差異限制了基礎模型的直接應用。在此背景下,本文從多個角度對常 見的基礎模型以及專門針對遙感領域的大模型進行了全面回顧,概述了最新進展,突出了面臨的 挑戰,并探討了未來發展的潛在方向。
關 鍵 詞:遙感基礎模型;微調;下游任務;預訓練
摘要—— 作為機器人學和具身智能的關鍵前沿,機器人操作需要精確的運動控制,以及在動態環境中對視覺與語義線索的綜合理解。傳統方法依賴預定義的任務規范和僵化的控制策略,往往難以在非結構化、全新場景下擴展或泛化。近年來,基于大規模視覺-語言模型(VLMs)的視覺-語言-動作(VLA)模型逐漸成為一種變革性的范式。這類模型利用大規模 VLMs 在開放世界泛化、層級任務規劃、知識增強推理以及多模態融合方面的能力,使機器人能夠理解高層指令、識別未知環境并執行復雜的操作任務。本綜述首次從系統化、面向分類法的角度,對用于機器人操作的大規模 VLM 驅動 VLA 模型進行全面回顧。我們首先明確界定大規模 VLM 驅動的 VLA 模型,并劃分出兩類核心體系結構范式:(1)單體式模型,涵蓋單系統與雙系統設計,二者在集成程度上有所差異;(2)分層式模型,顯式地通過可解釋的中間表示將規劃與執行解耦。在此基礎上,我們深入探討大規模 VLM 驅動的 VLA 模型:(1)其與強化學習、免訓練優化、人類視頻學習以及世界模型集成等前沿領域的結合;(2)其獨特特征的綜合,包括體系結構特點、操作優勢,以及支撐其發展的數據集和基準;(3)未來的研究方向,包括記憶機制、四維感知、高效適應、多智能體協作以及其他新興能力。本綜述整合了近期進展,旨在彌合現有分類法的不一致性,緩解研究碎片化,并通過系統性地整合大規模 VLM 與機器人操作交叉領域的研究,填補關鍵空白。我們提供了一個定期更新的項目主頁以記錄最新進展://github.com/JiuTian-VL/Large VLM-based VLA for Robotic Manipulation。 關鍵詞—— 視覺-語言-動作模型,機器人操作,具身智能,大規模視覺-語言模型
機器人操作(Robotic Manipulation)處于機器人學與具身人工智能交匯處的關鍵挑戰 [1]–[5]。其實現不僅需要精確的運動控制,還需要對復雜動態環境中的多樣化視覺與語義線索具備深刻理解。機器人操作在諸多領域展現出廣泛應用價值,包括先進制造、高效物流、精準醫療和多樣化的家庭服務 [6]–[8]。傳統的操作方法 [9]–[16] 主要依賴精心設計的控制策略和嚴格預定義的任務規范。然而,這些方法在非結構化的真實世界場景中往往表現不佳——尤其是在面對新穎物體、模糊的自然語言指令或此前未見的環境配置時,暴露出其在可擴展性與泛化能力方面的固有限制。 近年來,大規模視覺-語言模型(Vision-Language Models, VLMs)[17]–[25] 崛起為一種變革性范式。基于大規模網頁級圖文數據集的預訓練,大規模 VLM 展現出卓越的能力,能夠彌合視覺感知與自然語言理解之間的語義鴻溝。這種創新能力使 VLM 不僅能結合文本描述理解復雜視覺場景,還能超越單純的目標識別,形成整體的上下文理解。大規模 VLM 與機器人系統的結合催生了一類新模型:基于大規模 VLM 的視覺-語言-動作(Vision-Language-Action, VLA)模型 [26]–[32]。如圖 1 所示,這一新興范式展現出克服傳統機器人流水線根本局限的巨大潛力。它使機器人能夠理解高層次的人類指令、泛化至未知物體與場景、推理復雜的空間關系,并在動態、非結構化環境中執行復雜的操作任務。例如,一個 VLA 模型可以完成如下指令:“把紅色的杯子從筆記本電腦旁邊放到最上層的架子上”,這一任務需要視覺定位、空間推理與序列動作規劃的復雜融合。 在本研究中,基于對近期工作的廣泛回顧 [26]–[37] 及對該領域的深入理解 [38]–[43],我們提出了一個一致性的定義:大規模 VLM 驅動的 VLA 模型是指能夠(1)利用大規模 VLM 理解視覺觀測和自然語言指令;并且(2)通過推理過程直接或間接地服務于機器人動作生成的模型。我們進一步將其劃分為兩大類(見圖 2 與圖 3): * 單體式模型(Monolithic Models)(圖 3 左):包括單系統與雙系統實現。
單系統模型 [26], [27], [44], [45] 在統一架構中集成了環境理解(包括視覺感知、語言理解與機器人狀態感知)與動作生成。 * 雙系統模型 [29]–[32] 則采用 VLM 作為場景解釋的骨干網絡,并由一個動作專家負責動作生成,二者通過潛在表示的傳播進行信息交互。 * 分層式模型(Hierarchical Models)(圖 3 右)[46]–[50] 明確將規劃與策略執行解耦。它們區別于雙系統的端到端方法,具有以下特征:
結構化的中間輸出:規劃模塊生成可解釋的表示(如關鍵點檢測、可供性圖、軌跡提案),隨后由策略模塊處理以生成可執行的動作。 1. 解耦的訓練范式:通過專門的損失函數或 API 驅動的交互,實現對層級模塊的獨立優化。
這種分類法凸顯了 VLA 模型開發中的關鍵設計維度,尤其是系統集成的粒度與認知分解的顯式程度,同時保持與現代表征學習范式的緊密聯系。 在上述定義與分類的框架下,我們的全面綜述揭示了新興 VLA 領域中的若干關鍵缺口,其整體組織結構如圖 2 所示。首先,該領域的術語與建模假設尚不一致,研究工作分散在機器人學、計算機視覺與自然語言處理等學科。其次,已有綜述往往僅聚焦于 VLMs [51]–[55] 或機器人操作 [2], [56]–[59],缺乏對二者交叉所帶來的獨特挑戰與進展的綜合分析。因此,亟需一份系統性和原則性的綜述,以闡明大規模 VLM 驅動 VLA 模型的基礎,組織相關方法的空間,并勾勒該融合范式的未來方向。本綜述旨在填補這一空白。我們提供了結構化且深入的回顧,以全景視角推動學界更深刻的理解并激發未來的突破。
本文的主要貢獻總結如下: * 縱向綜述: 我們系統回顧了 VLM 的演化軌跡、操作學習的技術進展,以及大規模 VLM 驅動 VLA 范式的興起。同時,分析了單體式模型與分層式模型的發展,識別關鍵挑戰并展望未來方向。 * 橫向綜述: 我們提供了單體式與分層式模型更精細的比較性分類法,從結構與功能兩個維度展開分析。進一步探討了大規模 VLM 驅動 VLA 模型的前沿研究方向,強調其獨特特征與支撐發展的數據集。該綜述為理解該領域的發展與結構組織提供了概念性路線圖。
本文余下部分的組織結構如圖 2 所示:第二節介紹 VLM 演化與機器人操作基礎知識;第三節分析單體式模型,包括單系統與雙系統架構的優劣與權衡;第四節探討分層式模型,將其分為僅規劃器與規劃-策略框架,并進一步根據中間表示類型(子任務、關鍵點、程序等)細分;第五節討論其他前沿方法,包括基于強化學習的優化、免訓練方法、從人類視頻學習以及基于世界模型的方法;第六節分析大規模 VLM 驅動 VLA 模型的核心特征,涵蓋多模態融合、指令跟隨和多維泛化;第七節分類與分析相關數據集與基準,涵蓋模擬、真實世界與人類交互數據;第八節探討關鍵開放挑戰與未來研究方向;第九節給出結論。
摘 要: 隨著全球衛星星座建造持續升溫,數據量爆炸性增長與處理能力不足已成為制約商業航天高質量發 展的痛點問題。人工智能與航天遙感技術的結合雖然帶動了遙感數據解譯效率提升,但仍未形成與人臉識別等類 似的實用化智能系統。航天遙感大模型具有通用化感知信息表達、融合、交互與生成能力,有望大幅提升遙感產品 自動化生產水平,打造航天遙感產業新質生產力。以航天遙感大模型的技術發展為主線,總結當前航天遙感大模 型的行業研究進展,展望其在自然資源監測、災害應急響應、軍事情報分析等領域的應用前景。針對數據、人才、算 力等方面,分析航天遙感大模型面臨的產業化挑戰與發展策略。
關鍵詞: 航天遙感;人工智能大模型;遙感智能解譯;產業化應用
摘要
近年來,我們見證了通用模型在自然語言處理領域的巨大成功。通用模型是一種以海量數據進行訓練的通用框架,能夠同時處理多種下游任務。在其卓越性能的激勵下,越來越多的研究者開始探索將這類模型應用于計算機視覺任務。然而,視覺任務的輸入與輸出形式更加多樣化,難以將其歸納為統一的表示形式。本文對視覺通用模型進行了全面綜述,深入探討了其在該領域中的特性與能力。我們首先回顧了相關背景,包括數據集、任務類型以及評測基準。隨后,我們梳理了現有研究中提出的模型框架設計,并介紹了用于提升模型性能的關鍵技術。為了幫助研究者更好地理解該領域,我們還簡要探討了相關研究方向,揭示了它們之間的關聯性與潛在協同作用。最后,我們列舉了一些真實世界的應用場景,深入分析了當前尚存的挑戰,并對未來的研究方向提出了有益的見解。
關鍵詞:基礎模型 · 計算機視覺 · 多任務學習 · 多模態數據 1 引言
作為一種智能系統,人類大腦能夠從不同的輸入模態中感知信息,并能同時處理多種任務。類似于人類,在深度學習領域中,通用模型(generalist model)【Bae et al. (2022); Huang et al. (2023b); Jaegle et al. (2021a); Shukor et al. (2023)】是一種能夠在無需為特定任務進行定制設計的前提下處理多種任務的通用框架。近年來,得益于大數據的強大驅動,大語言模型(LLMs)【Devlin et al. (2018); Ouyang et al. (2022); Peters et al. (2018)】在自然語言處理(NLP)領域中展現了通用模型的巨大成功。 然而,與 NLP 不同,視覺任務的輸出格式更加多樣且復雜。例如,傳統的分類方法【He et al. (2016a); Russakovsky et al. (2015)】只需輸出圖像或點云的類別,而目標檢測模型則需進一步定位目標,其輸出為邊界框(bounding boxes)。分割模型則需生成像素級的語義掩碼。因此,對于視覺通用模型(Vision Generalist Models, VGM)【Hu and Singh (2021); Zhang et al. (2023c); Zhu et al. (2022c)】而言,設計一個能夠適配廣泛視覺下游任務的系統至關重要。 與傳統神經網絡相比,通用模型通常擁有數十億個參數,并以海量數據進行訓練,因而具備傳統方法所不具備的諸多優秀特性。具體而言,視覺通用模型具備以下優勢: 1)零樣本多任務遷移能力(Zero-shot Multi-task Transfer)
傳統方法往往為不同任務采用各自的任務特定框架,而多任務學習方法【Sener and Koltun (2018); Yu et al. (2020); Zhang and Yang (2021)】雖能同時處理多個任務,卻難以在未經微調的情況下泛化到新的數據集。而通用模型在以任務無關的大規模數據預訓練后,能夠學習到通用表征,可直接擴展至多種下游任務,并具備零樣本遷移能力,無需額外適配器進行微調,從而實現真正的通用感知(general perception)。 2)多模態輸入(Multimodality Inputs)
通用模型的一大特性是能夠接收來自不同模態的數據作為輸入。由于各模態間存在巨大差異,統一編碼為特征表示極具挑戰。例如,圖像為規則的二維矩陣,而點云則是無序的三維向量。這兩類數據所使用的編碼器也不同:分別為二維卷積與三維稀疏卷積【Graham et al. (2018); Yan et al. (2018)】。除了視覺信號,還需考慮文本、音頻等其他模態,這進一步增加了處理難度。得益于 Transformer 架構【Vaswani et al. (2017b)】,部分工作將多模態輸入統一為一系列 token 表示。 3)強大的表征能力(Great Representation Ability)
現有的通用模型往往擁有數十億個參數。盡管計算代價高昂,但龐大的參數規模顯著提升了模型的表征能力。多任務和多模態輸入之間能夠相互促進,進一步增強模型性能。 4)大數據的賦能(Power of Big Data)
大數據為模型訓練提供了豐富的知識。例如,ChatGPT【Ouyang et al. (2022)】使用約 45TB 的文本數據進行訓練。從不同模態和領域采集的大規模數據提升了樣本多樣性,從而增強了模型的泛化能力。大規模數據集【Chen et al. (2015); Krizhevsky et al. (2012)】涵蓋了眾多極端情況,有助于模型在復雜場景中穩定工作。 盡管視覺通用模型優勢顯著,但仍面臨若干挑戰: 1)框架設計(Framework Design)
通用模型的核心技術在于如何設計一個能夠統一處理多種下游任務的框架。雖然已有一些工作【Hu and Singh (2021); Zhang et al. (2023c); Zhu et al. (2022c)】嘗試解決這一問題,但目前尚未形成標準化的流程。因此,建立統一的視覺通用模型范式仍是當前最亟需解決的挑戰。 2)數據獲取(Data Acquisition)
通用模型的訓練依賴于海量數據。在 NLP 領域,大量帶標簽的文本數據可從網頁中獲取;而在計算機視覺中,網絡上的大多數視覺數據并未標注,獲取標簽代價高昂且耗時。有些研究【Kirillov et al. (2023b); Ouyang et al. (2022)】提出了針對特定任務的數據自動標注方法,但如何針對不同任務與模態實現自動化標注仍是一個尚未深入探索的問題。 3)倫理風險(Ethical Risks)
與大語言模型類似,視覺通用模型也面臨倫理風險。在生成任務中,模型可能產生包含個人或敏感信息的內容,例如深度偽造視頻【Güera and Delp (2018); Westerlund (2019)】;在判別任務中,訓練數據中的無意識偏見可能會影響模型判斷;此外,不當或非法數據的使用還可能引發法律問題。 在過去兩年中,我們已見證通用模型在多個深度學習方向中的成功。隨著神經網絡架構的不斷發展,越來越多的研究致力于構建能夠實現通用感知的模型。盡管通用模型已引發廣泛關注,但尚缺乏一篇系統性綜述來全面總結這一熱門方向,因此我們撰寫了本文。 本綜述的主要目的包括: 1. 對相關研究文獻進行系統梳理,幫助研究者快速入門; 1. 總結現有方法的局限與挑戰,并指出未來可能的研究方向; 1. 理清視覺通用模型與其他相關領域的聯系與差異。
在相關工作方面,Awais 等人(2023)提供了一份關于視覺基礎模型的綜述。盡管視覺基礎模型與通用模型同樣是在大規模數據上進行訓練,并能接收多模態輸入,但通用模型還具備處理多任務的強泛化能力,而基礎模型在適應下游任務時通常需要針對特定數據集進行微調,限制了其實用性。因此,我們的綜述與 Awais 等人的工作在概念上存在顯著差異,我們更加專注于總結通用模態感知與通用任務處理能力。 相比之下,另一篇綜述【Li et al. (2023b)】從更宏觀的視角出發,探討了多模態基礎模型的分類與演進,包括統一視覺模型、大語言模型及其在多模態智能體中的應用。而本文則更聚焦于視覺通用模型(VGM)這一子領域,深入剖析其框架設計與關鍵技術。 我們將本文組織為六個部分,以系統梳理視覺通用模型的發展,如圖 1 所示: * 第2節:介紹 VGM 常用的任務類型、數據集與評測基準; * 第3節:深入分析 VGM 的框架設計,包括編碼器驅動方法與序列到序列框架; * 第4節:總結應對多領域輸入、模型設計和多任務輸出的關鍵技術; * 第5節:探討 VGM 與相關領域的聯系,尤其是多任務學習、視覺-語言學習與開放詞表學習; * 第6節:展示 VGM 的真實應用場景,并討論其面臨的挑戰與未來發展方向。
我們希望本綜述能為研究者和從業者提供一份關于視覺通用模型的系統性參考資料,助力其在這一快速發展的研究領域中取得突破。
摘要—時空數據在交通、氣象、能源等諸多現實世界領域中日益增長。時空深度學習模型旨在利用這類數據中的有用模式,支持預測、補全、異常檢測等任務。然而,傳統面向特定任務的一對一深度學習模型通常需要針對每個用例單獨訓練,導致計算和存儲成本顯著增加。為了解決這一問題,近年來出現了一對多的時空基礎模型,它們提供了一個統一的框架,能夠同時解決多種時空任務。這類基礎模型通過在時空數據中學習通用知識,或遷移預訓練語言模型的通用能力,取得了顯著成功。盡管已有綜述分別探討了時空數據和方法,但對基礎模型的設計、選擇、預訓練與適應過程尚缺乏系統性的審視。因此,時空基礎模型的整體流程仍不清晰。 為彌補這一空白,本文創新性地從流程視角出發,系統回顧了現有的時空基礎模型。我們首先介紹了不同類型的時空數據,隨后詳述了數據預處理與嵌入技術。在此基礎上,提出了一個新穎的數據屬性分類體系,根據數據來源與依賴關系對現有方法進行劃分,從而為研究者提供高效有效的模型設計與選擇參考。隨后,我們進一步闡述了原始模型的訓練目標以及遷移模型的適配策略。 總體而言,本文構建了一個清晰且結構化的流程框架,有助于理解時空基礎模型各核心要素之間的聯系,并為研究者快速入門提供指導。此外,我們還介紹了時空基礎模型領域中如多目標訓練等新興研究機遇,為研究人員和實踐者提供了寶貴的見解。
GitHub 倉庫://github.com/LMissher/AwesomeSpatio-Temporal-Foundation-Models 關鍵詞—基礎模型,時空數據,預訓練,適應方法。
時空數據正持續從交通、能源和氣象等多個現實世界領域中產生。這類數據天然地展現出隨時間演化的復雜時間特性以及跨區域的空間交互關系【1】。多種形式的時空數據(如軌跡數據、交通數據和視頻數據)在捕捉時空依賴關系方面面臨共通挑戰,需要專門的技術方法以有效提取其內在關聯。挖掘與分析這些時空關聯對于構建智能系統至關重要,使得現實應用能夠在規劃、推理、異常檢測等基礎任務中輔助決策。
近年來,隨著深度學習的發展,基于專用模型的一對一時空數據挖掘取得了顯著進展。這些方法主要依賴于順序建模和空間建模的神經網絡能力,如循環神經網絡(RNN)【2】、Transformer【3】、卷積神經網絡(CNN)【4】以及圖神經網絡(GNN)【5】。然而,面對多樣化的應用場景與任務類型,往往需要訓練大量任務專屬模型,帶來了巨大的計算資源消耗和存儲成本。 幸運的是,隨著自監督學習策略的提出以及“縮放定律”(scaling laws)【6】的發現,基礎模型(Foundation Models)在自然語言處理和計算機視覺領域被設計出來,可以通過高效的少樣本微調(few-shot)甚至無需訓練的零樣本提示(zero-shot prompting)來通用地解決多種任務【7】【8】。 在自然語言處理領域的基礎模型(如 ChatGPT)取得巨大成功之后,“一對多”的基礎模型理念被引入到時空領域,成為一條頗具前景的研究路徑。如圖1所示,時空基礎模型(Spatio-Temporal Foundation Models,STFMs)的目標是在單一的通用模型中學習通用的時空知識,從而應對多樣化的任務與應用,顯著降低對多個任務特定模型的依賴,減少訓練與存儲開銷。通過擴大時空數據的訓練規模,并利用通用的自監督學習目標來構建原始基礎模型,或遷移其他領域(如 NLP)的預訓練基礎模型所具備的通用知識構建遷移型基礎模型,現有的 STFMs 在多種任務中展現了優異效果,展現出統一框架推進該領域的巨大潛力。 盡管 STFMs 已取得明顯進展,但現有綜述仍面臨若干關鍵問題: 1. 數據與模型之間的聯系薄弱:如表 I 所示,盡管已有綜述對不同類型的時空數據進行了分類介紹,但往往忽視了數據對齊中的關鍵步驟(如嵌入技術),這使得時空數據如何有效對接基礎模型變得模糊。 1. 缺乏數據屬性視角:已有綜述大多采用粗粒度的 STFMs 分類方式(例如基于數據類型或深度學習方法),但未解釋為何相似方法被應用于具備共性的數據類型,忽略了從數據屬性出發進行模型選擇或設計的深入洞見。 1. 內容呈現零散:時空數據、基礎模型、訓練目標與遷移適應技術往往被孤立討論,導致無法系統理解在不同任務、數據集與實際場景中應選用哪些模型、目標與策略。
為解決上述問題,本文從“流程視角”出發,系統性地審視 STFMs 的整體開發與應用流程,從數據對齊與模型構想到訓練、適配再到實際應用,全面梳理工作流程。除了簡要介紹時空數據與可用數據集外,如圖2底部所示,我們詳細說明了數據預處理、嵌入技術及多種時空數據類型的輔助信息,從而完成 STFMs 流程中的第一階段:數據對齊。通過引入輔助信息與合適的預處理方式,可顯著提升數據質量,進而增強模型性能。此外,時空數據獨特的空間與時間依賴特性使其嵌入技術在與基礎模型的對接中扮演關鍵角色,是連接原始數據與模型輸入表示的重要橋梁。 STFM 流程的第二階段是基于多樣數據構建模型。為解決粗粒度分類帶來的混淆,我們提出了一種新穎的數據屬性分類體系(如圖2中部所示)。在該體系頂層,我們將 STFMs 分為兩類:原始模型與遷移模型,依據是否直接在原始時空數據上訓練,或是否由其他領域(如語言或圖像模型)遷移而來。此外,我們將原始模型按時間、空間、時空依賴進一步劃分;遷移模型則根據模態分為視覺類、語言類與多模態類。該分類體系基于數據來源與依賴關系進行細粒度建模,便于模型設計與選擇,并可擴展至其他數據類型。 STFM 流程的第三階段聚焦于原始模型的訓練目標與遷移模型的適配技術(如圖2頂部所示)。我們對這些方法進行深入分析,強調其在不同數據類型、任務或應用場景下的優勢與挑戰。 在流程的最后階段,我們總結 STFMs 在現實世界中的典型應用,如能源、金融、氣象、醫療、交通與公共服務等領域(圖1所示),展示其廣泛影響力。 通過逐步明晰的流程式解析,本文不僅理清了 STFMs 的核心組成要素,也揭示了它們之間的深層聯系,有助于模型的快速部署與高效落地。此外,表 I 顯示,現有綜述常常遺漏如關鍵數據類型、訓練目標和適配技術等核心內容,導致對 STFMs 的理解不夠全面。本文通過覆蓋最全面的關鍵要素,提供了一種更具整體視角的理解框架。 最后,我們還討論了 STFMs 當前所面臨的挑戰與未來發展機遇。
本文的主要貢獻總結如下:
全面且最新的綜述:本文提供了當前最系統的 STFMs 綜述,涵蓋數據類型、模型、訓練目標和適配技術等廣泛內容。 * 創新的數據屬性分類體系:我們提出了基于數據來源與依賴關系,從粗到細的 STFMs 分類方法,有助于高效模型設計與選擇。 * 首次基于流程視角的綜述:據我們所知,本文是首個從流程出發系統分析 STFMs 的綜述,有助于理解模型為何表現優越、如何構建。 * 未來研究方向的識別:我們總結了 STFMs 當前應用中的關鍵挑戰,并提出了未來研究的潛在機遇,激勵后續更先進模型的發展。
文章結構如下:第二節回顧時空數據的對齊過程;第三節探討原始基礎模型的設計與訓練目標;第四節深入分析遷移型基礎模型的選擇與適配技術;第五節介紹 STFMs 的典型應用場景;第六節識別新興研究機會與開放挑戰;第七節總結本文的關鍵內容。
摘要—遙感中的時序圖像分析傳統上集中于變化檢測,即識別在不同時間拍攝的圖像之間的變化區域。然而,變化檢測仍然局限于其對視覺層面解讀的關注,往往缺乏上下文或描述性信息。視覺-語言模型(VLMs)的興起為遙感時序圖像分析引入了一個新維度,通過將視覺信息與自然語言相結合,為時序圖像變化的高級解讀開辟了新的方向。遙感時序視覺-語言模型(RSTVLMs)允許動態交互,生成描述性字幕、回答問題,并提供對時序圖像更豐富的語義理解。這種時序視覺-語言能力對于復雜的遙感應用尤為重要,其中高層次的洞察力至關重要。本文全面回顧了RSTVLM研究的進展,重點介紹了最新的VLM在時序圖像分析中的應用。我們對核心方法、數據集和評估指標進行了分類和討論,突出了時序視覺-語言任務中的最新進展,并概述了該新興領域的主要挑戰和未來研究方向。本綜述填補了文獻中的關鍵空白,提供了RSTVLM的綜合概述,為遙感時序圖像理解的進一步發展奠定了基礎。我們將在//github.com/Chen-Yang-Liu/Awesome-RS-Temporal-VLM上持續追蹤相關工作。
關鍵詞—遙感,時序圖像理解,視覺-語言模型,大型語言模型。
I. 引言遙感技術通過衛星、無人機等各種平臺獲取地球表面的圖像信息【1】–【4】。它在環境監測、城市規劃、災害預警和評估等關鍵領域中發揮著重要作用【5】–【8】。早期的遙感圖像解譯主要集中于單時相圖像的分析,包括土地覆蓋分類【9】、物體檢測【11】【12】和語義分割【13】【14】等任務。然而,單時相圖像僅反映特定時刻的表面狀況,無法捕捉跨時間的動態變化。隨著遙感技術和設備的快速進展,獲取多時相遙感圖像的能力得到了顯著提高【15】–【17】。多時相遙感圖像提供了不同時間點下某些位置的表面特征信息,為地表變化的動態監測開辟了新途徑【18】【19】。這一時序維度至關重要,因為它使研究人員能夠分析隨時間變化的趨勢,從而對環境動態有更全面的了解。早期的時序圖像理解主要集中于變化檢測技術,通過比較不同時間段的圖像來定位變化區域,如植被覆蓋變化或新建筑物的出現【20】【21】。然而,變化檢測通常僅在視覺層面上檢測變化位置,缺乏對變化的更高層次語義理解,如變化對象的類型、變化過程中的狀態,以及對象之間的關系【22】–【24】。近年來,像Llava【25】和GPT-4【26】等視覺-語言模型(VLMs)取得了突破性進展,推動了多模態研究領域對視覺-語言模型的關注【27】–【29】。VLMs結合了計算機視覺和自然語言處理技術,能夠全面理解視覺和文本信息。與專注于單一圖像模態的視覺模型不同,VLMs不僅識別圖像中的目標對象,還理解它們之間的關系,生成描述性語言或回答問題。這一能力在遙感領域具有巨大的應用潛力【30】–【32】。在遙感領域,已有研究探討了各種視覺-語言模型,如圖像描述【33】–【36】、視覺問答(VQA)【37】–【40】、視覺問題生成【41】【42】、圖像檢索【43】–【45】和視覺定位【46】–【48】等。一些近期的研究探索了基于大型語言模型(LLMs)的遙感視覺語言模型,如RSGPT【49】、GeoChat【50】、H2RSVLM【51】、LHRS-Bot【52】和EarthGPT【53】。然而,這些VLMs主要關注單時相遙感圖像,無法實現多時相遙感圖像的理解。隨著VLM的不斷發展,針對多時相遙感圖像的研究進入了一個新的發展階段。研究人員越來越多地探索專為時序圖像理解設計的遙感時序視覺-語言模型(RS-TVLMs),涉及變化描述【22】【23】和變化視覺問答【54】【55】等任務。RS-TVLMs的研究豐富了時序圖像解譯的工具。語言作為人類溝通和知識的載體【56】,在融入時序圖像分析時能夠增強模型的高層次理解。通過將時序視覺信息與語言結合,RS-TVLMs不僅可以識別目標和變化,生成描述性文字,回答相關問題,還能進行多模態交互,從而將時序圖像的解譯擴展到超越單純的視覺判斷。圖1展示了一些具有代表性的RS-TVLM及其發表日期,表明該領域的研究可追溯到2021年。目前,相關研究數量正在迅速增加。盡管RS-TVLMs的研究興趣日益增長,但系統性的綜述仍然較少。現有的許多研究集中于特定任務的孤立方法,這使得研究人員很難全面了解該領域的進展和未來方向。貢獻。鑒于RS-TVLMs的快速進展和良好的發展前景,我們撰寫了本綜述,旨在讓研究人員了解基本概念、主要方法、數據集、評估指標及變化描述和變化視覺問答等任務的當前進展。據我們所知,這是關于RS-TVLMs的首篇綜述。通過回顧現有研究,我們希望為該領域的研究描繪清晰的路徑和未來方向,彌補當前相關綜述中的空白,并為遙感時序圖像理解的RS-TVLM研究奠定基礎。IV. 遙感時序視覺-語言模型目前,遙感時序圖像中的視覺-語言理解研究主要集中在幾個關鍵領域:變化描述、變化視覺問答、變化檢索和變化定位。這些任務旨在通過多模態建模和語言理解增強遙感時序圖像的解譯。此外,隨著大型語言模型(LLMs)的發展,一些近期的研究探索了將LLMs集成進來,進一步提升遙感時序圖像的視覺-語言理解。
當前,遙感時序圖像的視覺-語言理解研究主要集中在遙感變化描述(RS-CC)任務上。該任務旨在生成詳細準確的自然語言,描述不同時間拍攝的遙感圖像中的地理特征變化【22】【23】【140】。這種描述有助于用戶快速理解關鍵變化,并為時序遙感數據的決策和分析提供直觀的語義支持。變化描述要求模型準確識別重要變化,并將其轉化為自然、連貫的語言。這個轉化過程不僅依賴于精確的視覺變化識別,還要求具有較強的語言生成能力,以確保語言的準確性和流暢性。以往的變化描述方法通常基于深度學習,并遵循三階段架構,如圖4所示:視覺編碼、雙時相融合和語言解碼。每個階段對整體模型性能有重要影響,因此近期的研究集中在提高這三個階段的性能。表I總結了一些代表性的方法。視覺編碼旨在從雙時相圖像中提取豐富的語義特征,通常采用Siamese編碼器以促進雙時相圖像之間的比較。編碼器通常基于卷積神經網絡(CNNs)或視覺變換器(ViTs)。CNNs在捕捉空間細節方面表現優異,而ViTs則通過全局注意力機制提取廣泛的地理信息。許多方法利用預訓練的圖像編碼器,如ResNet【141】或ViT【142】。例如,Chang等人【22】使用ResNet-101作為編碼器,Liu等人【143】使用ViT,并比較了在ImageNet【144】和CLIP【145】上訓練的ViT的性能。此外,一些研究探索了通過自監督學習訓練專門適應變化提取的編碼器。例如,Zhou等人【24】提出了一種在大規模雙時相遙感圖像數據集上預訓練的單流提取器,顯著增強了變化特征提取的魯棒性。大多數研究集中在提高雙時相融合階段的模型性能,這是變化描述的核心階段。該階段旨在整合雙時相特征,捕捉潛在的時序變化模式。在雙時相融合過程中,模型應準確識別兩張圖像之間的顯著差異,同時抑制無關的偽變化(例如,由于光照或天氣變化導致的變化)。以往的研究通常采用CNN或Transformer作為基本模塊,并提出一些注意力機制來增強模型的變化感知能力。例如,Liu等人【23】提出了一種基于Transformer的方法,稱為RSICCformer,該方法由多個交叉編碼模塊組成,利用差異特征,允許模型關注每張圖像中的變化區域。此外,研究人員還將多尺度策略融入到方法中,以進一步增強模型識別多樣變化的能力【148】【149】。語言解碼器將融合后的視覺特征轉化為自然語言描述。早期的方法使用支持向量機(SVM)或長短期記憶(LSTM)網絡進行語言生成。Chouaf和Hoxha等人【150】【151】比較了RNN和支持向量機(SVM)作為語言解碼器的性能。鑒于Transformer解碼器具有強大的生成能力,RSICCformer【23】首次將Transformer引入遙感變化描述任務,采用交叉注意力機制,使模型在生成單詞時能專注于特定的圖像區域。盡管Transformer表現良好,但隨著序列長度的增加,模型的計算復雜度呈平方級增長。為了解決這一挑戰,近期的研究引入了Mamba模型【116】,該模型以線性復雜度運行。Liu等人【122】提出了空間差異感知SSM(SDSSM)和時空遍歷SSM(TT-SSM)以改善時空聯合建模的能力。此外,他們比較了三種不同的語言解碼器,包括Mamba、生成預訓練Transformer(GPT)風格解碼器和Transformer解碼器。上述的編碼-融合-解碼框架以耦合方式處理變化和不變的圖像對。與此不同,Liu等人【143】提出了一種解耦范式,將變化描述解耦為兩個問題:“是否發生變化”和“發生了什么變化”。他們將解耦結果輸入到預訓練的大型語言模型(LLM)中,通過多提示學習策略進行語言生成。解耦范式使研究人員能夠獨立集中于改善變化圖像對和不變圖像對的描述。
在遙感時序圖像分析中,變化檢測和變化描述任務側重于不同層次的變化信息提取【103】【166】。變化檢測主要關注生成像素級的變化掩膜,通過雙時相圖像識別和突出變化區域。相比之下,變化描述則旨在對這些變化進行語義層次的理解,包括對象屬性和上下文關系。鑒于這兩個任務之間的內在聯系,近期的研究將變化檢測和變化描述整合為統一的多任務學習框架,以提高變化解譯的整體效率和準確性。表II總結了一些代表性的方法。Change-Agent【103】是該領域的代表性工作之一,建立了一個多任務學習框架,為后續的研究奠定了基礎【166】–【170】。如圖5所示,該框架基于共享的視覺編碼器,分別為變化檢測和變化描述任務采用兩個任務特定的分支。在視覺編碼階段,模型從雙時相圖像中提取時序特征,這些融合的特征為每個任務的后續分支提供支持。值得注意的是,與傳統的變化檢測模型類似,變化檢測分支通常利用視覺編碼器提取的多尺度雙時相特征,以確保變化掩膜的精確性和細節。與此同時,變化描述分支通常僅利用最深層的視覺特征,關注變化的語義,設計上與單任務變化描述模型相似。在多任務框架中平衡兩項任務的訓練是一項關鍵挑戰。當前的研究通常應用加權損失,通過不同的權重將變化檢測和變化描述的損失結合起來。例如,文獻【166】采用了通過調整輔助任務梯度大小的元平衡策略【171】,而【169】和【170】則采用了動態權重平均策略【172】。此外,一些近期研究探索了變化檢測如何專門幫助變化描述提高描述的準確性【163】【173】。核心思想是,像素級的變化檢測能夠增強變化描述模型識別變化的能力,特別是在低光照條件下或針對小結構的變化。例如,MV-CC【163】使用低分辨率的變化檢測掩膜作為顯式指導,幫助模型準確關注變化區域。 C. 遙感變化視覺問答
遙感變化視覺問答(RS-CVQA)任務旨在根據時間變化的遙感圖像和用戶特定問題生成自然語言回答。與變化檢測和圖像標注任務不同,RS-CVQA強調用戶與時間變化圖像之間的互動語言交流,提供了一種更加靈活和高效的方式來獲取圖像中變化的信息。圖6展示了一個典型的RS-CVQA模型框架,包括以下關鍵階段:視覺編碼、問題編碼、多模態交互和答案生成。一些代表性的方法在表III中進行了總結。在視覺編碼階段,模型通常采用雙重編碼器分別從雙時相遙感圖像中提取特征,并融合這些時間特征以捕捉圖像中的變化信息。 在問題編碼階段,通常使用預訓練的語言模型(如BERT [130] 或 GPT [174])將用戶的復雜問題轉化為適合模型理解的語義嵌入。 在多模態交互階段,廣泛應用注意力機制(如自注意力和交叉注意力)來對齊和融合視覺變化與語言特征,使得模型能夠根據問題中的語義提示,關注圖像中的關鍵變化區域。這種多模態交互增強了模型對圖像變化的理解,并確保生成的答案與視覺內容緊密相關。 最后,答案生成階段將融合的多模態特征轉化為自然語言回答。根據答案生成方法,RS-CVQA方法大致分為兩類:基于候選答案的RS-CVQA和逐字生成的RS-CVQA。在基于候選答案的RS-CVQA中,答案生成模塊被設計為多類別分類器,從預定義的候選答案集中選擇最佳答案。Yuan等人[175]首次提出了這個任務,將答案分為幾個固定類別,并允許分類器從中直接選擇答案。這種方法計算效率高且穩定,適用于目標明確且變化類型固定的任務。然而,由于其依賴于有限的預定義答案池,這種方法的靈活性較差,可能不適用于處理更復雜、開放性的問題。 相比之下,逐字生成的RS-CVQA采用生成語言模型(如Transformer解碼器)逐字生成答案。這種方法更適合開放性問題,能夠生成靈活且細膩的回答。隨著大規模語言模型(LLM)的興起,基于生成模型的RS-CVQA逐漸成為主流,許多最新的方法開始整合LLM,以提供更豐富的答案生成能力。例如,ChangeChat[176]和CDChat[177]使用與先前的LLava[25]和Minigpt-4[178]類似的架構,使用雙時相視覺嵌入和用戶文本嵌入作為LLM Vicuna-v1.5[179]的前綴。 D. 遙感文本到變化檢索
隨著遙感圖像數據的快速增長,如何高效地檢索符合特定用戶需求的圖像,已成為環境監測、災害評估和城市規劃等領域的關鍵問題。傳統的基于文本的圖像檢索技術將用戶提供的查詢文本與單時相圖像進行匹配。然而,這種技術忽略了遙感圖像中的時間變化,難以滿足用戶對動態場景的檢索需求。 遙感文本到變化檢索(RSI-TCR)應運而生,以解決這一限制。其核心目標是高效檢索符合用戶輸入查詢描述的圖像變化的雙時相圖像對。RSI-TCR顯著減少了篩選大規模數據集所需的人工工作量,提高了龐大遙感數據集的可用性。這項技術在實際場景中展現了巨大的價值。例如,在災害管理中,RSI-TCR可以根據查詢文本(如“洪水淹沒”)迅速定位受影響區域的時相圖像,為災后應急響應提供必要的數據。 與傳統的基于文本的圖像檢索任務(通常涉及“文本”和“圖像”之間的二元匹配)相比,RSI-TCR更加復雜,因為它需要進行三模態匹配——“事件前圖像”、“事件后圖像”和“文本”。這種復雜性要求模型在多模態語義空間內處理時空變化和文本信息之間的復雜關系。Ferrod等人[102]首次使用LEVIR-CC數據集[23]研究了RSI-TCR任務,并提出了該任務的框架,如圖7所示。在他們的方法中,Chg2Cap模型[22]的編碼器被用來從雙時相圖像中提取語義變化嵌入。用戶提供的查詢文本通過Transformer解碼器編碼為文本嵌入。然后,他們通過對比學習損失函數(特別是InfoNCE [181])將圖像變化嵌入與查詢文本嵌入對齊。RSI-TCR中的核心挑戰之一是偽負樣本的問題。具體來說,在訓練批次中標記為負樣本的圖像對,實際上可能是與查詢文本匹配的正樣本,這可能干擾模型訓練。這個問題在許多使用對比學習的任務中都很常見,并且已有解決方案來應對這個問題[182][183]。為了解決這個問題,Ferrod等人[102]采用了兩種常見的策略來提高復雜變化場景中的檢索精度:1)偽負樣本排除(FNE):排除可能的偽負樣本以防干擾。2)偽負樣本吸引:將可能的偽負樣本重新標記為正樣本,以更好地對齊數據中的真實關系。E. 遙感變化定位
遙感變化定位(RS-CG)旨在在雙時相遙感圖像中識別和定位由用戶提供的查詢文本所指示的變化區域。通過將自然語言作為查詢模態,RS-CG顯著增強了用戶交互的靈活性,相比傳統的變化檢測方法(僅限于固定類別的輸出)。RS-CG的輸出通常以兩種形式呈現:邊界框和像素級掩模,如圖8所示。 邊界框通過矩形輪廓標注變化區域,提供目標變化的直觀空間位置。而像素級掩模則提供變化區域形狀和邊界的精確劃分,非常適合細粒度分析。 Irvin等人[101]采用了受LLaVA-1.5[25]啟發的模型架構。他們使用時間共享的ViT-L/14對時間變化圖像進行編碼,通過MLP將嵌入映射后再送入LLaMA-2[107]。LLM輸出邊界框的坐標,以文本格式有效地將檢測到的變化定位到輸入查詢中。Li等人[55]提出了一種名為VisTA的新型多任務模型,設計用于變化檢測問答和定位。VisTA不僅能夠回答用戶問題,還能同時生成與文本答案相關的像素級變化掩模。文本答案通過雙層MLP生成,而掩模解碼器由兩個注意力模塊組成。這種雙重輸出方法使VisTA能夠提供語義和視覺的雙重解釋,成為RS-CG任務的多功能解決方案。
結論通過將計算機視覺與自然語言處理相結合,遙感時間變化視覺語言模型(RS-TVLMs)大大增強了分析時間變化遙感數據的能力,在災害監測、環境分析和城市規劃等領域具有廣泛應用。本文綜述了RS-TVLMs的進展,包括基本概念、主要方法、數據集和評估指標。通過回顧現有研究,我們旨在為該領域的研究提供清晰的發展路徑和未來方向。此外,仍然存在一些挑戰,如大規模數據集的收集、基礎模型的設計以及多時相圖像序列的處理等。
近年來,遙感智能解譯技術快速發展,但大多為專用模型難以泛化到不同任務中,易造成資源浪費。 基礎模型是一種通用可泛化的解決方案,最近在遙感領域備受關注。盡管目前有大量工作已利用遙感單時相或 多時相數據在感知識別和認知預測的部分任務上取得顯著成果,但缺乏一個全面的綜述給遙感基礎模型提供系 統概述。因此本文首先從數據、方法和應用角度對現有遙感基礎模型的研究進展進行總結,然后通過分析現狀 存在的局限提出新一代遙感通用預測基礎模型的設想,最后針對亟需研究的方向進行探討與實驗,為研究人員 提供遙感基礎模型過去成果與未來可能性之間的橋梁。
人工智能(AI)技術已經深刻地改變了遙感領域,徹底革新了數據收集、處理和分析的方式。傳統上依賴于手工解釋和特定任務模型的遙感,因基礎模型的出現得到了顯著增強。基礎模型是指大規模、預訓練的AI模型,能夠以前所未有的精度和效率執行各種任務。本文對遙感領域的基礎模型進行了全面的綜述,涵蓋了2021年6月至2024年6月期間發布的模型。我們根據這些模型在計算機視覺和特定領域任務中的應用對其進行分類,并提供了關于其架構、預訓練數據集和方法論的深入見解。通過詳細的性能比較,我們突出了這些基礎模型所取得的顯著進展和新興趨勢。此外,我們還討論了技術挑戰、實際影響和未來研究方向,特別是針對高質量數據的需求、計算資源以及模型泛化能力的提升。我們的研究還發現,預訓練方法,尤其是對比學習和掩碼自編碼器等自監督學習技術,顯著提升了基礎模型在遙感任務中的性能和穩健性,例如場景分類、目標檢測等應用。本文旨在為研究人員和從業者提供資源,通過對基礎模型在遙感中的進展和未來發展路徑的全景式綜述,推動該領域的持續發展和應用。
關鍵詞——遙感、機器學習、人工智能、圖像處理、計算機視覺、Transformers。
人工智能(AI)技術已經深刻地變革了遙感領域,徹底革新了數據的收集、處理和分析方式。傳統上,遙感項目嚴重依賴于手動解釋和任務特定模型,這些模型需要大量的標記數據集和顯著的計算資源。然而,隨著AI和深度學習(DL)的出現,一個新的時代已經到來。在這個時代中,大規模的預訓練模型,即基礎模型,能夠以前所未有的精度和效率執行各種任務。這些進步不僅增強了遙感的能力,還為其在各個領域的應用開辟了新的途徑。近年來,出現了許多基礎模型,它們在處理多樣的遙感任務方面表現出了卓越的性能。這些模型有可能顯著提升多個下游任務的性能,如場景分類、語義分割、目標檢測等。通過利用海量的預訓練數據和復雜的架構,這些基礎模型在該領域設立了新的基準,使其成為研究人員和工程師不可或缺的工具。本文旨在提供遙感領域基礎模型的全面綜述,涵蓋了2021年6月至2024年6月期間發布的基礎模型。在圖1中,按時間順序列出了51個視覺模型。為了方便研究人員的導航和使用,我們根據這些模型在計算機視覺任務和特定領域任務中的應用對其進行了分類。這樣的分類方式可以更清晰地了解哪些模型適用于特定目的,無論是一般的基于圖像的挑戰,還是更為專業的應用,如環境監測、土地覆蓋和土地利用、考古勘探、災害管理或其他領域。我們的貢獻包括:
基礎模型(FMs)指的是大規模的預訓練模型,這些模型為不同領域的各種下游任務提供了堅實的起點。基礎模型利用廣泛的數據集和先進的架構,能夠捕捉復雜的模式和特征,并通過較少的額外訓練進行微調以適應特定的應用。在遙感領域,由于數據的多樣性和復雜性,包括多光譜和多時相影像,基礎模型顯得尤為重要。諸如自監督學習(SSL)和Transformers等技術顯著提高了圖像分類、目標檢測和變化檢測等任務的性能和效率,解決了遙感數據所帶來的獨特挑戰。
基礎模型的發展得益于深度學習的進步和大型數據集的可用性。最初,卷積神經網絡(CNNs)如ResNet為圖像識別和分類任務的改進鋪平了道路。Transformers的引入,利用自注意力機制來建模遠程依賴關系,進一步提升了基礎模型在處理大規模圖像數據方面的能力。
遙感中的基礎模型的特點在于它們能夠通過SSL技術利用大量未標記數據,從而在無需大量標記數據集的情況下學習到穩健的表示。主要的SSL方法包括對比學習,它通過比較同一數據點的不同增強視圖來學習表示;以及預測編碼,它通過觀察部分數據來預測輸入數據的缺失部分。
遙感領域的知名基礎模型包括SatMAE,它為時間和多光譜衛星影像預訓練Transformers;Scale-MAE,一種用于多尺度地理空間表示學習的尺度感知掩碼自動編碼器;以及DINO-MC,它通過全球-局部視圖對齊擴展了SSL在遙感影像中的應用。這些模型在場景分類、目標檢測和變化檢測等各種遙感任務中表現出色。
盡管取得了成功,基礎模型仍面臨諸多挑戰,包括對高質量和多樣化訓練數據的需求、顯著的計算資源消耗,以及將模型有效適配于特定遙感任務的領域適應性。這些挑戰的解決對于基礎模型在遙感中的持續進步至關重要。
近年來,遙感基礎模型(FMs)的發展依賴于各種復雜的方法學,包括自監督學習(SSL)、Transformers及視覺Transformers(ViT),以及殘差神經網絡(ResNet)。這些方法顯著增強了基礎模型的能力,使其能夠在沒有大量人工監督的情況下從大量數據中學習,處理復雜的數據結構,并改善特征提取和表示能力。本節將回顧這些方法在遙感領域的機制和貢獻。
自監督學習(SSL)在基礎模型的預訓練階段起著至關重要的作用。通過SSL,模型能夠從輸入數據的部分信息中預測另一部分,從而減少對大量標注數據集的依賴。在遙感中,由于標注數據的稀缺性,SSL顯得尤為重要。使用SSL預訓練的模型能夠有效地從大量未標注的遙感數據中捕捉模式和特征,使其在下游任務中非常高效。圖3展示了自監督學習的一般流程。 在遙感應用中,常用的兩種SSL方法是對比學習和預測編碼。 1. 對比學習:對比學習旨在通過比較同一數據點的不同增強視圖來學習表示。其核心思想是在特征空間中將相似(正樣本)對拉近,而將不相似(負樣本)對推遠。這種方法高度依賴于數據增強,以創建同一圖像的多個視圖。 1. 預測編碼:預測編碼是另一種SSL技術,模型通過觀察部分數據來預測輸入數據的缺失部分。這種方法有助于捕捉數據中的空間和時間依賴性。常見的預測編碼方法包括自動編碼器(AE)和掩碼自動編碼器(MAE)。
常用的SSL方法包括SimCLR、MoCo(動量對比)、BYOL(自我引導潛在空間)和DINO(無標簽自蒸餾)。這些方法各有特色,在生成正負樣本對和更新模型參數方面采取了不同的策略。這些方法在遙感中的場景分類、語義分割和目標檢測等任務中表現出色。例如,SSL可以幫助模型在標注數據有限的情況下,學習分類土地覆蓋類型、識別建筑物和車輛等目標,并分割衛星圖像中的不同區域。
在深度學習中,主干網絡是作為特征提取器的關鍵神經網絡架構。它們構成了模型的基礎層,處理輸入數據以生成豐富的、層次化的特征表示。這些表示可以被模型的后續組件用來執行各種任務,如分類、檢測和分割。通過利用強大的主干網絡,模型能夠高效地處理復雜數據,并在不同應用中提升性能。
主干類型I:Transformers和視覺Transformers(ViT):Transformers最初為自然語言處理設計,通過自注意力機制建模長距離依賴關系,徹底改變了計算機視覺領域。視覺Transformers(ViT)將Vaswani等人(2017)提出的Transformers架構適用于圖像數據,將圖像塊視為序列的token。這種適應在遙感中尤為有用,因為圖像往往較大且包含復雜的空間結構。圖4展示了用于遙感分割任務的ViT基本結構。
ViT的關鍵組件包括圖塊嵌入、位置編碼、Transformer編碼器和分類頭。圖塊嵌入將圖像分割為固定大小的塊,并將每個塊線性嵌入到向量中。位置編碼則為圖塊嵌入添加空間結構信息。Transformer編碼器由多層多頭自注意力和前饋神經網絡組成,處理嵌入塊的序列以捕捉全局依賴關系。最后,分類頭是一個全連接層,用于處理最終的序列表示以執行下游任務,如圖像分類。Transformer中的自注意力機制允許每個token關注所有其他token,為捕捉全局上下文提供了強大的方式。 ViT在遙感任務中表現出色,如土地覆蓋分類、城市區域識別和植被分析,利用其捕捉局部和全局模式的能力。
主干類型II:卷積神經網絡(CNN):卷積神經網絡(CNN),如殘差神經網絡(ResNet),通過引入殘差連接解決了深層神經網絡中的退化問題,這些連接允許梯度繞過某些層,從而促進非常深的網絡訓練。這一能力在遙感中尤為重要,因為通常需要深度模型來捕捉衛星圖像中的復雜細節和變化。
ResNet的特點是其殘差塊,包括繞過一個或多個層的快捷連接。殘差塊可以描述為以下公式:y=F(x,{Wi})+x\mathbf{y} = \mathcal{F}(\mathbf{x}, {W_i}) + \mathbf{x}y=F(x,{Wi})+x其中,y\mathbf{y}y是輸出,F\mathcal{F}F表示要學習的殘差映射,x\mathbf{x}x是輸入,{Wi}{W_i}{Wi}是塊中各層的權重。根據維度,快捷方式可以是恒等映射(如果輸入和輸出維度匹配)或卷積層(如果維度不同)。
ResNet有多種架構,如ResNet-50、ResNet-101和ResNet-152,數字表示總層數。這些網絡在各種視覺任務中表現出色,因為它們能夠在不退化的情況下訓練更深的網絡。在遙感中,ResNet廣泛用于圖像分類、目標檢測和變化檢測任務。例如,基于ResNet的模型可以分類不同的土地覆蓋類型,檢測建筑物和車輛等目標,并通過比較時間序列衛星圖像來監測景觀變化。
通過結合這些方法,遙感基礎模型能夠利用大量數據,處理復雜結構,并在各種應用中實現最先進的性能。這些方法使模型能夠有效應對遙感的獨特挑戰,如大圖像尺寸、多樣化數據源,以及在環境監測和分析中對高精度的需求。
在接下來的部分中,我們將探討這些方法在不同遙感任務中的具體應用,分析其性能,并討論用于訓練和評估這些模型的數據集。
在這篇全面的綜述中,我們回顧了2021年6月至2024年6月間開發的遙感基礎模型的進展。我們將這些模型分類為視覺模型和視覺-語言模型,重點介紹了它們獨特的方法論和能力。我們的分析涵蓋了多種先進技術,包括自監督學習(SSL)、視覺Transformers(ViTs)和殘差神經網絡(ResNets)。這些模型在場景分類、語義分割和目標檢測等任務中,以及在環境監測、數字考古、農業、城市規劃和災害管理等特定領域的應用中,顯著提高了性能。盡管取得了顯著進展,但仍存在若干挑戰,如需要更多樣化和高質量的數據集、較高的計算需求以及任務特定的困難。解決這些挑戰需要進一步的研究和跨學科的合作。總而言之,這篇綜述提供了當前遙感基礎模型的詳細概述,提出了寶貴的見解并指明了未來的研究方向。我們建議繼續努力開發高效的模型架構、增強多模態數據整合以及擴大數據集的多樣性,以充分發揮這些模型在遙感領域的潛力。
摘要: 遙感圖像中目標具有方向任意性和排列緊密性的特點,在檢測任務中使用傾斜邊界框可以更加精確定位和分離目標。目前遙感圖像旋轉目標檢測已經廣泛應用于民用和軍事國防領域,具有重要的研究意義和應用價值,已逐步成為研究熱點。鑒于此,對遙感圖像中旋轉目標檢測方法進行了系統性總結。首先,介紹了三種常用的傾斜邊界框的表示形式。其次,重點闡述全監督學習下的特征錯位、邊界不連續、度量值與損失不一致性、旋轉目標定位四個挑戰。然后,根據不同的動機和改進策略,詳細闡述了每種方法的核心思想及其優缺點,歸納出旋轉目標檢測方法框架。接著,列舉了旋轉目標檢測在遙感領域常用數據集,給出了經典方法在不同數據集上的實驗結果,并對不同方法的性能進行了評估。最后,結合深度學習應用于遙感圖像旋轉目標檢測任務中存在的挑戰,對該方向的未來發展趨勢進行了展望。
隨著科學技術的不斷發展和經濟實力的不斷提 升,截至 2022年 12月 31日,全球共有 6 718顆在軌活 躍衛星,其中超1 100顆衛星用于地球觀測任務(Union of Concerned Scientists Satellite Database, // www.ucsusa.org/resources/satellite- database),這 使 得 可獲取的衛星數據量成指數級增長,也為科學研究 提供了更加豐富的數據資源。然而,受時間差異、傳 感器差異和空間差異等眾多因素的影響,如何從遙 感圖像中獲取有效信息成為目標檢測在遙感領域發 展的關鍵問題。目標檢測作為遙感圖像處理領域的 基礎任務之一,具有重要的應用價值。在民用領域, 船舶的精確定位有利于海上救援和漁業管理,車輛 定位有利于交通疏導等。在軍事國防領域,目標檢 測常被用于精準定位軍事目標,從而及時分析戰時 局勢并制定行動計劃。 面對豐富的遙感影像資源,若是只依賴于人工 提取目標的類別、方向、位置、尺寸等有效信息,其效 率低、成本高,且在實際應用場景中無法快速準確獲 取目標信息,因此對目標檢測算法提出了更高的技 術要求,而基于深度學習的遙感圖像旋轉目標檢測 的研究恰能解決上述困難。 遙感圖像旋轉目標檢測是指在給定的遙感圖像 中判斷是否包含感興趣的目標,如飛機、車輛、船只 等,并以傾斜邊界框的標注方式對目標進行定位。 隨著深度學習的迅速發展,神經網絡提取特征信息 的能力進一步推動了遙感領域目標檢測的發展。然 而,與自然場景下的圖像相比,遙感圖像存在背景復 雜、目標方向任意、排列密集等問題,而現有的基于 深度學習的目標檢測算法尚不能在遙感領域取得優 異的表現,因此許多專家學者針對遙感圖像的特點, 以自然場景下的目標檢測算法為基礎,提出大量的 改進方案[1- 5],遙感圖像中旋轉目標檢測算法則是基 于遙感圖像水平邊界框目標檢測算法進一步發展而來。 經典的基于深度學習的目標檢測算法大致可以 劃分為雙階段算法和單階段算法。以 R-CNN 系列[6-9] 為代表的雙階段算法,需要分成兩個階段完成檢測 流程。首先提取圖像中感興趣的區域,然后對每個 區域做分類和回歸。盡管雙階段檢測算法在檢測精 度上表現良好,但在檢測速度上較慢且計算量較 大。相反,以 SSD(single shot multibox detector)[10]和 YOLO(you only look once)系列[11-13]為代表的單階段 算法,只需要一個階段就能完成檢測流程,沒有候選 區域生成的環節,通過網絡提取的特征可以直接輸 出目標的位置和類別,其檢測速度較快,能夠滿足系 統實時性的要求,但檢測精度略低于雙階段算法。 當前大多數深度學習目標檢測算法都由上述經 典的模型改進而來,但自然場景下的檢測模型大多 采用水平邊界框標注,若直接用于檢測遙感圖像中 方向任意排列緊密的目標,則會表現不佳,而采用旋 轉目標檢測算法可以一定程度上緩解此問題。與水 平邊界框相比,在遙感場景中使用旋轉邊界框主要 有三個優勢[14]:一是能夠反映目標的真實長寬比;二 是旋轉邊界框能夠將目標與背景有效分離;三是有 利于分離密集排列的目標。水平邊界框與旋轉邊界 框的可視化對比如圖 1 所示。由于在遙感圖像中目 標大多朝向各異且排列密集,研究遙感圖像旋轉目 標檢測問題具有重要意義。
當前,針對遙感場景下目標檢測的文獻綜述已 有許多,有學者針對基于深度學習的光學遙感圖像 目標檢測方法進行系統梳理和研究[15-17];也有部分學 者對艦船、飛機等特定目標的檢測進行分析總結[18-21]; 此外,王盛銘等[22]還重點針對高光譜遙感圖像中目標檢測進行了歸納整理。雖然近期也有關于傾斜邊界 框目標檢測的綜述性文章[23-24],其主要關注傾斜框檢 測算法的發展歷程,或是從解決方案出發總結每一 類方法可以實際解決的問題,但缺乏對阻礙模型檢 測效果的算法難點進行分析總結。 鑒于目前基于深度學習的遙感圖像旋轉目標檢 測的綜述文獻較少,為了使廣大科研工作者對該領 域的現狀及最新進展有更加全面清晰的了解,本文 重點針對其所面臨的突出問題和解決方法進行系統梳理。
摘要: 隨著人工智能的快速發展,從可行的算法中選擇滿足應用需求的算法已經成為各領域亟待解決的關鍵問題,即算法選擇問題。基于元學習的方法是解決算法選擇問題的重要途徑,被廣泛應用于算法選擇研究并取得了良好成果。方法通過構建問題特征到候選算法性能的映射模型來選擇合適的算法,主要包括提取元特征、計算候選算法性能、構建元數據集以及訓練元模型等步驟。首先,闡述基于元學習的算法選擇概念和框架,回顧簡述相關綜述工作;其次,從元特征、元算法和元模型性能指標三方面總結研究進展,對其中典型的方法進行介紹并比較不同類型方法的優缺點和適用范圍;然后,概述基于元學習的算法選擇在不同學習任務中的應用情況;繼而,使用140個分類數據集、9種候選分類算法和5種性能指標開展算法選擇實驗,對比不同算法選擇方法的性能;最后,分析目前存在的挑戰和問題,探討未來的發展方向。 //fcst.ceaj.org/CN/abstract/abstract3212.shtml
人工智能是數據處理與分析的重要技術,為人 們利用數據進行決策和研究提供了有力支撐。在人 工智能的不同領域中,研究人員提出了大量算法,然 而,不同算法在有限數量的問題上具備優越性能,不 存在一個適用于所有問題的可行算法,該現象被稱 為算法的性能互補性(performance complementarity) 現象[1] ,與“沒有免費午餐”(no free lunch)定理相印 證[2] 。算法的性能互補性現象普遍存在于不同領域, 如何為給定問題從大量可行算法中選擇滿足應用需 求的算法成為了各領域面臨的重要挑戰,即算法選 擇問題(algorithm selection problem)[3] 。算法選擇問 題通常采用人工選擇或自動選擇的方法解決。人工 選擇方法通過實驗試錯或依賴專家選擇合適的算 法,然而實驗試錯方法成本較高,專家選擇與專家的 經驗知識相關且靈活性較低[4] 。自動選擇方法通過 設計算法和模型,根據問題的特點自動選擇滿足應 用需求的算法,包括活躍測試(active test)方法、推薦 系統方法以及基于元學習(meta-learning)的方法[5-7] 。 其中基于元學習的方法研究基礎較為深厚,具備開 銷低和靈活度高等優點,成為了解決算法選擇問題 的主要方法[8-9] 。 本文對基于元學習的算法選擇進行綜述總結, 為研究人員了解相關領域的發展現狀提供參考。
摘要: 近年來,由于大規模數據集的出現,圖像語義分割技術得到快速發展。但在實際場景中,并不容易獲取到大規模、高質量的圖像,圖像的標注也需要消耗大量的人力和時間成本。為了擺脫對樣本數量的依賴,小樣本語義分割技術逐漸成為研究熱點。當前小樣本語義分割的方法主要利用了元學習的思想,按照不同的模型結構可劃分為基于孿生神經網絡、基于原型網絡和基于注意力機制三大類。基于近年來小樣本語義分割的發展現狀,介紹了小樣本語義分割各類方法的發展及優缺點,以及小樣本語義分割任務中常用的數據集及實驗設計。在此基礎上,總結了小樣本語義分割技術的應用場景及未來的發展方向。