亚洲男人的天堂2018av,欧美草比,久久久久久免费视频精选,国色天香在线看免费,久久久久亚洲av成人片仓井空

ChatGPT和GPT-4的顯著成就引發了對大型語言模型在通用人工智能(AGI)領域的研究和關注。這些模型為我們提供了更接近人類思維的智能解決方案,使我們能夠使用通用人工智能來解決各種應用中的問題。然而,在遙感領域,關于AGI實施的科學文獻相對較少。現有的與AI相關的研究主要關注視覺理解任務,而忽視了對象及其關系的語義理解。這正是視覺-語言模型的優勢所在,因為它們可以推理關于圖像及其關聯文本描述的信息,從而更深入地理解基礎語義。視覺-語言模型可以超越識別圖像中的對象,能夠推斷它們之間的關系,以及生成圖像的自然語言描述。這使得它們更適合于需要視覺和文本理解的任務,如圖像字幕,基于文本的圖像檢索和視覺問題回答。本文對遙感領域的視覺-語言模型研究進行了全面的回顧,總結了最新的進展,突出了當前的挑戰,并指出了潛在的研究機會。具體來說,我們回顧了視覺-語言模型在幾個主流遙感任務中的應用,包括圖像描述,基于文本的圖像生成,基于文本的圖像檢索,視覺問題回答,場景分類,語義分割和對象檢測。對于每個任務,我們簡要描述了任務背景并回顧了一些代表性的工作。最后,我們總結了現有工作的局限性,并提供了一些未來發展的可能方向。本回顧旨在為遙感領域的視覺-語言模型研究的當前狀態提供全面的概述,并激發對這一激動人心且重要領域的進一步研究。

1. 引言

深度學習已經成為遙感(RS)應用的強大工具。早期的遙感工作主要側重于使用從圖像中提取的視覺特征來執行各種任務,例如物體檢測、語義分割、土地覆蓋分類和變化檢測。作為最常用的深度學習方法之一,卷積神經網絡(CNNs)可以自動學習遙感圖像的分層表示,使它們能夠捕獲局部和全局的空間特征和模式。此外,注意力機制已被整合進深度學習模型,通過讓模型關注輸入的特定區域來提高其在遙感任務中的表現。由于深度神經網絡強大的特征學習能力,深度學習模型在各種遙感任務中的有效性得到了證明,與傳統的機器學習方法相比,它們達到了最先進的性能。然而,現有的基于深度學習的研究主要關注視覺理解任務,而忽視了對象及其關系的語義理解。例如,在進行土地覆蓋分類時,如果只有視覺的模型可能會把一個像高速公路的建筑物屋頂像素分類為高速公路。這是因為模型缺乏高速公路不能在建筑物屋頂內的一般知識。 近年來,大型語言模型(LLMs)在自然語言處理(NLP)和計算機視覺領域成為了熱門的研究話題。這些模型構建了大規模的視覺和自然語言理解轉換網絡,并在各種語言理解任務中取得了最先進的性能,例如語言建模、文本生成和問題回答[115]。值得注意的是,ChatGPT的顯著成就在通用人工智能(AGI)領域的大型語言模型研究中引發了一波關注和研究。預期這些模型在圖像理解和自然語言處理方面將會有更多的進步,他們有望將語言理解的水平提升到前所未有的水平。大型語言模型的巨大成功鼓勵了大量的視覺-語言模型(VLMs)研究。

視覺-語言模型(VLMs)通常被定義為一類結合了計算機視覺和自然語言處理技術的人工智能模型,它們能夠生成對視覺和文本信息的全面理解。通過共同識別視覺和語義模式及其關系,VLMs可以超越識別圖像中的對象,能夠推斷它們之間的關系,以及生成圖像的自然語言描述。這使得它們更適合于需要視覺和文本理解的任務,如圖像字幕,基于文本的圖像檢索和視覺問題回答。更重要的是,通過將視覺模型與具有一般推理能力的大型語言模型(LLMs)結合,VLMs提供了一種更全面和類人的方法來理解視覺內容。近年來,VLMs在各種計算機視覺任務中展示了令人印象深刻的結果,包括圖像理解[19],[198],視覺問題回答[75],[74],文本到圖像生成[125],語義分割[20],[187],對象檢測[183],[99]等。 在遙感中,使用VLMs是一個相對新的研究領域。隨著與遙感數據相關的文本元數據的日益增多,研究人員已經開始探索在這個領域使用視覺和語言模型[147]。近年來,一些早期的嘗試試圖探索VLMs用于各種遙感數據分析任務,包括遙感圖像字幕[133],[100],[185],[188],[186],[48],[83],[132],[155],[82],[190],[60],[202],[160],基于文本的遙感圖像生成[10],[18],[189],[48],[168],基于文本的遙感圖像檢索[1],[48],[118],[48],[178],[4],[25],[177],[176],[119],視覺問題回答[96],[192],[192],[15],[15],[3],[9],[174],[175],場景分類[72],[136],[113],[150],[86],語義分割[20],[187],對象檢測[58],[183],[99]等。隨著大規模遙感數據集的可用性增加和深度學習技術的進步,預計視覺和語言模型的使用將在遙感應用的未來中發揮重要作用。

在這項研究中,我們提供了一項全面的綜述,從視覺到語言,再到視覺-語言模型(VLMs)在遙感(RS)中模型的演變。具體來說,我們對近期在遙感領域VLMs的進展進行了廣泛的文獻調研。此外,我們為遙感應用領域VLMs的未來研究方向提供了有價值的見解和建議。我們的工作有助于更好地理解VLMs的當前最新水平,并為這個領域的研究人員提供了探索這些模型在遙感任務中潛力的指導。

遙感中的視覺-語言模型

A. 基礎模型

基礎模型指的是在大量數據上以任務無關的方式預訓練的大型深度學習神經網絡。這些模型可以通過微調、少樣本學習或零樣本學習應用于各種下游任務。基礎模型的例子包括GPT-3 [12],BERT [32]和T5 [117]。這些模型已經在大量文本數據上進行了預訓練,并能夠為各種NLP任務進行微調,如語言翻譯、問答和文本分類。在遙感(RS)中,預訓練對于提高分類、檢測和分割任務的性能至關重要[165]。以前的方法主要利用ImageNet數據集進行預訓練。然而,將ImageNet預訓練模型轉移到RS任務會因自然圖像和RS圖像之間的巨大差異而產生巨大的領域差距。因此,設計一個針對RS數據的基礎模型是必要的。研究人員使用兩種方法來達到這個目標:監督學習和自我監督學習。在監督學習中,[152]在MillionAID數據集上預訓練了深度神經網絡,這是一個大規模的RS數據集,并提高了這些模型在RS數據集上的性能。然而,需要大量標注數據仍然是一個障礙,因為它可能阻礙更大模型的訓練。因此,自我監督技術逐漸成為開發遙感基礎模型的主要方法,因為它們可以利用大量的未標注數據[157]。一些工作[2],[79],[6],[105],[47]采用對比學習訓練基礎模型,加入RS特定信息,如地理數據、時間序列數據、音頻數據等。

最近,遮蔽圖像建模(MIM)在計算機視覺中越來越受到關注,如BEiT [8],MAE [45],SimMIM [164],因為它消除了對額外信息、數據增強和正負對選擇的需要。因此,利用大量數據變得更容易。一些工作將MIM應用于開發RS基礎模型。例如,[137]從衛星和航空平臺收集了200萬張RS圖像,創建了一個大規模的RS數據集。基于這個數據集,他們設計了第一個生成自監督RS基礎模型,RingMo。RingMo在包括變化檢測、場景識別、對象檢測和語義分割在內的四個下游任務的八個數據集上取得了最新的成果。[153]首次嘗試構建一個具有大約1億參數的簡單視覺變換器,用于定制RS任務的大型視覺基礎模型。方法概述如圖7所示。他們還引入了一個旋轉的可變大小窗口注意機制,以增強視覺變換器適應RS圖像的能力。[106]發現在構建地理空間基礎模型時,應該考慮到在多樣化數據集上預訓練的模型,例如ImageNet-22k,因為它們的表現仍然有效。因此,他們以可持續的方式構建了一個用于地理空間應用的地理空間基礎模型。[14]開發了RS領域的第一個十億規模的基礎模型,并證明了將模型的大小從百萬規模增加到十億規模的效果。

B. 遙感圖像描述

遙感圖像描述(RSIC)是一項復雜的任務,需要機器理解遙感(RS)圖像的內容并用自然語言進行描述。這是一個具有挑戰性的任務,因為生成的描述不僅必須捕捉到不同規模的地面元素,還必須描述出它們的屬性以及它們之間的相互關系。與其它旨在預測單個標簽或單詞的任務不同,RSIC旨在生成全面的句子。為了生成簡潔而有意義的句子描述,重要的是要識別并識別出不同級別的地面元素,分析它們的屬性,并從高級角度利用類別依賴性和空間關系。

C. 基于文本的圖像生成

基于文本的圖像生成是一個新興的研究領域,它結合了自然語言處理和計算機視覺,以便從文本描述中創建逼真的圖像。將這種技術應用到遙感(RS)圖像中,在現實世界的應用中具有巨大的潛力。它可能帶來的一大益處是,通過根據文本描述生成逼真的RS圖像,來幫助城市規劃者。這將使他們能夠評估他們設計的可行性,并做出更明智的決策。另一個可能的用例是生成高質量的RS圖像標注數據集,這通常是一個具有挑戰性和耗時的過程。基于文本的圖像生成技術可以用于從文本描述中創建合成的RS數據集,從而緩解標注樣本的短缺。

D. 基于文本的圖像檢索

如何有效組織和管理大量的遙感(RS)數據,長期以來都是RS領域面臨的重大挑戰。為了解決這個挑戰,基于文本的圖像檢索(TBIR)已經成為一個突出的研究課題,旨在為RS數據管理提供有效的解決方案。圖像檢索的主要目標是從大型數據集中提取特定的圖像,近年來該領域已經得到了相當多的關注。其基本思想是縮小對目標圖像的搜索范圍,并檢索出與特定查詢相匹配的圖像。這項任務在諸如森林砍伐檢測、視覺導航和城市規劃等實際應用中具有價值。

E. 視覺問題回答

視覺問題回答(VQA)是一項旨在對與圖像相關的問題提供答案的任務。盡管在計算機視覺領域已經獲得了廣泛的關注,但在遙感(RS)領域仍處于早期階段。遙感VQA系統使非專業用戶可以使用自然語言問題作為查詢來與RS圖像進行交互,從而實現對圖像的用戶友好和高級理解。開創性的工作[96]建立了RS圖像的第一個大規模VQA基準數據集。從OpenStreetMap中收集了低分辨率和高分辨率的RS圖像數據,以及與圖像相關的人生成的問題和答案。在[96]中,作者提供了一種基準方法,使用卷積神經網絡(CNNs)進行視覺特征學習,采用長短期記憶網絡(LSTM)[48]進行文本嵌入提取。進一步設計了相互關注機制以增強視覺和文本特征之間的對齊。在[95]中,作者通過參考每張RS圖像中土地使用類別的存在,構建了一個大規模的遙感VQA數據集。鄭等人[192]引入了一個相互關注網絡,利用視覺和文本特征之間的語義對應關系,采用雙線性模塊進行特征融合。Chappuis等人[15]建議使用大型語言轉換器,例如BERT[32]進行文本特征學習,并證明其性能優于循環神經網絡。

F. 視覺定位

針對遙感數據的視覺定位(RSVG)是近期的一個新穎課題,對于這個任務的研究仍然有限。具體來說,RSVG涉及使用遙感圖像和相關的查詢表達式,為特定的感興趣的對象提供邊界框[180]。通過使用自然語言引導在遙感場景中定位對象的過程,RSVG提供了對象級別的理解,并為終端用戶提供便利。RSVG的潛在應用包括目標對象的檢測和識別、搜索和救援任務、城市規劃等。

G. 零樣本場景分類

零樣本遙感場景分類(RSSC)的目標是通過參考視覺特征和語義類別之間的語義關系來識別未見過的場景概念。Li等人[72]提出了第一種基于零樣本學習的遙感(RS)場景分類方法,該方法使用在Wikipedia語料庫上預訓練的word2vec模型來獲取類別名稱的語義嵌入,然后構建語義圖以捕獲類別間的關系。Quan等人[113]通過結合半監督的Sammon嵌入算法[127]來對齊語義和視覺原型,從而加強了這種方法。

H. 少樣本目標檢測

目標檢測是遙感(RS)中的一個重要任務,涉及到通過識別其邊界框和類別標簽來檢測對象實例。由于近年來的大量研究努力,這個領域已經取得了重大進步,包括兩階段檢測器,如Fast RCNN[40]和Faster R-CNN[123],一階段檢測器,如SSD[92],YOLO[122]和RetinaNet[89],以及最近提出的DETR變體[13],[200]。

I. 少樣本/零樣本語義分割

在語義分割領域,少樣本學習方法使得在有限數量的標注圖像下能夠進行新類別的分割。最近的研究主要集中在兩類方法,即參數匹配方法和原型方法。值得注意的是,開創性的工作PANet [154]通過引入一個原型對齊模塊,為每個語義類別生成高度代表性的原型,并基于特征匹配進行查詢對象的分割,從而在少樣本分割領域實現了突破。Jiang等人[58]提出了一種用于遙感(RS)圖像分割的少樣本學習方法,但是少樣本學習在RS圖像分割中的應用仍然處于起步階段。為了克服深度學習分割方法對數據的依賴,最近的研究[20],[187]已經探索了自我/半監督學習和弱監督學習,以減少對密集標注的需求。Chen等人[20]介紹了一種基于對比學習的RS圖像少樣本分割的半監督方法。Zhang等人[187]引入了一個用于跨場景高光譜圖像分類的網絡,該網絡利用語言指導實現領域泛化。圖15給出了該方法的概述。

3. 結論與未來趨勢

計算機視覺和自然語言處理傳統上被視為兩個不同的領域,每個領域都有自己獨特的挑戰和應用。然而,ChatGPT的非凡成功最近在大型語言模型(AGI)領域的研究者中引發了巨大關注。這些模型將計算機視覺和自然語言處理的優勢結合在一起,促進了更像人類的智能系統的開發,這些系統是基于VLMs構建的。在遙感(RS)的一些研究中,已經證明了VLMs在各種RS任務中比純視覺模型更優越,包括圖像標注、基于文本的圖像生成、基于文本的圖像檢索、視覺問題回答、場景分類、語義分割和目標檢測。雖然這些早期的嘗試已經展示了將VLMs應用于遙感的成功,但對于大多數研究者來說,這仍然是一個新興領域。因此,本文旨在提供一個全面的關于在遙感中應用視覺語言模型的綜述,為其他研究者提供關于該領域背景和最近進展的快速理解。它還旨在鼓勵在這個令人興奮且重要的領域進行進一步的研究。在回顧了遙感中VLMs的文獻后,我們發現了當前研究的一些限制。首先,用于訓練VLMs的RS數據集數量有限,樣本量遠小于計算機視覺領域的數十億圖像數據集。其次,大多數現有的RS VLMs仍然使用經典的CNN和RNN作為圖像和語言編碼器,只有少數工作探討了在計算機視覺中使用預訓練的視覺變換器和大型語言模型,如GPT、BERT和Flan-T5。這可能限制了這些模型的特征學習能力。此外,從零開始訓練這些VLMs需要大量的計算負擔,尤其是對于擁有數十億參數的大網絡。這就需要在RS中為大型VLMs提供有效的模型微調技術。此外,由于光照條件、大氣干擾和傳感器噪聲等因素的影響,RS數據可能會表現出高度的變化性。

付費5元查看完整內容

相關內容

大模型是基于海量多源數據打造的預訓練模型,是對原有算法模型的技術升級和產品迭代,用戶可通過開源或開放API/工具等形式進行模型零樣本/小樣本數據學習,以實現更優的識別、理解、決策、生成效果和更低成本的開發部署方案。

作為解決復雜問題的基本能力,推理可以為各種實際應用提供后端支持,如醫學診斷、談判等。本文對語言模型提示推理的前沿研究進行了全面概述。我們介紹了研究成果的對比和總結,并為初學者提供了系統性的資源。我們還討論了這種推理能力出現的潛在原因,并強調了未來研究的方向。

1. 引言

推理能力是人類智能的核心,然而在自然語言處理(NLP)領域,現代神經網絡很難從所告知或已知的信息中進行推理(Duan 等,2020;Wang 等,2021;Bhargava 和 Ng,2022)。幸運的是,zhe(Brown 等,2020;Chen 等,2021;Chowdhery 等,2022),擴大語言模型(LMs)的規模已經被證明可以賦予一系列推理能力,如算術推理(Wang 等,2022e;Lewkowycz 等,2022)、常識推理(Jung 等,2022;Liu 等,2022b)和符號推理(Zhou 等,2023;Khot 等,2023)。如圖 1 所示,這種能力可以通過提示策略(Liu 等,2022d)(如思維鏈提示(CoT)(Wei 等,2022b),生成知識提示(Liu 等,2022c))來解鎖,從而大大縮小人類與機器智能之間的差距。同樣,NLP領域有大量的工作被提出;然而,這些方法分散在各種任務中,并未得到系統的回顧和分析。

本綜述組織:在本文中,我們進行了第一次關于語言模型提示推理的最近進展調查。我們首先介紹這個方向的一些初步內容(§2),然后建議按照分類法組織相關工作(§3)。我們進一步提供深入的比較和討論以獲得洞察力(§4)。為了方便對這個領域感興趣的初學者,我們強調了一些開放資源(§5)以及潛在的未來發展方向(§6)。

為了提高語言模型提示的推理能力,研究主要有兩個分支。第一個分支專注于優化提示推理策略,如圖 2 所示,包括提示工程(§3.1.1)、過程優化(§3.1.2)和外部引擎(§3.1.3)。

在提示工程(§3.1.1)中,許多方法試圖提高提示 T 的質量,我們稱這些工作為單階段方法;而其他方法在每個推理階段將 ci 添加到(T ,Q)的上下文中,或為每個 ci 設計特定的 Tci ,我們將這些方法視為多階段方法。需要注意的是,這里的一個階段是指一個輸入輸出過程。對于過程優化(§3.1.2),最簡單的方法是引入帶有參數θ的優化器,用于在生成A時校準C,我們稱這些工作為自優化方法。另一些方法嘗試獲得多個過程來得到最終的答案組合,我們將這些工作視為集成優化方法。此外,整個優化過程可以通過對生成的三元組(Q,C,A)進行微調 pLM 迭代地集成,這被視為迭代優化方法。此外,一些工作利用外部推理引擎(§3.1.3)生成 T ,直接執行 C 或通過在 C 中植入工具 API 調用進行推理。研究的第二個分支重點關注提示的知識增強。需要注意的是,LM 中豐富的隱式“模型知識”(Han等人,2021)可以生成知識或基于知識的提示 T(§3.2.1)。同時,外部資源中的顯式知識也可以被利用并檢索為知識性提示,以增強推理 (§3.2.2)。

3. 方法體系

在本文中,我們調研了現有的基于語言模型提示的推理方法,并將它們歸類為策略增強推理(§3.1)和知識增強推理(§3.2)。如圖2所示,我們根據不同方法的獨特特征進一步細化它們。

3.1 策略增強推理

這方面工作的主要目的是設計更好的推理策略,具體體現在提示工程(§3.1.1)、流程優化(§3.1.2)和外部引擎(§3.1.3)中。

3.1.1提示工程

一種改進提示推理的直觀方法是提示工程。如圖3所示,我們根據提示階段的數量將這種方法分為單階段提示和多階段提示。

3.1.2 流程優化

自然語言理據(Ling et al., 2017a),也稱為CoT中的推理過程,在CoT提示中起著至關重要的作用(Ye and Durrett, 2022;Lampinen等人,2022;Min et al., 2022)。推理過程的一致性(Wang et al., 2022e)和推理步驟之間的連續性(Li et al., 2022d)都會影響最終答案的準確性。直觀地,如圖4所示,我們將這一行方法分為三種類型,即自優化、集成優化和迭代優化。

3.1.3 外部引擎

在LM提示下進行推理時,模型應具有語義理解(如問題)和復雜推理(如通過生成推理過程)的能力;然而,我們不能同時擁有魚和熊掌(Hendrycks等人,2021;Nogueira等人,2021;Lewkowycz等人,2022)。為了打破這個障礙,外部推理引擎可以幫助語言模型(見圖5)。

3.2 知識增強推理

正如Manning(2022)所指出的,知識在AI推理系統中起著至關重要的作用。知識增強方法旨在用隱式(§3.2.1)或顯式(§3.2.2)知識提示語言模型,以協助推理(見圖6)。

**3.2.1 隱式知識 **

研究人員已經證明,語言模型中包含大量的隱式知識(Davison等人,2019;Petroni等人,2019;Jiang等人,2020)。以下工作試圖將這種“模型知識”引入作為知識提示進行推理。劉等人(2022c)使用少量提示的 GPT-3(Brown 等人,2020)生成知識并提示下游 LM。劉等人(2022b)借助強化學習(Schulman等人,2017)進一步校準知識。與在知識生成階段使用少量提示的方法不同,孫等人(2022)提出了一種兩階段生成提示,其中還包括答案生成提示。其他工作(李等人,2022b;王等人,2023;Shridhar等人,2022;Magister等人,2022;何等人,2022)遵循知識蒸餾,通過提示更大的 LM 生成推理樣本并教授較小的 LM。

3.2.2顯性知識

盡管大型語言模型已顯示出強大的生成能力(Wiegreffe等人,2022;Li等人,2022b;Wang et al., 2023),他們仍然有幻覺事實的傾向(Rohrbach等人,2018)和產生不一致的知識(Liu et al., 2022b)。最近的工作表明,在上下文學習中檢索提示是取得良好性能的一種很好的方法(Liu等人,2022a;Rubin等人,2022)。由于常用檢索方法在度量結構化信息相似性方面的不穩定性,Lu等人(2023b)提出了一種基于策略梯度策略的動態提示檢索方法,無需暴力搜索。SU等人(2023)制定了一個選擇性的標注框架,以避免對大型標注檢索語料庫的需求。He et al.(2023)根據CoT的推理步驟檢索相關知識,以提供更可靠的解釋。Trivedi等人(2022)通過持久檢索wiki文檔來增強CoT提示,用于需要復雜的多步驟推理的開放域知識密集型任務。

4 比較與討論

表1顯示了不同方法的四種比較范圍。圖7進一步說明了不同規模的語言模型在算術推理的GSM8K (Cobbe等人,2021)上的性能比較。常識推理基準的類似結果見附錄A.3。模型規模較大的語言模型包含更多用于推理的隱性知識(Liang等人,2022b)對代碼分支進行預訓練,不僅可以增強代碼生成/理解能力,還可以激發CoT的推理能力。.輸入上下文中包含的高質量推理依據是LM提示推理的關鍵。 基于語言模型提示的推理分類。

5. 未來的發展方向

我們列出了一些潛在的方向如下:

推理的理論原理。 高效的推理。 魯棒的、可靠的和可解釋的推理 多模態(交互式)推理。 可泛化(真)推理。

6. 結論

本文對語言模型提示推理進行了綜述,包括全面的比較,以及幾個研究方向。展望未來,來自NLP和其他領域的方法之間將有更有效的協同作用,并希望復雜和高效的LM提示模型將越來越多地為提高推理性能做出貢獻。

付費5元查看完整內容

大多數視覺識別研究在深度神經網絡(DNN)訓練中嚴重依賴群體標記數據,通常為每個視覺識別任務訓練一個DNN,導致耗時費力的視覺識別范式。為應對這兩個挑戰,視覺-語言模型(VLM)最近得到了深入研究,它從互聯網上幾乎無限可用的網絡規模的圖像-文本對中學習豐富的視覺-語言相關性,并用一個VLM對各種視覺識別任務進行零樣本預測。**文中對面向各種視覺識別任務的視覺語言模型進行了系統綜述,包括: (1)視覺識別范式發展的背景; (2) VLM的基礎,總結了廣泛采用的網絡架構、預訓練目標和下游任務; (3) VLM預訓練和評估中廣泛采用的數據集;(4)對現有的VLM預訓練方法、VLM遷移學習方法和VLM知識蒸餾方法進行綜述和分類;(5)對所述方法的基準化、分析和討論;(6)視覺識別中VLM研究面臨的挑戰和未來可能的研究方向。**與此調研相關的項目已在//github.com/jingyi0000/VLM survey上創建。

1. 引言

視覺識別(如圖像分類、目標檢測和語義分割)是計算機視覺研究中長期存在的挑戰,也是自動駕駛[1]、[2]、遙感[3]、[4]、機器人[5]、[6]等無數計算機視覺應用的基石。隨著深度學習[7]、[8]、[9]的出現,視覺識別研究通過利用端到端的可訓練深度神經網絡(DNNs)取得了巨大的成功。然而,從傳統機器學習[10]、[11]、[12]、[13]向深度學習的轉變帶來了兩個新的重大挑戰,即深度學習從零開始[7]、[8]、[9]的經典設置下的DNN訓練收斂緩慢,以及在DNN訓練中費力耗時地收集大規模、特定任務、眾標數據[14]。 最近,一種新的學習范式預訓練、微調和預測在廣泛的視覺識別任務[15]、[16]、[17]、[18]、[19]中表現出了巨大的有效性。在這種新范式下,DNN模型首先用某些現成的大規模訓練數據(被標注或未標注)進行預訓練,然后用圖2(a)和(b)所示的特定任務標注訓練數據對預訓練模型進行微調。通過在預訓練模型中學習到的全面知識,這種學習范式可以加速網絡收斂,并為各種下游任務訓練表現良好的模型。

盡管如此,預訓練、微調和預測范式仍然需要一個額外的階段,使用來自每個下游任務的標記訓練數據進行特定任務的微調。受自然語言處理[20],[21],[22],[23]進展的啟發,一種名為視覺-語言模型預訓練和零樣本預測的新的深度學習范式最近受到越來越多的關注[14],[24],[25]。**在這種范式中,一種視覺-語言模型(VLM)是用互聯網上幾乎無限可用的大規模圖像-文本對進行預訓練的,預訓練的VLM可以直接應用于下游視覺識別任務,而無需微調,如圖2(c)所示。**VLM預訓練通常由某些視覺-語言目標[14],[25],[26]指導,使其能夠從大規模圖像-文本對[27],[28]中學習圖像-文本對應關系,例如:CLIP[14]采用圖像-文本對比目標,通過在嵌入空間中將成對的圖像和文本拉近并將其他圖像和文本推遠來進行學習。通過這種方式,預訓練的vlm捕獲了豐富的視覺-語言對應知識,并可以通過匹配任何給定圖像和文本的嵌入來進行零樣本預測。這種新的學習范式能夠有效地利用網絡數據,并允許零樣本預測,而不需要特定任務的微調,實現起來很簡單,但表現得非常好,例如,預訓練的CLIP在36個視覺識別任務中實現了出色的零樣本性能,從經典圖像分類[29],[30],[31],[32],[33]到人類行為和光學字符識別[14],[34],[35],[36],[37]。

隨著視覺-語言模型預訓練和零樣本預測的巨大成功,在各種VLM預訓練研究之外,人們還深入研究了兩條研究路線。第一行探索了帶有遷移學習[38],[39],[40],[41]的vlm。幾個遷移方法證明了這一點,例如,提示調優[38],[39],視覺適應[40],[41]等,所有預訓練的vlm對各種下游任務的有效適應都具有相同的目標。第二行通過知識蒸餾[42],[43],[44]探索vlm,例如,[42],[43],[44]探索如何從VLM中提取知識到下游任務,旨在在目標檢測,語義分割等方面取得更好的性能。

盡管從圖1所示的大量近期論文中證明了從VLM中獲取大量知識的濃厚興趣,但研究界缺乏一份全面的調查,可以幫助梳理現有的基于VLM的視覺識別研究、面臨的挑戰以及未來的研究方向。我們的目標是通過對各種視覺識別任務(包括圖像分類、目標檢測、語義分割等)中的VLM研究進行系統的綜述來填補這一空白。 從不同的角度進行了綜述,包括背景、基礎、數據集、技術方法、基準和未來的研究方向。我們相信,這項調查將為我們已經取得的成就提供一個清晰的藍圖,我們可以沿著這個新興但非常有前瞻性的研究方向進一步取得成就。

總而言之,這項工作的主要貢獻有三個方面。首先,對用于圖像分類、目標檢測和語義分割等視覺識別任務的VLMs進行了系統綜述。據我們所知,這是視覺識別VLMs的第一次綜述,通過對現有研究的全面總結和分類,為這個有前途的研究領域提供了一個大的圖景。其次,研究了視覺識別VLM的最新進展,包括對多個公共數據集上的現有工作進行全面的基準測試和討論。第三,分享了幾個用于視覺識別的VLM中可以追求的研究挑戰和潛在研究方向

**本綜述的其余部分組織如下。**第2節介紹了視覺識別的范式發展和幾個相關的調查。第3節描述了VLM的基礎,包括廣泛使用的深度網絡架構、預訓練目標和VLM評估中的下游任務。第4節介紹了常用的VLM預訓練和評估中的數據集。第5節回顧并分類了VLM預訓練方法。第6節和第7節分別對VLM的遷移學習和知識蒸餾方法進行了系統綜述。第8節在多個廣泛采用的數據集上對所審查的方法進行了基準測試和分析。最后,我們在第9節中分享了視覺識別的幾個有前途的VLM研究方向。

2 背景

本節介紹了視覺識別訓練范式的發展,以及它如何向視覺-語言模型預訓練和零樣本預測范式演進。我們還討論了幾個相關的綜述,以突出本綜述的范圍和貢獻。

2.1 視覺識別的訓練范式

視覺識別范式的發展大致可以分為五個階段,包括(1)傳統機器學習和預測,(2)深度從頭學習和預測,(3)有監督的預訓練、微調和預測,(4)無監督的預訓練、微調和預測和(5)視覺-語言模型預訓練和零樣本預測。在接下來的內容中,我們將對這五種訓練范式進行詳細介紹、比較和分析。

2.1.1 傳統的機器學習和預測

在深度學習時代[7]之前,視覺識別研究嚴重依賴特征工程,使用手工特征[13]、[45]、[46]、[47]、[48]、[49]、[50]、[51]和輕量級學習模型[10]、[11]、[12]將手工特征分類為預定義的語義類別。例如,經典的SIFT特征[51]對圖像尺度、平移和旋轉的變化具有容忍度,實現了非常令人印象深刻的視覺識別性能。然而,這種范式需要領域專家為特定的視覺識別任務制作有效的特征,不能很好地應對復雜的任務,也具有較差的可擴展性。

2.1.2深度學習從零開始和預測

隨著深度學習[7]、[8]、[9]的出現,視覺識別研究通過利用端到端的可訓練dnn,用單一框架統一特征提取和分類過程,取得了巨大的成功。基于dnn的視覺識別繞開了復雜的特征工程,在很大程度上專注于神經網絡的架構工程,以學習有效特征。例如,ResNet[9]通過跳躍設計實現了有效的深度網絡,并可以從大量群體標記的數據中學習語義特征,在具有挑戰性的1000類ImageNet分類任務[52]上取得了前所未有的性能。另一方面,從傳統機器學習向深度學習的轉變提出了兩個新的重大挑戰,包括從頭開始深度學習的經典設置下的DNN訓練收斂緩慢,以及DNN訓練中費力且耗時地收集大規模、特定任務和眾標數據[14]。

2.1.3 有監督的預訓練、微調和預測

隨著發現從標記的大規模數據集中學習到的特征可以遷移到下游任務[15],[16],[17],從頭學習和預測的范式已經逐漸被有監督的預訓練、微調和預測的新范式所取代。這種新的學習范式,如圖2(a)所示,以監督損失對大規模標記數據(如ImageNet)進行預訓練DNN,然后用特定任務的訓練數據[15]、[16]、[17]對預訓練的DNN進行微調。由于預訓練的dnn已經學習了一定的視覺知識,它可以加速網絡收斂,并幫助用有限的特定任務訓練數據訓練出表現良好的模型。

雖然范式監督預訓練、微調和預測在許多視覺識別任務上實現了最先進的性能,但它在預訓練中需要大規模的標記數據。為了緩解這一限制,最近的研究[18]、[19]采用了一種新的學習范式無監督預訓練、微調和預測,探索自監督學習從無標記數據中學習有用和可轉移的表示,如圖2(b)所示。為此,各種自監督訓練目標(即,偽裝任務)[18]、[53]、[54]、[55]、[56]被提出,包括學習上下文信息的圖像修復[53],建模跨塊關系的掩碼圖像建模[54],通過對比訓練樣本[18]來學習判別式特征的對比學習等。然后,自監督預訓練模型在帶有標記任務特定訓練數據的下游任務上進行微調。由于這種范式在預訓練中不需要標記數據,它可以利用更多的訓練數據來學習有用的和可遷移的特征,與監督預訓練[18]、[19]相比,導致甚至更好的性能。

2.1.5 VLM預訓練和零樣本預測

盡管有監督或無監督預訓練的預訓練和微調范式提高了網絡收斂性,但它仍然需要一個額外的階段對圖2(a)和(b)所示的帶標簽的特定任務訓練數據進行微調。受自然語言處理的預訓練成功[20],[21],[22],[23]的激勵,一種名為視覺-語言模型預訓練和零樣本預測的新深度學習范式被提出用于視覺識別,如圖2(c)所示。在互聯網上幾乎無限可用的大規模圖像-文本對的情況下,VLM由特定的視覺-語言目標[14],[25],[26]進行預訓練。通過這種方式,預訓練的VLM捕獲了豐富的視覺-語言對應知識,并可以通過匹配任何給定圖像和文本的嵌入,對下游視覺識別任務進行零樣本預測(無需微調)。

與預訓練和微調相比,這種新的范式可以在不進行特定任務微調的情況下有效利用大規模網絡數據和零樣本預測。大多數現有研究探索從三個角度來改進VLM: 1) 收集大規模信息豐富的圖像-文本數據,2) 設計高容量模型以從大數據中有效學習,3) 設計新的預訓練目標用于學習有效的視覺-語言關聯。本文對視覺識別的這一新的視覺-語言學習范式進行了系統的綜述,旨在為現有的VLM研究、這一具有挑戰性但非常有前途的研究領域面臨的挑戰和未來方向提供一個清晰的藍圖。

3 VLM基礎

VLM預訓練[14],[24]旨在預訓練一個VLM來學習圖像-文本相關性,針對視覺識別任務的有效零樣本預測[9],[66],[67],[68]。給定圖像-文本對[27],[28],它首先采用一個文本編碼器和一個圖像編碼器來提取圖像和文本特征[9],[20],[69],[70],然后學習與某些預訓練目標[14],[24]的視覺-語言相關性。有了學習到的視覺-語言相關性,VLMs可以在未見過的數據上以零樣本的方式進行評估[14],[24],通過匹配任何給定圖像和文本的嵌入。在本節中,我們介紹了VLM預訓練的基礎,包括用于提取圖像和文本特征的常見深度網絡架構,用于建模視覺-語言相關性的預訓練目標,以及用于評估預訓練的VLM的下游任務。

4 數據集

本節總結了用于VLM預訓練和評估的常用數據集,如表1-2所示。

5 視覺-語言模型預訓練

如第3.2節所述,VLM預訓練已經用三種典型的方法進行了探索,包括對比目標、生成目標和對齊目標。本節通過表3所列的多個VLM預訓練研究對它們進行了回顧。

5.1 具有對比目標的VLM預訓練

對比學習在VLM預訓練中已經被廣泛探索,它為學習具有判別力的圖像-文本特征設計了對比目標[14],[80],[138]。

5.2 帶有生成目標的VLM預訓練

生成式VLM預訓練通過學習通過掩碼圖像建模、掩碼語言建模、掩碼跨模態建模和圖像到文本生成生成圖像或文本來學習語義知識。

5.3 帶有對齊目標的VLM預訓練

對齊目標通過學習預測給定的文本是否正確描述了給定的圖像,強制vlm對齊成對的圖像和文本。它可以大致分為全局圖像-文本匹配和局部區域-單詞匹配,用于VLM預訓練。

5.4 總結和討論

總而言之,VLM預訓練對具有不同跨模態目標的視覺-語言相關性進行建模,如圖像-文本對比學習、掩碼跨模態建模、圖像到文本生成和圖像-文本/區域-單詞匹配。還探索了各種單模態目標,以充分挖掘其自身模態的數據潛力,如針對圖像模態的掩碼圖像建模和針對文本模態的掩碼語言建模。另一方面,最近的VLM預訓練專注于學習全局視覺-語言相關性,在圖像級識別任務(如圖像分類)中有好處。同時,多項研究[84]、[89]、[91]、[150]、[151]、[152]、[153]通過區域-單詞匹配對局部細粒度視覺-語言相關性進行建模,旨在在目標檢測和語義分割中實現更好的密集預測。

6 VLM遷移學習

除了在沒有微調的情況下直接將預訓練的VLM應用于下游任務的零樣本預測外,最近研究了遷移學習,通過提示微調[38],[154],特征適配器[40],[41]等使VLM適應下游任務。本節介紹了預訓練VLM的遷移學習動機、常見的遷移學習設置以及三種遷移學習方法,包括提示調優方法、特征適配器方法和其他方法。

7 VLM知識蒸餾

由于VLM捕獲了涵蓋廣泛的視覺和文本概念的通用知識,一些研究探索了如何提取通用和魯棒的VLM知識,同時解決復雜的密集預測任務,如目標檢測和語義分割。本節介紹了從VLM中提取知識的動機,以及兩組關于語義分割和目標檢測任務的知識蒸餾研究。

8. 結論

用于視覺識別的視覺-語言模型能夠有效地使用web數據,并允許零樣本預測,而無需特定任務的微調,這很容易實現,但在廣泛的識別任務中取得了巨大的成功。本綜述從背景、基礎、數據集、技術方法、基準測試和未來研究方向等幾個角度廣泛回顧了視覺識別的視覺-語言模型。以表格的形式對VLM數據集、方法和性能進行了比較總結,為VLM預訓練的最新發展提供了一個清晰的藍圖,這將極大地有利于這個新興但非常有前途的研究方向的未來研究。

付費5元查看完整內容

大規模語言模型(Large Language Model,LLM)無疑是時下最火熱的 AI 概念,它不僅是人工智能領域近兩年的研究熱點,也在近期引發了全社會的廣泛關注和討論,OpenAI 的 GPT-3 和 ChatGPT 更是數次登上微博熱搜。

LLM 強大的語言理解能力和知識儲備,給大眾留下了深刻的印象。LLM 所涌現的 in-context learning 能力,更是開啟了新的 NLP 范式,并使其有望成為以自然語言進行交互的通用型任務助手(ChatGPT)。LLM 的出現也為跨模態深度學習領域的研究者們帶來新的機遇和挑戰。

通過收集自互聯網的大規模語料進行預訓練,GPT-3 等 LLM 蘊含了豐富的世界知識,這使其有希望解決知識驅動的多模態任務,例如基于外部知識的圖像問答任務,OK-VQA [1]。但是,想要利用 LLM 的潛力解決多模態問題,有一個關鍵問題需要解決:LLM 以語言進行輸入輸出,如何使她能夠理解其他模態的數據,如圖片,并遷移到下游多模態任務呢?

PICa [2] 提出使用 Image Caption 模型將圖片轉化為文本描述,然后輸入給 GPT-3 使其回答關于圖片的問題,該方法在 OK-VQA 數據集上超越了傳統方法。但是由于 caption 未必能覆蓋圖片的全部信息,因此這一方法存在性能瓶頸。另一個容易想到的解決方案是,在預訓練的 LLM 基礎上,增加用來對接另一個模態輸入的網絡參數,并通過微調來得到一個跨模態的大模型。

Deepmind 的 Flamingo [3] 模型采用了這一方案,訓練了一個 800 萬參數量的視覺-語言模型,并在 OK-VQA 上達到新的 SOTA。但是訓練這樣的模型往往需要消耗大量的計算資源,動輒上百上千塊 GPU,這是學術界的大部分研究者難以負擔的。那么,如何能夠既享受到 LLM 的強大能力,又通過有限的計算資源在跨模態任務上達到先進的性能呢?

我們近期的論文給出了一個新的答案:用好小模型!論文 Prompting Large Language Models with Answer Heuristics for Knowledge-based Visual Question Answering 提出了名為 Prophet 的框架,通過在 LLM 上游引入一個可學習的、任務相關的視覺問答小模型,來更好地激發大模型的潛力。

Prophet 這個名字既是 Prompt with answer heuristics 的縮寫,也契合了 Prophet 框架的精神,我們希望 GPT-3 如一個先知一般對預兆(來自小模型的答案啟發)進行理解和闡釋。Prophet 僅需要 1 塊 3090 顯卡和少量 OpenAI API 的調用,就可以實現超越 Flamingo 的性能,并在兩個基于外部知識的視覺問答數據集 OK-VQA [1] 和 A-OKVQA [4] 上創造了新的 SOTA。該論文現已被 CVPR 2023 錄用。 **論文鏈接:**//arxiv.org/abs/2303.01903 **開源代碼:**

方法介紹

該論文著眼于基于外部知識的圖像問答任務(Knowledge-based VQA),它要求模型不僅能夠分析圖片和問題,還需要結合圖像外部的知識(生活常識、科學知識等世界知識)來推理得到答案。例如,如果問一張獅子圖片“這種動物最喜歡吃什么?”,那么模型就需要知道獅子是食肉動物,它們通常捕食羚羊、斑馬等。

早期的研究使用顯式的知識庫來檢索相關知識,但這樣做往往會引入過多的噪聲,影響模型的訓練和最終性能。近期的工作,如 PICa [2],則嘗試使用 GPT-3 作為隱式的知識引擎來獲取所需知識。PICa 通過將圖像轉化為文本描述(Image Caption)來讓 GPT-3 理解圖像,并使用 few-shot in-context learning 的范式,即提供少量問答示例,使 GPT-3 理解視覺問答任務并作出回答。

盡管 PICa 取得了令人鼓舞的結果,但我們認為它沒有充分激發 GPT-3 的潛能,因為它輸入 GPT-3 的關于圖片的信息往往不夠充分。如下圖所示,當我們問“what fruit comes from these trees?”,由于 caption 只提到了圖片的主要內容“a group of people walk in a city square”而忽略了圖中有一顆椰子樹的細節,GPT-3 未能得到回答問題所需要的關鍵信息,于是只能“瞎猜”一個答案。

后續的工作 KAT [5] 和 REVIVE [6] 在 PICa 輸出基礎上,增加了一個基于顯式知識檢索的 VQA 模型,進一步提高了性能,但依然沒有解決上述問題,未能充分挖掘出 GPT-3 的潛力。

▲ Prophet框架與之前的基于GPT-3的方法的對比

為解決 PICa 的瓶頸問題,我們提出了 Prophet,它利用答案啟發(answer heuristics)來幫助 GPT-3 更好的解決基于外部知識的 VQA 任務。所謂答案啟發,是指寫入 prompt 文本中的,和視覺問題的正確答案相似或相關的答案(當然也包括正確答案本身),我們相信這些具有潛力的答案可以提供豐富的、并且任務相關的視覺信息,可以有效幫助 GPT-3 理解圖像和視覺問答任務。

具體的,論文定義了兩種答案啟發: 1)答案候選(answer candidates): 問題的候選答案及其置信度;2)答案感知示例(answer-aware examples): 選擇答案相近的標注樣本(來自訓練集)作為 prompt 中的例子。有趣的是,這兩種答案啟發可以使用同一個簡單的 VQA 模型同時產生。

▲ Prophet的總體框架圖

Prophet 的完整流程分為兩個階段,如上圖所示。在第一階段,我們首先針對特定的外部知識 VQA 數據集訓練一個普通的 VQA 模型(在具體實現中,我們采用了一個改進的 MCAN [7] 模型),注意該模型不使用任何外部知識,但是在這個數據集的測試集上已經可以達到一個較弱的性能。然后我們從模型中提取兩種答案啟發:答案候選和答案感知示例。

具體的,我們以模型分類層輸出的置信度(模型輸出的 sigmoid 值)為依據對答案進行排序,抽取其中的 top 10 作為答案候選,并記錄每個答案的置信度分數;同時,我們將模型分類層之前的特征作為樣本的潛在答案特征(latent answer feature),在它表示的潛在特征空間中搜索最相近的標注樣本作為答案感知示例。

在第二階段,我們拓展了 PICa 的 prompt 格式,將答案啟發組織到 prompt 之中(如上圖所示的 prompt 例子),然后將 prompt 輸入給 GPT-3,提示其完成視覺問題的回答。

值得一提的是,雖然我們給出了答案候選,但是我們并未要求 GPT-3 必須從中選擇答案,一方面,prompt 中給出的示例可能就包含了正確答案不包含在答案候選中的情況,另一方面,如果所有候選的置信度都很低,也會暗示 GPT-3 生成一個全新的答案。這一設計不僅給予了 GPT-3 更多的自由,并且使 GPT-3 對前置 VQA 模型所可能引入的負面效應更加魯棒,即 GPT-3 有權不相信 VQA 模型的不合理“猜測”。

實驗分析

▲ Prophet論文主要實驗結果

上方兩表展示了 Prophet 在兩個基于外部知識的圖像問答數據集 OK-VQA 和 A-OKVQA 上的實驗結果,及其和以往方法的性能對比。實驗表明,Prophet 達到了先進的性能,顯著超越了以往的方法。在 OK-VQA 數據集上,Prophet 達到了 61.1% 的準確率,大幅超越了 Deepmind 的 80B 大模型 Flamingo。

值得一提的是,Prophet 不僅在分數上超越了 Flamingo,在所需的(線下)計算資源上也更為“親民”,更容易在有限的計算資源下進行復現。Flamingo-80B 需要在 1,536 塊 TPUv4 顯卡上訓練 15 天,而 Prophet 只需要一塊 RTX-3090 顯卡訓練 VQA 模型 4 天,再調用一定次數的 OpenAI API 即可。

在 A-OKVQA 上,Prophet 也達到了新的 SOTA,在測試集上取得 55.7% 的準確率。不僅如此,我們還為 A-OKVQA 的多選項測評模式設計了一個專門的變體(詳見論文),命名為 Prophet-MC,該變體的 MC 準確率達到了 73.6% 的優秀水平。

▲ 對答案候選和答案感知示例的消融實驗

論文對 Prophet 方法進行了充分、細致的消融實驗,上方兩表展示了其中最重要的兩個結果。在左表中我們嘗試調節答案候選的數量,可以觀察到該參數顯著影響方法的最終性能,說明答案候選在 Prophet 方法中起著至關重要的作用。在右表中,我們嘗試了其他策略來選擇 prompt 中的示例,其中的 fused 一行即對應了我們基于潛在答案特征來搜索答案感知示例的方式,實驗結果表明該方式是最優的。

更詳盡的實現細節和實驗分析請參考論文原文。

后記

Prophet 具有諸多優勢,方法思路簡單,性能優越,在實現上也更為簡單、經濟,因此我們決定分享我們的工作。在該工作完成后不久,跨模態大模型 PaLI [8] 和 PaLM-E [9] 相繼提出,他們在 OK-VQA 數據集上超越了 Prophet,但是我們相信 Prophet 依然有其獨特的價值:

  1. 實現 Prophet 所需的計算資源更小,是大部分學術界的研究者能夠承擔的,我們相信 Prophet 為這些研究者們創造出了更大的研究空間,Prophet 作為基于外部知識圖像問答任務的一個新的基線(baseline),還有許多值得挖掘的地方;

  2. Prophet 不僅是 GPT-3 等 LLM 可以遷移到多種下游任務并取得優良性能的又一例證,更拓展了原本基于 few-shot in-context learning 的遷移范式,引出了一個新的范式,“小模型+LLM”。用任務相關的小模型作為 LLM 適配下游任務的適配器(Adapter),將增強 LLM 的通用性和針對性。我們相信 Prophet 的思路將啟發其他領域的工作。

如果您對我們的工作有任何疑問,歡迎來信探討,或者在 GitHub 上提交 issue。

參考文獻

  1. Kenneth Marino, Mohammad Rastegari, Ali Farhadi, and Roozbeh Mottaghi. Ok-vqa: A visual question answering benchmark requiring external knowledge.
  2. Zhengyuan Yang, Zhe Gan, Jianfeng Wang, Xiaowei Hu, Yumao Lu, Zicheng Liu, and Lijuan Wang. An empirical study of gpt-3 for few-shot knowledge-based vqa.
  3. Jean-Baptiste Alayrac, Jeff Donahue, Pauline Luc, Antoine Miech, Iain Barr, Yana Hasson, Karel Lenc, Arthur Mensch, Katherine Millican, Malcolm Reynolds, et al. Flamingo: a visual language model for few-shot learning.
  4. Dustin Schwenk, Apoorv Khandelwal, Christopher Clark, Kenneth Marino, and Roozbeh Mottaghi. A-okvqa: A benchmark for visual question answering using world knowledge.
  5. Liangke Gui, Borui Wang, Qiuyuan Huang, Alex Haupt- mann, Yonatan Bisk, and Jianfeng Gao. Kat: A knowledge augmented transformer for vision-and-language.
  6. Yuanze Lin, Yujia Xie, Dongdong Chen, Yichong Xu, Chenguang Zhu, and Lu Yuan. REVIVE: Regional visual representation matters in knowledge-based visual question answering.
  7. Zhou Yu, Jun Yu, Yuhao Cui, Dacheng Tao, and Qi Tian. Deep modular co-attention networks for visual question answering.
  8. Xi Chen, Xiao Wang, Soravit Changpinyo, A. J. Piergiovanni, Piotr Padlewski, Daniel Salz, Sebastian Goodman et al. Pali: A jointly-scaled multilingual language-image model.
  9. Danny Driess, Fei Xia, Mehdi SM Sajjadi, Corey Lynch, Aakanksha Chowdhery, Brian Ichter, Ayzaan Wahid et al. PaLM-E: An Embodied Multimodal Language Model.

關于作者

論文第一作者邵鎮煒是杭州電子科技大學計算機學院媒體智能實驗室碩士研究生。邵鎮煒同學患有“進行性脊肌萎縮癥”,肢體一級殘疾,沒有生活自理能力,生活和學習需要母親的全程照顧。2017年高考考入杭州電子科技大學計科專業,本科期間獲得2018年中國大學生自強之星、國家獎學金和浙江省優秀畢業生等榮譽。2021年通過研究生推免,加入余宙教授課題組攻讀碩士研究生。

論文通訊作者為杭州電子科技大學計算機學院余宙教授。余宙教授是杭電計算機學院最年輕的教授,教育部“復雜系統建模與仿真”實驗室副主任。長期從事多模態智能方向研究,曾帶領研究團隊多次獲得國際視覺問答挑戰賽VQA Challenge 的冠亞軍。

付費5元查看完整內容

預訓練基礎模型(PFMs)被視為具有不同數據模態的各種下游任務的基礎。預訓練的基礎模型,如BERT、GPT-3、MAE、DALLE-E和ChatGPT,在大規模數據上進行訓練,為廣泛的下游應用提供了合理的參數初始化。**PFMs背后的預訓練思想在大型模型的應用中起著重要的作用。**作為一種遷移學習范式,預訓練通過凍結和微調技術應用于計算機視覺,顯示出良好的性能。詞向量在自然語言處理中也可以看作是修飾詞的一種,但它存在多義詞等問題。與之前應用卷積和循環模塊進行特征提取的方法不同,生成預訓練(GPT)方法應用Transformer作為特征提取器,并以自回歸范式在大型數據集上進行訓練。類似地,BERT應用transformer在大型數據集上作為上下文語言模型進行訓練。最近,ChatGPT在大型語言模型上顯示出可喜的成功,它應用了零樣本或很少提示的自回歸語言模型。隨著PFMs的非凡成功,人工智能在過去幾年中在各種領域掀起了浪潮。文獻中提出了相當多的方法,數據集和評估指標,需要更新的綜述。

**本研究全面回顧了文本、圖像、圖以及其他數據模態中PFMs的最新研究進展、當前和未來挑戰和機遇。**首先回顧了自然語言處理、計算機視覺和圖學習中的基本組成部分和現有的預訓練。然后討論針對其他數據模態的其他高級PFMs,以及考慮數據質量和數量的統一PFMs。此外,還討論了PFM的相關研究,包括模型效率與壓縮、安全與隱私。最后,總結了關鍵意義、未來研究方向、挑戰和開放問題。希望對PFMs在可擴展性、推理能力、跨域能力、用戶友好交互能力、安全與隱私保護能力等方面的研究有所啟發。

//www.zhuanzhi.ai/paper/9345ff120bd8f1b703c1c9324c321dd9

1. 引言

預訓練基礎模型(PFMs)是大數據時代人工智能(AI)必不可少的重要組成部分。基礎模型首先在[1]中命名,這意味著更廣泛的模型類及其功能。在人工智能的三大領域(自然語言處理(NLP)[2]、計算機視覺(CV)[3]和圖學習(GL)[4])中,PFM被廣泛研究。**PFM是強大的通用模型,在各種領域或跨領域都是有效的。它們在各種學習任務中表現出了學習特征表示的巨大潛力,如文本分類[5]、文本生成[6]、圖像分類[7]、目標檢測[8]和圖分類[9]。**PFMs在使用大規模語料庫對多個任務進行訓練,并將其微調到類似的小規模任務方面表現出優越的性能,使啟動快速數據處理成為可能。**PFMs基于預訓練技術,該技術旨在使用大量數據和任務訓練一個通用模型,這些數據和任務可以在不同的下游應用程序中輕松地進行微調。**預訓練的思想源于CV任務中的遷移學習[10]。認識到預訓練在CV領域的有效性,人們開始在其他領域使用預訓練技術來提高模型性能。當預訓練技術應用于NLP領域時,訓練有素的語言模型(lm)可以捕獲對下游任務有益的豐富知識,如長期依賴關系、層次關系等。此外,在NLP領域進行預訓練的顯著優勢在于,訓練數據可以來自任何未標記的文本語料庫,即預訓練過程中有無限數量的訓練數據。早期的預訓練是一種靜態技術,如NNLM[11]和Word2vec[12],但靜態方法難以適應不同的語義環境。因此,提出了動態預訓練技術,如BERT[13]、XLNet[14]等。圖1描述了NLP、CV和GL領域PFMs的歷史和演變。基于預訓練技術的PFMs利用大規模語料庫學習通用語義表示。隨著這些開創性工作的引入,各種PFMs已經出現并應用于下游任務和應用。

**ChatGPT是PFM應用的一個很好的例子。ChatGPT是對生成式預訓練transformer GPT-3.5進行微調的,它是在文本和代碼的混合上進行訓練的[15,16]。**ChatGPT應用了來自人類反饋的強化學習(RLHF)[17,18],這已經成為將大型語言模型與人類意圖[19]相結合的一種有希望的方法。ChatGPT令人驚訝的優越性能可能會導致每種類型PFM訓練范式的轉變——應用指令對齊技術,如強化學習(RL)、提示調整[20,21,22]和思維鏈[23,24],向人工通用智能發展。重點介紹了文本、圖像和圖形的PFMs,這是一個比較成熟的研究分類。對于文本,它是一個多用途的語言模型,用于預測序列中的下一個單詞或字符。例如,PFMs可用于機器翻譯、問答系統、主題建模、情感分析等。對于圖像,它類似于文本上的PFMs,使用巨大的數據集來訓練一個適用于許多CV任務的大模型。對于圖,類似的預訓練思想也被應用于獲得pfm,用于許多下游任務。除了特定數據域的PFMs,還回顧和介紹了其他一些先進的PFMs,如語音、視頻和跨領域數據的PFMs,以及多模態PFMs。此外,還出現了一種處理多模態的PFMs大收斂,即所謂的統一PFMs。首先定義了統一PFMs的概念,然后回顧了近年來SOTA統一PFMs的最新研究進展(如OFA[25]、UNIFIED-IO [26]、FLAVA[27]、BEiT-3[28]等)。

**根據現有PFMs在這三個領域的特點,我們得出PFMs具有以下兩個主要優勢。**首先,需要輕微的微調來增強模型在下游任務上的性能。第二,PFMs已經在質量方面進行了綜述。我們可以將PFMs應用于與任務相關的數據集,而不是從頭開始構建模型來解決類似的問題。PFMs的巨大前景激發了大量相關工作,以關注模型效率、[29]、安全性[30,31,32]和壓縮[33,34]等。

有一些綜述研究[35,8,5,6,7,1]回顧了一些特定領域的預訓練模型,如文本生成[6],視覺transformer[7],目標檢測[8]。Bommasani出版社。[1]總結了基礎模型的機會和風險。然而,現有工作沒有在預訓練任務、效率、功效和隱私等不同方面對不同領域(如CV、NLP、GL、語音、視頻)的PFMs進行全面的回顧。在本次調查中,我們專門跟蹤了NLP領域的PFMs的演變,以及預訓練是如何轉移到CV和GL并被采用的。與其他調查相比,我們沒有對這三個領域現有的PFMs進行全面介紹和分析。與以往預訓練模型的綜述不同,本文總結了現有的模型,從傳統模型到pfm,以及這三個領域的最新工作。傳統模型強調靜態特征學習。動態PFMs介紹了結構,這是目前的主流研究。進一步介紹了一些針對PFMs的其他研究,包括其他先進和統一的PFMs、模型效率和壓縮、安全性和隱私。最后,總結了不同領域未來的研究挑戰和開放問題。全面介紹了附錄F和附錄g中的相關評價指標和數據集。總結而言,本文的主要貢獻如下:

本文對PFM在NLP、CV和GL中的發展進行了扎實和最新的綜述。在這篇綜述中,討論和提供了關于三個主要應用領域中的通用PFM設計和預訓練方法的見解。

我們總結了PFMs在其他多媒體領域(如語音和視頻)的發展。此外,還討論了PFMs的前沿問題,包括統一PFMs、模型效率與壓縮、安全與隱私等。

通過對不同任務的不同模態的PFMs的回顧,討論了大數據時代超大模型未來研究的主要挑戰和機遇,這指導了基于PFMs的新一代協作和交互智能。

付費5元查看完整內容

本文綜述了近年來發展起來的多模態智能視覺語言預訓練(VLP)方法。我們將這些方法分為三類: (i) 用于圖像-文本任務的VLP,如圖像標題、圖像-文本檢索、視覺問題回答和視覺基礎; (ii) 用于核心計算機視覺任務的VLP,如(開集)圖像分類、目標檢測和分割;以及 (iii) 視頻文本任務的VLP,如視頻字幕、視頻文本檢索和視頻問答。對于每個類別,都對最先進的方法進行了全面的回顧,并使用特定的系統和模型作為案例研究,討論已經取得的進展和仍然面臨的挑戰。對于每個類別,討論了研究界正在積極探索的高級主題,如大基礎模型、統一建模、上下文內少樣本學習、知識、魯棒性和現實中的計算機視覺等。

人類通過許多渠道感知世界,比如通過眼睛看到的圖像,或通過耳朵聽到的聲音。盡管任何單獨的通道都可能是不完整的或有噪聲的,但為了更好地理解世界,人類可以自然地對齊和融合從多個通道收集到的信息。人工智能的核心目標之一是開發一種算法,使計算機能夠有效地從多模態(或多通道)數據中學習。這些數據類似于通過視覺和語言獲得的視覺和聲音,幫助人類理解周圍的世界。例如,計算機可以通過搜索與文本查詢最相關的圖像(或反之),以及使用自然語言描述圖像的內容來模仿這種能力。視覺與語言(VL),一個位于計算機視覺和自然語言處理(NLP)之間的熱門研究領域,旨在實現這一目標。受語言模型預訓練在自然語言處理中的巨大成功(例如BERT (Devlin et al.,2019)、RoBERTa (Liu et al.,2019d)、T5 (Rafael et al.,2020)和GPT-3 (Brown et al.,2020)的啟發,視覺語言預訓練(VLP)最近在兩個群體中引起了迅速增長的關注。隨著學習通用可轉移的視覺和視覺語言表示的希望,VLP已成為現代視覺語言研究的一個日益重要的訓練范式。最近,有一些關于VLP的相關調研論文。Zhang等人(2020a)關注的是預訓練時代之前的任務特定VL方法,并對VLP模型進行了簡明的討論。Du等人(2022);Li等人(2022e)關注的是VLP,但主要是圖像-文本任務,沒有涉及視頻-文本任務。Ruan和Jin(2022)專注于視頻-文本任務的VLP。Chen等人(2022a)回顧了用于圖像-文本和視頻-文本任務的VLP方法。然而,討論并不深入。本文的貢獻總結如下。

  • 我們對現代VLP進行了全面的綜述,不僅涵蓋了它在傳統圖像-文本和視頻-文本任務中的成功應用(例如,圖像/視頻字幕、檢索和問題回答),還展示了它在核心計算機視覺任務(例如,圖像分類、目標檢測和分割)中的巨大潛力。

  • 我們對VLP前沿的高級主題進行深入討論,從大基礎模型、統一建模、上下文少樣本學習、知識增強VLP、多語言VLP、模型魯棒性、模型壓縮,到開放計算機視覺。

  • 我們描繪了研究社區開發并向公眾發布的VL系統的景觀,通過案例研究展示了我們所取得的進展和我們所面臨的挑戰。

本文基于我們的CVPR 2022教程,以計算機視覺和NLP社區的研究人員作為我們的主要目標受眾。它詳細介紹了理解現代VLP方法所需的重要思想和見解,并為對VL表示學習的大規模預訓練及其在計算機視覺和多模態任務中的應用感興趣的學生、研究人員、工程師和從業人員提供了寶貴的資源。

本文的結構如下

  • 第一章介紹了VL研究的概況,并對VL研究從任務具體方法到大規模預訓練的轉變進行了歷史回顧。
  • 第二章介紹了早期針對特定任務的VL方法,用于可視化問題回答、圖像字幕和圖像文本檢索,這是理解現代VLP方法的基礎。
  • 第三章描述了圖像文本任務的VLP方法,如圖像字幕、圖像文本檢索、視覺問答和視覺接地。
  • 第四章描述了計算機視覺核心任務的VLP方法,包括(開放詞匯)圖像分類、目標檢測和分割。
  • 第五章描述了視頻文本任務中的VLP方法,如視頻字幕、視頻文本檢索和視頻問答。
  • 第六章簡要回顧了工業中開發的VL系統以及在現實環境中部署這些VL系統的挑戰。
  • 第七章對全文進行總結,并對研究趨勢進行了討論。

第2-5章是本文的核心章節。這些章節的結構概覽見圖1.1。由于VLP的浪潮始于圖像文本任務,我們首先對從早期的任務特定方法(第2章)到最新的具有圖像文本輸入的VLP方法(第3章)的過渡進行了全面回顧。在第4章中,我們討論了如何將核心計算機視覺任務視為具有開放詞匯表預測的圖像-文本任務,在經過對比預先訓練的圖像-文本模型(如CLIP (Radford et al,2021年))的支持下,并進一步使計算機視覺在荒野中實現(Li et al,2022b)。將圖像-文本任務擴展到更多的模式,我們在第5章中介紹了VLP方法如何通過視頻-文本輸入服務于更多的應用。 我們生活在一個多模態的世界里,我們的大腦自然地學會處理從環境中接收到的多感官信號,以幫助我們理解周圍的世界。更具體地說,視覺是人類感知的很大一部分,而語言是人類交流的很大一部分。根據其定義,一個多模態AI系統應該具有有效和高效處理這種多模態信號的能力。在不斷增長的VL研究文獻中,本文將VL問題分為三類,具體如下:

  • 圖像-文字任務。可以說,VL研究中最重要和研究最充分的任務是圖像文本檢索、圖像標題(Vinyals等人,2015年)和視覺問題回答(VQA) (Antol等人,2015年)(圖1.2中橙色突出)。圍繞這些任務,提出并研究了許多相關的任務

本文涉及的三類VL問題中的代表性任務:圖像-文本任務、視覺任務作為VL問題和視頻-文本任務。

VQA和視覺推理。作為視覺問題回答的延伸,研究人員為視覺推理開發了數據集(Hudson和Manning, 2019b;Suhr et al., 2019)、視覺常識推理(Zellers et al., 2019)、視覺對話(Das et al., 2017)、基于知識的VQA (Marino et al., 2019)、基于場景文本的VQA (Singh et al., 2019)等。這些任務要求的答案可以是開放式的自由形式的文本,也可以從多項選擇中選擇。 圖像描述。除了需要生成短單句的場景(Lin et al., 2014),研究人員還開發了用于圖像段落描述(Krause et al., 2017)、基于場景文本的圖像描述(Sidorov et al., 2020)、視覺敘事(Huang et al., 2016)等的數據集。——圖像文字檢索。流行的圖像文本檢索數據集是基于圖像標題數據集的(Chen等人,2015;普盧默等人,2015)。在給定圖像(或文本)查詢的情況下,AI模型需要從大型語料庫中檢索最相關的文本(或圖像)。 視覺接地。而不是文本輸出,參考表達理解和短語基礎(Yu et al., 2016;Plummer et al., 2015)需要邊界框輸出,其中模型需要預測與輸入文本查詢對應的邊界框。- 文本到圖像的生成。它可以被認為是圖像字幕的雙重任務,其中系統需要基于文本輸入創建高保真圖像。第3.6節對此任務進行了簡要討論。 *

  • 計算機視覺任務作為VL問題。圖像分類、目標檢測和分割(圖1.2中以粉色突出顯示)是計算機視覺的核心視覺識別任務。傳統上,這些任務被認為是純粹的視覺問題。隨著CLIP (Radford et al., 2021)和ALIGN (Jia et al., 2021)的出現,研究人員意識到語言監督可以在計算機視覺任務中發揮重要作用。首先,利用從網絡上抓取的有噪聲的圖像-文本數據,可以對視覺編碼器進行大規模的從無到有的預訓練。其次,我們不再將監督信號(如類標簽)視為單一熱點向量,而是考慮標簽背后的語義意義,將這些計算機視覺任務視為VL問題。該視角將傳統的閉集分類或檢測模型推廣到識別現實應用程序中未見的概念,如開放詞匯表對象檢測。

視頻文字任務。除了靜態圖像,視頻是另一種重要的視覺形式。當然,所有上述的圖像-文本任務都有相應的視頻-文本任務,例如視頻字幕、檢索和問題回答(圖1.2中用綠色突出顯示)。與圖像相比,視頻輸入的唯一性要求AI系統不僅要捕獲單個視頻幀中的空間信息,還要捕獲視頻幀之間固有的時間依賴性。

從歷史的角度看,VL研究的進展可分為三個階段。在圖1.3中,我們使用流行的VQA任務的表現來說明研究從任務特定方法向中等規模和大規模的預訓練過渡。

小規模任務具體方法設計(2014/11-2019/8)。在這個階段,許多特定于任務的方法已經被開發出來用于圖像字幕和VQA。例如,一個重要的工作方向是基于預提取的視覺特征(例如,ResNet (He et al., 2016)、Faster RCNN (Ren et al., 2015b)、C3D (Tran et al., 2015))、預訓練的詞嵌入(例如,GLoVe (Pennington et al., 2014)、word2vec (Mikolov et al., 2013b)和LSTM (Hochreiter和Schmidhuber, 1997)設計各種注意機制,我們將在第二章中回顧。這些注意方法設計已被用于捕獲多模態對齊、執行對象關系推理和建模多步推理。

中等規模的預訓練(2019/8-2021/8)。受BERT (Devlin et al., 2019)在NLP中的巨大成功的啟發,VL領域已逐漸轉向使用基于transformer的多模態融合模型,這些模型在中等規模的設置下預先訓練過,例如,使用最多4M圖像的圖像-文本數據集(總共約10M圖像-文本對),模型大小從110M (BERT-base)到340M (BERT-large)不等。中型VLP模型的典型例子包括unite (Chen等人,2020d)和OSCAR (Li等人,2020e),這將在第3章中描述。

大規模的訓練(2021/8-now)。隨著CLIP (Radford et al., 2021)和ALIGN (Jia et al., 2021)的出現,它們旨在從從網絡抓取的噪聲圖像-文本對中訓練圖像-文本雙編碼器,大規模VLP顯示出了巨大的前景,并正在成為VL研究的基礎。我們見證了大型多模態基礎模型的蓬勃發展,例如SimVLM (Wang等人,2022k)、Florence (Yuan等人,2021)、Flamingo (Alayrac等人,2022)、CoCa (Yu等人,2022a)和GIT (Wang等人,2022d)。VLP的高計算成本可以通過將預訓練的模型適應廣泛的下游任務來分攤。用于預訓練的圖像文本對的數量已經增加到12B以上,模型大小增長到5B,如GIT (Wang et al., 2022d)。我們將在第3.5.1節中詳細討論大模型。

什么是好的視覺語言預訓練模型?

**雖然VLP是一個新興的領域,出現了許多令人興奮的新論文,但作為一個社區,我們所追求的北極星是什么仍不清楚。**我們提供我們對方向的看法。我們認為一個好的VLP模型應該:

**在廣泛的下游任務中取得良好的表現。**可以在兩級粒度中考慮任務覆蓋率。首先,問題類型比較廣泛,例如,一個模型可以執行第3章的VQA、圖像字幕和文本到圖像生成等圖像-文本任務,第4章的圖像分類、目標檢測和分割等核心計算機視覺任務,第5章的視頻-文本任務,如視頻QA和字幕。其次,對于每一種問題類型,都有廣泛的數據集覆蓋,這些數據集表示不同的使用場景。例如,Li等人(2022b)提出了20個圖像分類數據集和35個對象檢測數據集,以說明野外的各種場景。

**以最小的成本適應新任務。**將VLP模型部署到新任務時,適應成本需要較低。可以考慮各種效率指標來衡量適應成本,包括推理速度、用于進一步模型權值更新的GPU使用情況、訓練樣本的數量和可訓練參數的數量。這是一個尚未明確定義的領域,但已經有了一些早期的努力。例如,Li等人(2022b)通過將適應成本分解為樣本效率和參數效率提供了一個定義。

總而言之,一個好的VLP模型的北極星是一個具有固定模型權重(或進行廉價的微調)的統一模型,它可以很好地執行上述所有任務。這是社區正在共同努力的一個雄心勃勃的目標。制定一個中心基準本身就是一個開放的研究問題。我們主張在對標VLP模型時考慮以下因素:任務的覆蓋率、這些任務的性能以及適應的成本。

【CVPR2022教程】微軟《視覺語言預訓練進展》教程,400+頁ppt

**視頻:**

付費5元查看完整內容

在過去的十年中,基于深度學習的算法在遙感圖像分析的不同領域中得到了極大的普及。最近,最初在自然語言處理中引入的基于transformers的架構已經遍及計算機視覺領域,其中自注意力機制已經被用來替代流行的卷積算子來捕獲遠程依賴。受計算機視覺最近進步的啟發,遙感界也見證了對視覺transformers在各種不同任務中的探索。盡管許多調查都集中在計算機視覺中的transformers上**,但據我們所知,我們是第一個對基于遙感transformers的最新進展進行系統綜述的人**。我們的調查涵蓋了60多種基于transformers的最新方法,用于解決遙感子領域的不同遙感問題:非常高分辨率(VHR)、高光譜(HSI)和合成孔徑雷達(SAR)圖像。我們通過討論transformers在遙感中的不同挑戰和開放問題來總結調研。此外,我們打算經常更新和維護遙感論文中最新的transformers,它們各自的代碼: https: //github.com/VIROBO-15/Transformer-in-Remote-Sensing

//www.zhuanzhi.ai/paper/bfb0308c1fdd624df840a15426edb230

導論

遙感成像技術在過去幾十年里取得了顯著的進步。現代機載傳感器以更高的空間、光譜和時間分辨率對地球表面進行大范圍覆蓋,在生態學、環境科學、土壤科學、水污染、冰川學、陸地測量和地殼分析等眾多研究領域發揮著至關重要的作用。遙感成像的自動分析帶來了獨特的挑戰,例如,數據通常是多模態的(如光學或合成孔徑雷達傳感器),位于地理空間(地理位置),通常在全球范圍內,數據量不斷增長。

深度學習,尤其是卷積神經網絡(CNNs)已經主導了計算機視覺的許多領域,包括物體識別、檢測和分割。這些網絡通常以RGB圖像作為輸入,并執行一系列卷積、局部歸一化和池化操作。CNN通常依賴于大量的訓練數據,然后得到的預訓練模型被用作下游各種應用的通用特征提取器。基于深度學習的計算機視覺技術的成功也激勵了遙感界,在許多遙感任務中取得了重大進展,包括高光譜圖像分類、變化檢測和高分辨率衛星實例分割。

卷積運算是CNN的主要組成部分之一,它捕獲輸入圖像中元素(如輪廓和邊緣信息)之間的局部相互作用。CNN編碼的偏差,如空間連通性和翻譯等方差。這些特性有助于構建可推廣和高效的體系結構。然而,局部接受域在CNN限制建模的遠程依賴圖像(如,遙遠的部分關系)。此外,卷積是內容獨立的,因為卷積濾波器的權值是固定的,對所有輸入應用相同的權值,而不管它們的性質。近年來,視覺transformers (ViTs)[1]在計算機視覺的各種任務中表現出了令人印象深刻的性能。ViT基于自注意力機制,通過學習序列元素之間的關系有效地捕獲全局交互。最近的研究[2],[3]表明ViT具有內容依賴的遠程交互建模能力,可以靈活調整其接受域以對抗數據中的干擾并學習有效的特征表示。因此,ViT及其變體已成功地用于許多計算機視覺任務,包括分類、檢測和分割。

隨著ViTs 在計算機視覺領域的成功,遙感界也見證了基于transformers的框架在許多任務中的應用的顯著增長(見圖1),如高分辨率圖像分類、變化檢測、平移銳化、建筑物檢測和圖像字幕。這開啟了利用ImageNet預訓練[4]-[6]或使用視覺transformers進行遙感預訓練[7]的不同方法的有前景的遙感研究的新浪潮。同樣,文獻中也存在基于純transformers設計[8]、[9]或基于transformers和CNN的混合方法[10]-[12]的方法。因此,由于針對不同遙感問題的基于transformers的方法迅速涌入,跟上最近的進展變得越來越具有挑戰性。在這項工作中,我們回顧了這些進展,并提出了最新的基于transformers的方法在流行的遙感領域。綜上所述,我們的主要貢獻如下:

本文對基于transformers的模型在遙感成像中的應用進行了全面綜述。據我們所知,我們是第一個在遙感中介紹transformers的調研,從而彌合了計算機視覺和遙感在這一快速增長和流行領域的最新進展之間的差距。

我們概述了CNN和transformers,討論了它們各自的優點和缺點。

本文綜述了60多項基于transformers的研究工作,討論了遙感領域的最新進展。

在此基礎上,討論了遙感transformers面臨的不同挑戰和研究方向。

論文的其余部分組織如下:第二節討論了其他有關遙感成像的調研。在第三節中,我們概述了遙感中不同的成像方式,而第四節提供了CNN和視覺transformers的簡要概述。之后,我們回顧了基于transformers的方法在非常高分辨率(VHR)成像(第五節)、高光譜圖像分析(第六節)和合成孔徑雷達(SAR)方面的進展。在第八部分,我們總結了我們的調研,并討論了潛在的未來研究方向。

遙感圖像數據集

遙感圖像通常從各種來源和數據收集技術獲得。遙感影像數據的典型特征是其空間、光譜、輻射和時間分辨率。空間分辨率指的是圖像中每個像素的大小,以及對應像素所代表的地球表面的面積。空間分辨率的特點是成像場景中可以分離的微小和精細特征。光譜分辨率是指傳感器通過識別更細的波長來收集場景信息的能力,具有更窄的波段(如10 nm)。另一方面,輻射分辨率表征了每個像素的信息程度,傳感器的動態范圍越大,就意味著在圖像中可以識別出更多的細節。時間分辨率是指在地面上獲取的相同位置的連續圖像之間所需的時間。在此,我們簡要討論常用的遙感成像類型,圖2所示的例子。

Transformers 遙感圖像處理

近年來,基于transformers的模型在許多計算機視覺和自然語言處理(NLP)任務中取得了很好的結果。Vaswani等人[17]首先將transformers作為注意力驅動模型引入機器翻譯應用。為了捕獲長距離依賴關系,transformers使用自注意力層,而不是傳統的循環神經網絡,后者努力編碼序列元素之間的這種依賴關系。為了有效地捕捉輸入圖像中的遠程依賴關系,[1]的工作引入視覺轉換器(ViTs)來完成圖像識別任務,如圖3所示。ViTs[1]將圖像解釋為補丁序列,并通過與NLP任務中使用的類似的傳統transformers編碼器對其進行處理。ViT在通用視覺數據中的成功不僅激發了計算機視覺的不同領域的興趣,也激發了遙感社區的興趣,近年來,許多基于ViT的技術已被探索用于各種任務。

遙感場景分類是一個具有挑戰性的問題,其任務是自動關聯一個語義類別標簽到一個給定的高分辨率圖像,包括地物和不同的土地覆蓋類型。在現有的基于視覺transformers的VHR場景分類方法中,Bazi等人[4]探討了標準視覺transformers 架構1的影響,并研究了產生加法數據的不同數據增強策略。此外,他們的工作還評估了通過修剪層次來壓縮網絡的影響,同時保持分類精度。

在VHR成像中,由于物體的尺度變化和類別的多樣性,目標的定位是一個具有挑戰性的問題。這里的任務是同時識別和定位(矩形或定向邊界框)圖像中屬于不同對象類別的所有實例。大多數現有的方法采用混合策略,結合有線電視網絡和transformers 的優點在現有的兩級和單級探測器。除了混合策略,最近很少有研究探討基于DETR的transformers 目標檢測范式[36]。

在遙感中,圖像變化檢測是探測地表變化的一項重要任務,在農業[50]、[51]、城市規劃[52]、地圖修訂[53]等方面有著廣泛的應用。這里的任務是生成通過比較多時間或雙時間圖像獲得的變化圖,所得到的二進制變化圖中的每個像素根據對應位置是否發生了變化而具有0或1值。在最近的基于transformer的變化檢測方法中,Chen等人[54]提出了一種雙時間圖像transformer,封裝在一個基于深度特征差異的框架中,旨在對時空上下文信息建模。在提出的框架中,編碼器被用于捕獲基于標記的時空中的上下文。然后將所得到的上下文化令牌提供給解碼器,在解碼器中,特征在像素空間中進行細化。Guo等人[55]提出了一種深度多尺度連體結構,稱為MSPSNet,利用并行卷積結構(PCS)和自我關注。本文提出的MSPSNet通過PCS對不同時間點圖像進行特征集成,然后基于自注意力的特征細化,進一步增強多尺度特征。

在遙感領域,通過像素級分類自動將圖像分割為語義類是一個具有挑戰性的問題,其應用范圍廣泛,包括地質調查、城市資源管理、災害管理和監測等。現有的基于transformers的遙感圖像分割方法通常采用混合設計,目的是結合CNNs和transformers的優點。[65]提出了一種基于transformers的輕型框架Efficient-T,該框架包含隱式邊緣增強技術。提出的Efficient-T采用分層式Swin-transformers和MLP頭。[66]中引入了一種耦合的CNN-transformers框架,稱為CCTNet,旨在將CNN捕捉到的局部細節,如邊緣和紋理,以及通過transformers獲得的全局上下文信息結合起來,用于遙感圖像的裁剪分割。此外,還引入了測試時間增強和后處理等模塊,在推理時去除孔洞和小目標,從而恢復完整的分割圖像。

在這項工作中,我們介紹了遙感成像transformers的廣泛概述:非常高分辨率(VHR),高光譜和合成孔徑雷達(SAR)。在這些不同的遙感圖像中,我們進一步討論了基于transformers 的各種任務的方法,如分類、檢測和分割。我們的調研涵蓋了60多個基于transformers 的遙感研究文獻。我們觀察到transformers 在不同的遙感任務中獲得了良好的性能,這可能是由于它們捕獲遠程依賴關系的能力以及它們的表示靈活性。此外,幾種標準transformers 架構和主干的公開可用性使得探索它們在遙感成像問題中的適用性變得更加容易。

付費5元查看完整內容
北京阿比特科技有限公司