亚洲男人的天堂2018av,欧美草比,久久久久久免费视频精选,国色天香在线看免费,久久久久亚洲av成人片仓井空

摘要—遙感中的時序圖像分析傳統上集中于變化檢測,即識別在不同時間拍攝的圖像之間的變化區域。然而,變化檢測仍然局限于其對視覺層面解讀的關注,往往缺乏上下文或描述性信息。視覺-語言模型(VLMs)的興起為遙感時序圖像分析引入了一個新維度,通過將視覺信息與自然語言相結合,為時序圖像變化的高級解讀開辟了新的方向。遙感時序視覺-語言模型(RSTVLMs)允許動態交互,生成描述性字幕、回答問題,并提供對時序圖像更豐富的語義理解。這種時序視覺-語言能力對于復雜的遙感應用尤為重要,其中高層次的洞察力至關重要。本文全面回顧了RSTVLM研究的進展,重點介紹了最新的VLM在時序圖像分析中的應用。我們對核心方法、數據集和評估指標進行了分類和討論,突出了時序視覺-語言任務中的最新進展,并概述了該新興領域的主要挑戰和未來研究方向。本綜述填補了文獻中的關鍵空白,提供了RSTVLM的綜合概述,為遙感時序圖像理解的進一步發展奠定了基礎。我們將在//github.com/Chen-Yang-Liu/Awesome-RS-Temporal-VLM上持續追蹤相關工作。

關鍵詞—遙感,時序圖像理解,視覺-語言模型,大型語言模型。

I. 引言遙感技術通過衛星、無人機等各種平臺獲取地球表面的圖像信息【1】–【4】。它在環境監測、城市規劃、災害預警和評估等關鍵領域中發揮著重要作用【5】–【8】。早期的遙感圖像解譯主要集中于單時相圖像的分析,包括土地覆蓋分類【9】、物體檢測【11】【12】和語義分割【13】【14】等任務。然而,單時相圖像僅反映特定時刻的表面狀況,無法捕捉跨時間的動態變化。隨著遙感技術和設備的快速進展,獲取多時相遙感圖像的能力得到了顯著提高【15】–【17】。多時相遙感圖像提供了不同時間點下某些位置的表面特征信息,為地表變化的動態監測開辟了新途徑【18】【19】。這一時序維度至關重要,因為它使研究人員能夠分析隨時間變化的趨勢,從而對環境動態有更全面的了解。早期的時序圖像理解主要集中于變化檢測技術,通過比較不同時間段的圖像來定位變化區域,如植被覆蓋變化或新建筑物的出現【20】【21】。然而,變化檢測通常僅在視覺層面上檢測變化位置,缺乏對變化的更高層次語義理解,如變化對象的類型、變化過程中的狀態,以及對象之間的關系【22】–【24】。近年來,像Llava【25】和GPT-4【26】等視覺-語言模型(VLMs)取得了突破性進展,推動了多模態研究領域對視覺-語言模型的關注【27】–【29】。VLMs結合了計算機視覺和自然語言處理技術,能夠全面理解視覺和文本信息。與專注于單一圖像模態的視覺模型不同,VLMs不僅識別圖像中的目標對象,還理解它們之間的關系,生成描述性語言或回答問題。這一能力在遙感領域具有巨大的應用潛力【30】–【32】。在遙感領域,已有研究探討了各種視覺-語言模型,如圖像描述【33】–【36】、視覺問答(VQA)【37】–【40】、視覺問題生成【41】【42】、圖像檢索【43】–【45】和視覺定位【46】–【48】等。一些近期的研究探索了基于大型語言模型(LLMs)的遙感視覺語言模型,如RSGPT【49】、GeoChat【50】、H2RSVLM【51】、LHRS-Bot【52】和EarthGPT【53】。然而,這些VLMs主要關注單時相遙感圖像,無法實現多時相遙感圖像的理解。隨著VLM的不斷發展,針對多時相遙感圖像的研究進入了一個新的發展階段。研究人員越來越多地探索專為時序圖像理解設計的遙感時序視覺-語言模型(RS-TVLMs),涉及變化描述【22】【23】和變化視覺問答【54】【55】等任務。RS-TVLMs的研究豐富了時序圖像解譯的工具。語言作為人類溝通和知識的載體【56】,在融入時序圖像分析時能夠增強模型的高層次理解。通過將時序視覺信息與語言結合,RS-TVLMs不僅可以識別目標和變化,生成描述性文字,回答相關問題,還能進行多模態交互,從而將時序圖像的解譯擴展到超越單純的視覺判斷。圖1展示了一些具有代表性的RS-TVLM及其發表日期,表明該領域的研究可追溯到2021年。目前,相關研究數量正在迅速增加。盡管RS-TVLMs的研究興趣日益增長,但系統性的綜述仍然較少。現有的許多研究集中于特定任務的孤立方法,這使得研究人員很難全面了解該領域的進展和未來方向。貢獻。鑒于RS-TVLMs的快速進展和良好的發展前景,我們撰寫了本綜述,旨在讓研究人員了解基本概念、主要方法、數據集、評估指標及變化描述和變化視覺問答等任務的當前進展。據我們所知,這是關于RS-TVLMs的首篇綜述。通過回顧現有研究,我們希望為該領域的研究描繪清晰的路徑和未來方向,彌補當前相關綜述中的空白,并為遙感時序圖像理解的RS-TVLM研究奠定基礎。IV. 遙感時序視覺-語言模型目前,遙感時序圖像中的視覺-語言理解研究主要集中在幾個關鍵領域:變化描述、變化視覺問答、變化檢索和變化定位。這些任務旨在通過多模態建模和語言理解增強遙感時序圖像的解譯。此外,隨著大型語言模型(LLMs)的發展,一些近期的研究探索了將LLMs集成進來,進一步提升遙感時序圖像的視覺-語言理解。

A. 遙感變化描述

當前,遙感時序圖像的視覺-語言理解研究主要集中在遙感變化描述(RS-CC)任務上。該任務旨在生成詳細準確的自然語言,描述不同時間拍攝的遙感圖像中的地理特征變化【22】【23】【140】。這種描述有助于用戶快速理解關鍵變化,并為時序遙感數據的決策和分析提供直觀的語義支持。變化描述要求模型準確識別重要變化,并將其轉化為自然、連貫的語言。這個轉化過程不僅依賴于精確的視覺變化識別,還要求具有較強的語言生成能力,以確保語言的準確性和流暢性。以往的變化描述方法通常基于深度學習,并遵循三階段架構,如圖4所示:視覺編碼、雙時相融合和語言解碼。每個階段對整體模型性能有重要影響,因此近期的研究集中在提高這三個階段的性能。表I總結了一些代表性的方法。視覺編碼旨在從雙時相圖像中提取豐富的語義特征,通常采用Siamese編碼器以促進雙時相圖像之間的比較。編碼器通常基于卷積神經網絡(CNNs)或視覺變換器(ViTs)。CNNs在捕捉空間細節方面表現優異,而ViTs則通過全局注意力機制提取廣泛的地理信息。許多方法利用預訓練的圖像編碼器,如ResNet【141】或ViT【142】。例如,Chang等人【22】使用ResNet-101作為編碼器,Liu等人【143】使用ViT,并比較了在ImageNet【144】和CLIP【145】上訓練的ViT的性能。此外,一些研究探索了通過自監督學習訓練專門適應變化提取的編碼器。例如,Zhou等人【24】提出了一種在大規模雙時相遙感圖像數據集上預訓練的單流提取器,顯著增強了變化特征提取的魯棒性。大多數研究集中在提高雙時相融合階段的模型性能,這是變化描述的核心階段。該階段旨在整合雙時相特征,捕捉潛在的時序變化模式。在雙時相融合過程中,模型應準確識別兩張圖像之間的顯著差異,同時抑制無關的偽變化(例如,由于光照或天氣變化導致的變化)。以往的研究通常采用CNN或Transformer作為基本模塊,并提出一些注意力機制來增強模型的變化感知能力。例如,Liu等人【23】提出了一種基于Transformer的方法,稱為RSICCformer,該方法由多個交叉編碼模塊組成,利用差異特征,允許模型關注每張圖像中的變化區域。此外,研究人員還將多尺度策略融入到方法中,以進一步增強模型識別多樣變化的能力【148】【149】。語言解碼器將融合后的視覺特征轉化為自然語言描述。早期的方法使用支持向量機(SVM)或長短期記憶(LSTM)網絡進行語言生成。Chouaf和Hoxha等人【150】【151】比較了RNN和支持向量機(SVM)作為語言解碼器的性能。鑒于Transformer解碼器具有強大的生成能力,RSICCformer【23】首次將Transformer引入遙感變化描述任務,采用交叉注意力機制,使模型在生成單詞時能專注于特定的圖像區域。盡管Transformer表現良好,但隨著序列長度的增加,模型的計算復雜度呈平方級增長。為了解決這一挑戰,近期的研究引入了Mamba模型【116】,該模型以線性復雜度運行。Liu等人【122】提出了空間差異感知SSM(SDSSM)和時空遍歷SSM(TT-SSM)以改善時空聯合建模的能力。此外,他們比較了三種不同的語言解碼器,包括Mamba、生成預訓練Transformer(GPT)風格解碼器和Transformer解碼器。上述的編碼-融合-解碼框架以耦合方式處理變化和不變的圖像對。與此不同,Liu等人【143】提出了一種解耦范式,將變化描述解耦為兩個問題:“是否發生變化”和“發生了什么變化”。他們將解耦結果輸入到預訓練的大型語言模型(LLM)中,通過多提示學習策略進行語言生成。解耦范式使研究人員能夠獨立集中于改善變化圖像對和不變圖像對的描述。

B. 變化檢測與描述的多任務學習

在遙感時序圖像分析中,變化檢測和變化描述任務側重于不同層次的變化信息提取【103】【166】。變化檢測主要關注生成像素級的變化掩膜,通過雙時相圖像識別和突出變化區域。相比之下,變化描述則旨在對這些變化進行語義層次的理解,包括對象屬性和上下文關系。鑒于這兩個任務之間的內在聯系,近期的研究將變化檢測和變化描述整合為統一的多任務學習框架,以提高變化解譯的整體效率和準確性。表II總結了一些代表性的方法。Change-Agent【103】是該領域的代表性工作之一,建立了一個多任務學習框架,為后續的研究奠定了基礎【166】–【170】。如圖5所示,該框架基于共享的視覺編碼器,分別為變化檢測和變化描述任務采用兩個任務特定的分支。在視覺編碼階段,模型從雙時相圖像中提取時序特征,這些融合的特征為每個任務的后續分支提供支持。值得注意的是,與傳統的變化檢測模型類似,變化檢測分支通常利用視覺編碼器提取的多尺度雙時相特征,以確保變化掩膜的精確性和細節。與此同時,變化描述分支通常僅利用最深層的視覺特征,關注變化的語義,設計上與單任務變化描述模型相似。在多任務框架中平衡兩項任務的訓練是一項關鍵挑戰。當前的研究通常應用加權損失,通過不同的權重將變化檢測和變化描述的損失結合起來。例如,文獻【166】采用了通過調整輔助任務梯度大小的元平衡策略【171】,而【169】和【170】則采用了動態權重平均策略【172】。此外,一些近期研究探索了變化檢測如何專門幫助變化描述提高描述的準確性【163】【173】。核心思想是,像素級的變化檢測能夠增強變化描述模型識別變化的能力,特別是在低光照條件下或針對小結構的變化。例如,MV-CC【163】使用低分辨率的變化檢測掩膜作為顯式指導,幫助模型準確關注變化區域。 C. 遙感變化視覺問答

遙感變化視覺問答(RS-CVQA)任務旨在根據時間變化的遙感圖像和用戶特定問題生成自然語言回答。與變化檢測和圖像標注任務不同,RS-CVQA強調用戶與時間變化圖像之間的互動語言交流,提供了一種更加靈活和高效的方式來獲取圖像中變化的信息。圖6展示了一個典型的RS-CVQA模型框架,包括以下關鍵階段:視覺編碼、問題編碼、多模態交互和答案生成。一些代表性的方法在表III中進行了總結。在視覺編碼階段,模型通常采用雙重編碼器分別從雙時相遙感圖像中提取特征,并融合這些時間特征以捕捉圖像中的變化信息。 在問題編碼階段,通常使用預訓練的語言模型(如BERT [130] 或 GPT [174])將用戶的復雜問題轉化為適合模型理解的語義嵌入。 在多模態交互階段,廣泛應用注意力機制(如自注意力和交叉注意力)來對齊和融合視覺變化與語言特征,使得模型能夠根據問題中的語義提示,關注圖像中的關鍵變化區域。這種多模態交互增強了模型對圖像變化的理解,并確保生成的答案與視覺內容緊密相關。 最后,答案生成階段將融合的多模態特征轉化為自然語言回答。根據答案生成方法,RS-CVQA方法大致分為兩類:基于候選答案的RS-CVQA和逐字生成的RS-CVQA。在基于候選答案的RS-CVQA中,答案生成模塊被設計為多類別分類器,從預定義的候選答案集中選擇最佳答案。Yuan等人[175]首次提出了這個任務,將答案分為幾個固定類別,并允許分類器從中直接選擇答案。這種方法計算效率高且穩定,適用于目標明確且變化類型固定的任務。然而,由于其依賴于有限的預定義答案池,這種方法的靈活性較差,可能不適用于處理更復雜、開放性的問題。 相比之下,逐字生成的RS-CVQA采用生成語言模型(如Transformer解碼器)逐字生成答案。這種方法更適合開放性問題,能夠生成靈活且細膩的回答。隨著大規模語言模型(LLM)的興起,基于生成模型的RS-CVQA逐漸成為主流,許多最新的方法開始整合LLM,以提供更豐富的答案生成能力。例如,ChangeChat[176]和CDChat[177]使用與先前的LLava[25]和Minigpt-4[178]類似的架構,使用雙時相視覺嵌入和用戶文本嵌入作為LLM Vicuna-v1.5[179]的前綴。 D. 遙感文本到變化檢索

隨著遙感圖像數據的快速增長,如何高效地檢索符合特定用戶需求的圖像,已成為環境監測、災害評估和城市規劃等領域的關鍵問題。傳統的基于文本的圖像檢索技術將用戶提供的查詢文本與單時相圖像進行匹配。然而,這種技術忽略了遙感圖像中的時間變化,難以滿足用戶對動態場景的檢索需求。 遙感文本到變化檢索(RSI-TCR)應運而生,以解決這一限制。其核心目標是高效檢索符合用戶輸入查詢描述的圖像變化的雙時相圖像對。RSI-TCR顯著減少了篩選大規模數據集所需的人工工作量,提高了龐大遙感數據集的可用性。這項技術在實際場景中展現了巨大的價值。例如,在災害管理中,RSI-TCR可以根據查詢文本(如“洪水淹沒”)迅速定位受影響區域的時相圖像,為災后應急響應提供必要的數據。 與傳統的基于文本的圖像檢索任務(通常涉及“文本”和“圖像”之間的二元匹配)相比,RSI-TCR更加復雜,因為它需要進行三模態匹配——“事件前圖像”、“事件后圖像”和“文本”。這種復雜性要求模型在多模態語義空間內處理時空變化和文本信息之間的復雜關系。Ferrod等人[102]首次使用LEVIR-CC數據集[23]研究了RSI-TCR任務,并提出了該任務的框架,如圖7所示。在他們的方法中,Chg2Cap模型[22]的編碼器被用來從雙時相圖像中提取語義變化嵌入。用戶提供的查詢文本通過Transformer解碼器編碼為文本嵌入。然后,他們通過對比學習損失函數(特別是InfoNCE [181])將圖像變化嵌入與查詢文本嵌入對齊。RSI-TCR中的核心挑戰之一是偽負樣本的問題。具體來說,在訓練批次中標記為負樣本的圖像對,實際上可能是與查詢文本匹配的正樣本,這可能干擾模型訓練。這個問題在許多使用對比學習的任務中都很常見,并且已有解決方案來應對這個問題[182][183]。為了解決這個問題,Ferrod等人[102]采用了兩種常見的策略來提高復雜變化場景中的檢索精度:1)偽負樣本排除(FNE):排除可能的偽負樣本以防干擾。2)偽負樣本吸引:將可能的偽負樣本重新標記為正樣本,以更好地對齊數據中的真實關系。E. 遙感變化定位

遙感變化定位(RS-CG)旨在在雙時相遙感圖像中識別和定位由用戶提供的查詢文本所指示的變化區域。通過將自然語言作為查詢模態,RS-CG顯著增強了用戶交互的靈活性,相比傳統的變化檢測方法(僅限于固定類別的輸出)。RS-CG的輸出通常以兩種形式呈現:邊界框和像素級掩模,如圖8所示。 邊界框通過矩形輪廓標注變化區域,提供目標變化的直觀空間位置。而像素級掩模則提供變化區域形狀和邊界的精確劃分,非常適合細粒度分析。 Irvin等人[101]采用了受LLaVA-1.5[25]啟發的模型架構。他們使用時間共享的ViT-L/14對時間變化圖像進行編碼,通過MLP將嵌入映射后再送入LLaMA-2[107]。LLM輸出邊界框的坐標,以文本格式有效地將檢測到的變化定位到輸入查詢中。Li等人[55]提出了一種名為VisTA的新型多任務模型,設計用于變化檢測問答和定位。VisTA不僅能夠回答用戶問題,還能同時生成與文本答案相關的像素級變化掩模。文本答案通過雙層MLP生成,而掩模解碼器由兩個注意力模塊組成。這種雙重輸出方法使VisTA能夠提供語義和視覺的雙重解釋,成為RS-CG任務的多功能解決方案。

結論通過將計算機視覺與自然語言處理相結合,遙感時間變化視覺語言模型(RS-TVLMs)大大增強了分析時間變化遙感數據的能力,在災害監測、環境分析和城市規劃等領域具有廣泛應用。本文綜述了RS-TVLMs的進展,包括基本概念、主要方法、數據集和評估指標。通過回顧現有研究,我們旨在為該領域的研究提供清晰的發展路徑和未來方向。此外,仍然存在一些挑戰,如大規模數據集的收集、基礎模型的設計以及多時相圖像序列的處理等。

付費5元查看完整內容

相關內容

摘要—視覺目標跟蹤(VOT)是計算機視覺領域一個具有吸引力且重要的研究方向,其目標是在視頻序列中識別和跟蹤特定目標,且目標對象是任意的、與類別無關的。VOT技術可以應用于多種場景,處理多種模態的數據,如RGB圖像、熱紅外圖像和點云數據。此外,由于沒有單一傳感器能夠應對所有動態和變化的環境,因此多模態VOT也成為了研究的重點。本文全面綜述了近年來單模態和多模態VOT的最新進展,特別是深度學習方法的應用。具體而言,本文首先回顧了三種主流的單模態VOT,包括RGB圖像、熱紅外圖像和點云跟蹤。特別地,我們總結了四種廣泛使用的單模態框架,抽象出其架構,并對現有的繼承方法進行了分類。接著,我們總結了四種多模態VOT,包括RGB-深度、RGB-熱紅外、RGB-LiDAR和RGB-語言。此外,本文還呈現了所討論模態在多個VOT基準測試中的對比結果。最后,我們提出了建議和深刻的觀察,旨在激發這一快速發展的領域的未來發展。 關鍵詞—視覺目標跟蹤,深度學習,綜述,單模態,多模態

//www.zhuanzhi.ai/paper/2edd0971ae625f759822052af4d569fd

1 引言

視覺目標跟蹤(VOT)是過去幾十年來計算機視覺領域的一個高度活躍的研究課題,因其在視頻監控 [1]、[2]、[3]、自動駕駛 [4]、[5]、移動機器人 [6]、[7]、人機交互 [8]、[9] 等廣泛場景中的重要應用而受到關注。VOT任務的定義是:給定目標在第一幀中的邊界框位置,跟蹤器需要在隨后的所有幀中持續且魯棒地識別和定位該目標,其中目標可以是任意實例且不依賴于類別。這個任務非常具有挑戰性,因為:1)目標可能經歷諸如形變、旋轉、尺度變化、運動模糊和視野丟失等復雜的外觀變化;2)背景可能帶來諸如光照變化、相似物體干擾、遮擋和雜亂等無法控制的影響;3)視頻捕捉設備可能會震動和移動。 作為計算機視覺中的一項核心任務,VOT有多種數據模態可供選擇。最常見的模態是RGB視頻,因其普及和易獲取性,吸引了大量研究者關注這一任務。RGB模態的VOT提供了在圖像坐標系下的大致目標位置,并通過二維邊界框為許多高級圖像分析任務奠定了基礎,例如姿態估計、步態/活動識別、細粒度分類等。基于RGB的VOT的演進 [2]、[10]、[11]、[12] 是持久且歷史悠久的,隨著深度學習 [13]、[14]、[15]、[16]、[17] 和大規模數據集 [18]、[19]、[20] 的出現,這一進展進一步加速。本文主要關注過去十年中的方法,特別是基于深度神經網絡(DNN)的方法。根據其工作流程,我們將主流的RGB跟蹤器分為四類:判別性相關濾波器(DCF) [17]、[21],Siamese跟蹤器 [22]、[23]、[24],實例分類/檢測(ICD) [25]、[26]、[27] 和單流變換器(OST) [1]、[28]、[29]。為了便于說明,圖3展示了這四種基于深度學習的框架及其最簡化的組件。前兩種框架在過去十年中非常流行,而后兩種則較少被提及,甚至在以往的綜述中沒有出現過,因為ICD不像DCF和Siamese那么常見,OST則是一個自2022年才出現的新框架。 另一方面,RGB模態的缺點也非常明顯,應用場景受到限制。首先,它在夜間和惡劣天氣(如雨天和雪天)下的表現不盡如人意。在這些嚴酷的視覺條件下,可以使用基于熱紅外(TIR)的VOT [30]、[31]、[32],通過TIR攝像機捕捉來自生物體的熱輻射,在沒有光照的情況下跟蹤目標。其次,缺乏深度信息使得單一的RGB模態VOT無法感知三維幾何和定位信息,這在自動駕駛和移動機器人等應用場景中尤為重要。最近,基于LiDAR的VOT [5]、[33]、[34]、[35] 應運而生,解決了這一問題,通過探索3D點云的內在幾何結構來感知目標的深度。LiDAR點的幾何結構有助于感知目標物體的深度,從而提供精確的3D形狀和位置。因此,本文還概述了兩種單模態VOT方法(基于TIR和LiDAR的)。此外,容易發現這些模態之間的共同框架,以便更好地理解。例如,基于TIR的跟蹤器通常遵循DCF和Siamese框架,因為TIR數據格式與RGB圖像非常相似。同樣,基于LiDAR的VOT借用了RGB模態中的Siamese框架,并將其發展為主導3D跟蹤領域的方法。 此外,由于不同的單模態VOT各有優缺點,因此也提出了融合多模態信息的跟蹤器,具有提高精度和魯棒性的潛力。更具體地說,融合意味著將兩種或多種模態的信息結合起來進行目標跟蹤。例如,TIR傳感器對光照變化、偽裝和物體姿態變化不敏感,但在人群中區分不同人的TIR輪廓會比較困難。另一方面,RGB傳感器則具有相反的特性。因此,直觀地將這兩種模態進行融合,可以互相補充 [36]、[37]、[38]。此外,融合選擇可能根據不同的應用有所不同。例如,RGB-LiDAR [39]、[40] 可以是適用于機器人跟隨的良好選擇,因其需要準確的3D信息;而RGB-語言VOT [8]、[9]、[41] 則適用于人機交互。隨著實際需求的增加,VOT領域的一些研究者已轉向集成多種模態,以構建魯棒的跟蹤系統。 現有關于VOT的綜述論文主要集中在單一RGB模態方法的不同方面和分類 [42]、[43]、[44]、[45]、[46]、[47]、[48]、[49]、[50]。例如,最近的綜述 [46] 將現有的RGB跟蹤器分為生成性跟蹤器和判別性跟蹤器。Javed等人 [43] 介紹了兩種廣為人知的RGB基VOT框架,即DCF和Siamese。然而,這些以往的工作未包含最新流行的基于變換器的方法,而這些方法不僅建立了新的最先進的性能,還帶來了許多有洞察力的研究方向。此外,ICD框架的展示也不夠充分。而且,關于多模態VOT的綜述非常少,要么僅討論了兩種模態(RGB-Depth和RGB-TIR) [51],要么側重于多線索特征的融合(如顏色、梯度、輪廓、空間能量、熱輪廓等) [52]、[53]。在過去五年里,我們目睹了多模態VOT的顯著進展。同時,新的研究方向如基于LiDAR的VOT、RGB-LiDAR VOT和RGB-語言VOT相繼出現。然而,這些研究在以往的VOT綜述中未被很好地總結。 本文從數據模態的角度,系統地回顧了VOT方法,考慮了單模態VOT和多模態VOT的最新發展。我們在圖1中總結了所回顧的模態及其代表性示例、優缺點和應用。具體而言,我們首先概述了三種常見的單模態VOT方法:基于RGB、基于TIR和基于LiDAR的。接下來,我們介紹了四種多模態融合跟蹤方法,包括RGB-Depth、RGB-TIR、RGB-LiDAR和RGB-Language。除了算法外,我們還報告并討論了不同模態的VOT基準數據集及其結果。本文的主要貢獻總結如下:

  1. 我們從數據模態的角度全面回顧了VOT方法,包括三種常見的單模態(RGB、TIR、LiDAR)和四種多模態(RGB-Depth、RGB-TIR、RGB-LiDAR、RGB-Language)。據我們所知,這是第一篇綜述工作,展示了新興的基于LiDAR、RGB-LiDAR和RGB-Language的VOT方法。
  2. 我們總結了四種廣泛使用的基于深度神經網絡的單模態跟蹤器框架,抽象出其架構并展示了其對應的定制繼承者。
  3. 我們提供了對VOT社區中300多篇論文的全面回顧,涉及最新和先進的方法,為讀者提供了最先進的技術和工作流程。
  4. 我們對不同模態的現有方法在廣泛使用的基準測試中的表現進行了廣泛比較,并最終給出了深刻的討論和有前景的未來研究方向。

本文的其余部分安排如下:第2節介紹現有的VOT綜述,并闡述本文的不同方面。第3節回顧了使用不同單一數據模態的VOT方法及其比較結果。第4節總結了多模態VOT方法。第5節介紹了不同模態的VOT數據集。最后,第6節討論了VOT的未來發展潛力。由于篇幅限制,部分結果表格,包括單模態和所有多模態結果,已移至附錄A,且不同模態的VOT數據集介紹見附錄B。

付費5元查看完整內容

摘要—文本到圖像 (T2I) 擴散模型 (DMs) 因其在圖像生成方面的顯著進展而受到廣泛關注。然而,隨著其日益普及,與信任度的關鍵非功能性屬性相關的倫理和社會問題也日益凸顯,例如魯棒性、公平性、安全性、隱私性、事實性和可解釋性,這些問題與傳統深度學習 (DL) 任務中的類似問題相似。由于 T2I DMs 的獨特特性,例如其多模態性,傳統的研究深度學習任務信任度的方式往往不足以應對這些問題。鑒于這一挑戰,近年來一些新方法被提出,通過偽造、增強、驗證與確認以及評估等多種方式來研究 T2I DMs 的信任度。然而,關于這些非功能性屬性和方法的深入分析仍然相對缺乏。在本次調研中,我們對可信的 T2I DMs 文獻進行了及時且重點突出的回顧,涵蓋了從屬性、手段、基準和應用等角度構建的簡明分類結構。我們的調研首先介紹了 T2I DMs 的基本知識,隨后總結了 T2I 任務特有的關鍵定義/指標,并基于這些定義/指標分析了最新文獻中提出的研究手段。此外,我們還回顧了 T2I DMs 的基準測試和領域應用。最后,我們指出了當前研究中的空白,討論了現有方法的局限性,并提出了未來研究方向,以推動可信 T2I DMs 的發展。此外,我們還通過我們的 GitHub 倉庫(//github.com/wellzline/Trustworthy-T2I-DMs)保持領域最新進展的更新。 關鍵詞—文本到圖像擴散模型,人工智能安全,可靠性,負責任的人工智能,基礎模型,多模態模型。

1. 引言

文本到圖像 (T2I) 擴散模型 (DMs) 在生成高保真圖像方面取得了顯著進展。通過簡單的自然語言描述生成高質量圖像的能力,可能會為多個現實世界的應用帶來巨大好處,如智能汽車 [1], [2], [3]、醫療保健 [4], [5], [6],以及一系列不受領域限制的生成任務 [7], [8], [9], [10], [11]。擴散模型是一類概率生成模型,它通過先注入噪聲再進行逆過程來生成樣本 [12]。T2I DMs 是其中的一種特殊實現,通過描述性文本作為指導信號來引導圖像生成。像 Stability AI 的 Stable Diffusion (SD) [13] 和 Google 的 Imagen [14] 這樣的模型,經過大規模帶注釋的文本-圖像對數據集訓練,能夠生成照片般真實的圖像。商業產品如 DALL-E 3 [15] 和 Midjourney [16] 在多個 T2I 應用中展示了令人印象深刻的能力,推動了該領域的發展。 然而,類似于傳統深度學習 (DL) 系統 [17], [18], [19],T2I DMs 的日益普及和進步也引發了倫理和社會問題 [20], [21], [22],特別是圍繞信任度的一系列非功能性屬性問題,包括魯棒性、公平性、安全性、隱私性、事實性和可解釋性。然而,由于 T2I DMs 的獨特特性,傳統 DL 的信任度研究方法并不直接適用于它們。這里有兩個主要區別:(1) 傳統的信任度研究通常針對單一模態系統,無論是文本 [23], [24] 還是圖像 [25], [26],而 T2I DMs 涉及多模態任務,處理輸入(文本)和輸出(圖像)等更為多樣的數據結構 [27],這使得傳統 DL 任務中提出的黑箱信任度方法不再適用;(2) 與傳統的確定性 AI 模型(如用于 DL 分類任務的模型)相比,T2I DMs 的生成機制有所不同。即使與生成式對抗網絡 (GANs) 等隨機生成式 AI 模型相比,T2I DMs 的訓練目標和基礎算法也有本質區別 [28], [29], [30]。因此,傳統 DL 的白箱方法無法直接應用于 T2I DMs。T2I DMs 的這些獨特特性要求開發新的方法來應對其特定的信任度挑戰。 為應對這一挑戰,近年來涌現了大量關于 T2I DMs 信任度的研究。然而,社區中仍然缺乏專門針對這一關鍵且新興領域的調查研究。為此,本次調研旨在填補這一空白——提供一份關于 T2I DMs 信任度的及時且重點突出的文獻綜述。

范圍、分類和術語

在本次調研中,我們特別關注 T2I DMs 信任度的六個關鍵非功能性屬性1:魯棒性、公平性、安全性、隱私性、事實性和可解釋性。此外,我們通過四種方式探討這些屬性:偽造、增強、驗證與確認 (V&V) 以及評估。我們對屬性和手段的選擇基于傳統 DL 系統中常研究的信任度和安全性方面 [17], [31], [32],這些系統定義了一組類似的屬性,僅在命名上略有不同。此外,我們還總結了 T2I DMs 的幾個基準測試和應用領域。該分類如圖 1 所示。 圖 1. 可信 T2I DMs 的分類。

我們現在為每個屬性提供非正式定義,正式定義將在后面介紹:

  • 魯棒性 是指模型在面對“小”輸入擾動時保持一致性能的能力。
  • 公平性 是確保模型輸出不會偏向或歧視某些個人或群體。
  • 安全性(本文中特別關注后門攻擊)涉及保護模型免受隱藏漏洞的攻擊,這些漏洞可能在特定輸入觸發時導致惡意預測。
  • 隱私性 是指訓練模型可能無意中泄露訓練數據中的敏感信息的風險。
  • 可解釋性 旨在使模型的內部工作機制變得可理解,為模型如何做出決策提供洞見。
  • 事實性 是指生成的圖像與文本描述的常識或事實保持一致,而不僅僅是與文本提示相匹配。

此外,我們將研究這些屬性的四種主要手段進行分類:

  • 偽造 涉及通過設計和執行復雜攻擊暴露模型的漏洞,從而展示模型的缺陷或弱點。
  • 驗證與確認 (V&V) 側重于確保模型的正確性,檢查其是否符合預定義的(正式)規范。
  1. 非功能性屬性(也稱為質量屬性)指的是描述系統如何執行其功能的特性,而不是系統執行什么功能。
  • 評估 類似于 V&V,但不針對特定規范,而是設計和應用指標來評估模型。
  • 增強 涉及實施對策以保護模型免受各種威脅或修復影響模型信任度的缺陷。

總而言之,在本次綜述的范圍內,偽造旨在“查找漏洞”,評估旨在設計信任度測量規范,V&V 旨在實施符合過程,最后,增強旨在設計附加機制。

相關綜述

擴散模型 (DMs) 在多個領域取得了顯著的性能提升,極大地推動了生成式 AI 的發展。已有若干綜述總結了 DMs 的進展,包括通用綜述 [33], [34] 以及專注于特定領域的綜述,如視覺 [35]、語言處理 [36], [37]、音頻 [38]、時間序列 [39] 和醫學分析 [40]。此外,還有綜述涵蓋了 DMs 在不同數據結構中的應用 [41]。然而,這些綜述都未專門針對文本到圖像 (T2I) 任務。 在 T2I DMs 領域,一些評論深入探討了功能性屬性 [27], [42], [43],但它們忽略了非功能性屬性。相比之下,我們的工作聚焦于信任度,提供了對研究非功能性屬性的現有方法的及時分析,并指出了當前研究的局限性。此外,一些研究分析了 T2I DMs 的特定屬性,如可控生成。例如,[44] 重點分析了新條件在 T2I 模型中的集成及其影響,而 [45] 探討了文本編碼器在 T2I DMs 圖像生成過程中的作用。最近的工作 [46] 調查了多種類型的攻擊,包括對抗性攻擊、后門攻擊和成員推斷攻擊 (MIAs),以及相應的防御策略。然而,這些綜述都沒有全面探討信任度作為一組屬性和手段的關鍵問題。據我們所知,本工作是第一個全面深入分析 T2I DMs 的信任度非功能性屬性及其應對手段的研究,同時涵蓋了它們的基準和應用。

貢獻

總而言之,我們的主要貢獻如下:

  1. 分類法:我們提出了一個簡明的可信 T2I DMs 分類法,涵蓋三個維度——非功能性屬性的定義、研究這些屬性的手段以及基準和應用。
  2. 綜述:我們圍繞提出的信任度分類法進行了一項及時且重點突出的綜述,匯集了71篇相關論文。
  3. 分析:我們對六個與信任度相關的非功能性屬性和四種手段進行了深入分析,概括了所綜述論文中的解決方案,進行了比較,識別了模式和趨勢,并總結了關鍵論點。
  4. 空白和未來方向:我們為每個屬性和手段識別了研究空白,指出了現有工作的局限性,并提出了推動可信 T2I DMs 發展的未來研究方向。

付費5元查看完整內容

多模態大語言模型(MLLMs)為預訓練的大語言模型(LLMs)賦予了視覺能力。盡管LLMs中的文本提示已被廣泛研究,視覺提示則為更細粒度和自由形式的視覺指令開辟了新天地。本文首次全面調研了MLLMs中的視覺提示方法,重點討論視覺提示、提示生成、組合推理和提示學習。我們對現有的視覺提示進行分類,并討論用于自動標注圖像的生成方法。同時,我們考察了使視覺編碼器與基礎LLMs更好對齊的視覺提示方法,涉及MLLM的視覺基礎、對象引用和組合推理能力。此外,我們總結了改善MLLM對視覺提示的感知和理解的模型訓練及上下文學習方法。本文探討了在MLLMs中開發的視覺提示方法,并展望了這些方法的未來。

引言

多模態大語言模型(MLLMs)增強了預訓練的大語言模型(LLMs)以實現視覺能力,從而在復雜的多模態任務上實現視覺理解和推理。然而,由于使用文本提示描述和指定視覺元素的局限性,傳統提示方法在提供準確的視覺基礎和詳細視覺信息的引用上表現不佳,這可能導致視覺幻覺和語言偏見。 最近,視覺提示方法作為一種新范式應運而生,補充了文本提示,使得在多模態輸入上能夠進行更細粒度和像素級的指令。由于視覺提示方法可以采取多種形式,且常常在像素級粒度上操作,通用的提示模板可能不適用于不同的圖像,這使得實例級視覺提示生成變得必要。因此,我們在第二部分提供了當前視覺提示方法的全面分類,并在第三部分介紹了生成這些視覺提示的方法。

盡管視覺提示方法在增強MLLM的視覺能力方面取得了成功,但一些研究表明,MLLM與視覺提示之間可能存在不一致,因為預訓練階段缺乏異構視覺提示訓練數據。這種不一致可能導致MLLM忽視或誤解某些視覺提示,從而引發幻覺問題。因此,我們總結了現有的將視覺提示與MLLM感知和推理對齊的努力,以實現更可控的組合推理。此外,我們考察了現有的預訓練、微調和上下文學習方法,這些方法從根本上使MLLM與多模態增強提示對齊。現有的LLM提示相關文獻主要限于文本提示設計和上下文演示,缺乏對像素級指令和多模態交互的文獻覆蓋。盡管視覺提示在計算機視覺中也有研究,但相關調研限于視覺任務和視覺骨干模型,而涉及MLLM的多模態感知和推理任務尚缺乏。此外,最近的一項關于“Segment Anything Models”(SAM)的調研探討了SAM在MLLM中的多種應用,但僅限于SAM模型,缺乏對多樣視覺提示方法的全面研究。本文首次對MLLM中的視覺提示進行全面調研,以填補這些空白,擴展對視覺提示生成、多模態提示、感知與推理及提示學習的理解。我們在圖1中展示了調研的分類,并總結了我們的貢獻如下: * 提供了MLLM中視覺提示和提示生成方法的全面分類。 * 解釋了視覺提示如何融入MLLM的感知與推理,促進更可控的組合推理,幫助防止幻覺和語言偏見問題。 * 總結了MLLM與視覺提示對齊的方法,包括模型訓練和上下文學習,解決誤解問題,并提出更可控組合推理的策略。

2 視覺提示分類

視覺提示是多模態大語言模型(MLLMs)中的重要工具,指導模型解讀和處理視覺數據。這些提示(Wu et al., 2024f)可以采取多種形式,如邊界框、標記、像素級提示和軟提示。它們提供額外的信息,以增強模型的視覺感知能力。通過使用不同的技術處理圖像和視頻,視覺提示提高了模型在復雜理解和推理任務中的表現。

**2.1 邊界框

邊界框用于標記圖像中的物體或區域,使得 MLLMs 能夠提取視覺特征(Lin et al., 2024a)。這些特征幫助模型理解圖像內容并與相應文本關聯,從而增強細粒度和基于內容的圖像理解。先前的研究,如 Shikra Chen et al. (2023b) 和 VTPrompt Jiang et al. (2024),量化邊界框以數值表示關鍵物體,建模輸入和輸出位置。其他方法針對特定任務修改邊界框:A3VLM Huang et al. (2024a) 使用 3D 邊界框定位圖像中的可操作部分,CityLLaVA Duan et al. (2024) 擴大邊界框,而 TextCoT Luan et al. (2024) 將邊界框的短邊延伸以匹配長邊,確保它涵蓋整個感興趣區域。此外,CRG Wan et al. (2024) 用黑色像素遮蓋特定區域以減少先驗,提供了一種在不增加訓練的情況下修正預測的方法。Groma Ma et al. (2024a) 和 InstructDET Dang et al. (2023) 將用戶指定的區域(即邊界框)編碼為視覺標記,通過將其直接整合到用戶指令中增強 MLLMs 的定位能力。另一個框架 Lin et al. (2024b) 通過在邊界框內整合外部知識的上下文嵌入,進一步增強 MLLMs 的定位能力,為各種 MLLMs 提供視覺提示以提升細粒度認知能力。

**2.2 標記

與邊界框類似,視覺標記是視覺數據(如圖像或視頻)中的特定元素,用于突出、識別或引起對特定特征或區域的注意。它們通常用于指示與任務相關的圖像特定部分。先前的研究 Shtedritski et al. (2023) 表明,訓練于大規模網絡數據的模型可以集中于特定的視覺標記,例如紅圈,以突出所需區域,而不是圍繞它們裁剪圖像。AutoAD-ZeroXie et al. (2024) 提出了一種兩階段的無訓練方法,通過在框架中“圈定”字符并對每個身份進行顏色編碼來整合字符信息。最近,Set-of-Mark (SoM) 提示(Yang et al., 2023)直接在圖像上覆蓋視覺標記,幫助模型生成基于特定圖像區域的答案。ViP-LLaVACai et al. (2024) 通過整合諸如涂鴉和箭頭等任意視覺提示,擴展了這一點,使用微調模型來識別這些標記。Liao et al. (2024) 還利用 SoM 技術引入反饋,將其轉化為文本或視覺標記,以改善語義基礎。SoM-LLaVA Yan et al. (2024) 提出了一種通過逐項列出項目并全面描述圖像中所有標記項目的方法,以增強 SoM 的標簽關聯。其他方法,如 ToL Fan et al. (2024b) 和 OWG Tziafas 和 Kasaei (2024),為框架中的每個段落鏈接唯一 ID,而 Pivot Nasiriany et al. (2024) 則將 3D 位置投影到圖像空間,并在此投影位置繪制視覺標記,以指代輸出空間中的空間概念。

**2.3 像素級

先前的方法依賴于粗糙的標記,如彩色框或圓,這導致在準確突出物體時出現歧義。為了解決這個問題,像素級提示(Ma et al., 2024b)使用圖像或視頻中的單個像素,增強 MLLMs 的語義定位能力。方法如 FGVP Yang et al. (2024a)、EVP Liu et al. (2023b)、DOrA Wu et al. (2024e) 和 CoLLaVO Lee et al. (2024) 利用像素級提示傳達語義信息,實現精確的物體定位。OMG-LLaVA Zhang et al. (2024e) 和 VisionLLM Wang et al. (2024b) 將圖像標記為像素中心的視覺標記,將視覺任務與語言指令對齊。技術如圖像修復(Bar et al., 2022)將視覺標記解碼為像素,而 ControlMLLM Wu et al. (2024d) 則建模像素與文本提示之間豐富的語義關系。此外,還有坐標提示方法,如 SCAFFOLD Lei et al. (2024a) 和 AO-Planner Chen et al. (2024a),將輸入圖像轉換為使用度量的坐標,增強 MLLMs 的空間理解和推理能力。

**2.4 軟視覺提示

軟視覺提示在像素空間中學習并直接應用于圖像,使模型能夠更有效地適應特定的下游任務。特別地,TVP Zhang et al. (2024g)、BlackVIP Oh et al. (2023) 和 VPGTrans Zhang et al. (2024a) 向圖像添加像素級提示,或通過在圖像周圍添加通用提示,或設計與圖像形狀相匹配的提示。在學習提示(Rezaei et al., 2024)、WVPrompt Ren et al. (2024) 和 ILM-VP Chen et al. (2023a) 中,任務相關的擾動模式被注入到像素空間中以修改輸入樣本。此外,ImageBrush Yang et al. (2024b) 通過從圖像中提取標記特征來增強語義理解。

3 視覺提示生成

與文本提示不同,視覺提示通常是位置感知的、特定實例的,涉及特定的視覺對象、關系和上下文。目前的方法使用視覺提示生成方法和模型,通過生成圖像和視頻的視覺提示(如分割、檢測和圖像修復)來提高 MLLMs 的準確性和理解能力。此外,視覺提示方法的工具鏈被用于實現多步驟視覺推理和規劃。為了創建普遍適用的視覺提示,還開發了可學習的像素值。

**3.1 提示工程

理解人造視覺提示在實際用例中可能非常重要,因為視覺提示在表達個人意圖或關注當前視覺證據時尤其有效。早期的探索(Shtedritski et al., 2023)發現,在物體周圍畫一個簡單的紅圈可以引導模型的注意力到該區域。此外,MIVPG Zhong et al. (2024) 利用圖像或補丁中的實例相關性來豐富詳細的視覺證據。 ViP Cai et al. (2024) 引入了一種新穎的多模態模型,能夠解碼自由形式的視覺提示,使用戶能夠用自然線索直觀地標記圖像。這種方法不需要復雜的區域編碼,并在區域特定的理解任務上取得了最先進的性能。此外,ViP-Bench Cai et al. (2024) 也被提出用于評估 MLLM 對這種自然工程視覺提示的感知。在領域特定的 CityLLaVA Duan et al. (2024) 框架中,收集并定制了工程視覺提示,以進一步增強微調的 MLLM。

**3.2 視覺分割

分割方法,如 OpenSeeD Zhang et al. (2023b)、SAM Kirillov et al. (2023) 和 SegFormer Xie et al. (2021),用于勾勒和識別圖像中的特定區域、物體或結構,從而使模型能夠更準確地關注相關的視覺信息。通過預訓練的分割模型,外部視覺知識可以轉移并整合到 MLLM 的提示中。Yang et al. (2024a) 探索了一種通過圖像修復(Bar et al., 2022)方法進行像素級注釋的細粒度視覺提示方法。Lin et al. (2024b) 提出了一種指令調優方法,將細粒度分割知識直接整合到空間嵌入圖中作為視覺提示,從而增強模型對視覺場景的上下文意識。VAP Chen et al. (2024a) 開發了一種視覺可用性提示方法,通過 SAM Kirillov et al. (2023) 在導航任務中固化視覺元素。DOrA Wu et al. (2024e) 進一步引入 3D 空間和上下文信息,以改善 3D 視覺定位任務。

細粒度的分割信息還增強了 MLLM 的視覺感知和推理能力。OMG-LLaVA Zhang et al. (2024e) 整合了多級視覺提示,使 MLLM 能夠從粗到細的視覺感知,獲得更全面的視覺理解。Liu et al. (2023b) 提出增強模型理解和處理圖像中低級結構元素的能力。He et al. (2024) 進一步將此類視覺提示融入 MLLM 微調,以增強模型在細粒度視覺感知中的能力。CoLLaVO Lee et al. (2024) 提出了一種蠟筆提示方法,通過與圖像修復色彩圖結合的全景分割方法,更好地區分圖像中的多個物體。

**3.3 物體檢測

物體檢測模型如 SoM Yang et al. (2023)、RCNN Girshick (2015) 和 Omni3D Brazil et al. (2023) 提供精確的物體識別和定位,輔助 MLLM 的視覺定位能力并引導 MLLM 的注意力關注語義上有意義的內容。由 Yan et al. (2024) 開發的 SoM-LLaVA 使用數字標簽將視覺對象與文本描述對齊。物體標簽使模型能夠準確列出和描述這些物體,增強視覺推理和視覺指令跟隨能力。InstructDET Dang et al. (2023) 將通用指令融入訓練過程中,通過使模型理解和遵循各種引用指令來多樣化物體檢測。這增強了模型在不同任務上下文中理解用戶意圖和指令的靈活性。Wan et al. (2024) 提出通過對比區域引導改進視覺語言模型的定位。通過引導模型的注意力到相關區域,MLLM 能夠更準確地將視覺區域與相應的文本指令關聯。Cho et al. (2024) 擴展視覺語言模型以理解 3D 環境,通過提高空間意識和對三維空間中物體交互的理解。

**3.4 視覺提示工具鏈

為了通過多步驟或交互推理實現更復雜的多模態理解,幾種方法將各種視覺提示方法作為工具鏈聚合(Wu et al., 2024f),由 MLLM 調用以輔助各個推理子任務。Zhou et al. (2024b) 提出了一個圖像思維方法,能夠自動確定每個推理步驟的視覺信息提取方法,并將其實現為視覺提示,促使 MLLM 遵循特定的推理路徑,實現逐步的多模態推理。Tziafas 和 Kasaei (2024) 專注于通過整合包括開放式分割和物體定位在內的視覺提示方法,調整視覺語言模型以適應開放世界抓取任務。為了實現更可轉移和通用的視覺提示,Sheng et al. (2024) 創建了一種更統一的上下文學習方法,將各種上下文視覺提示整合到一個統一的表示空間。MineDreamer Zhou et al. (2024a) 進一步開發了一種多用途的視覺提示生成方法,用于與當前決策意圖一致并在視覺上表達下一步目標的虛構視覺場景。

**3.5 可學習和軟視覺提示

可學習或軟視覺提示用于適應 MLLM 中的視覺編碼器,使得視覺提示的使用更加可控和多樣化,符合下游任務。這些技術用于具有視覺指令的多模態指令調優。Rezaei et al. (2024) 研究了如何學習視覺提示以指導 ViT 中的注意機制。Li et al. (2023a) 微調 MLLM 以遵循使用可學習視覺提示的零-shot 示范指令。Chen et al. (2023a) 關注通過學習提示更好地將視覺輸入映射到相應的標簽。對于一些特定和領域導向的問題,Ren et al. (2024) 開發了一種可學習的視覺提示方法,作為圖像水印識別圖像的版權和所有權。

與此同時,可學習的視覺提示還可以在 MLLM 和下游任務之間進行遷移。VPGTrans Zhang et al. (2024a) 提出了一個可轉移的視覺提示生成器,以低成本訓練數據點和計算,將預訓練的源 MLLM 適應目標 MLLM。Memory-space visual prompt Jie et al. (2024) 在視覺變換器架構的關鍵和值層注入可學習提示,從而實現高效的視覺語言微調。Wu et al. (2023) 還注入軟視覺標記作為視覺組合操作,經過學習以更好地與少量示例組合多模態信息。黑箱視覺提示方法 Oh et al. (2023) 專注于強大的遷移學習,其中視覺提示幫助模型適應新的任務和領域,而無需直接訪問模型參數。

4 視覺感知

**4.1 視覺定位與指代

最近的視覺提示工作顯著提升了 MLLM 的視覺定位和指代能力。一些研究強調迭代反饋和多模態交互在細化語義定位中的重要性,其他則探索面向對象的感知和視覺關系理解。SoM-LLaVA Yan et al. (2024) 使用 Set-of-Mark 模型標記圖像中的所有物體,并要求模型列出所有項目。InstructDET Dang et al. (2023) 和 VTPrompt Jiang et al. (2024) 進一步實現了多模態定位,從文本中提取對象實體及其區域邊界框。

使用細粒度視覺定位編碼器,多個研究通過視覺線索引導 MLLM 的注意力至圖像中的相關區域,從而提高區域指代能力。CRG Wan et al. (2024) 使用對比區域引導,直接將模型的注意力引導到圖像中特定的興趣區域。RelationVLM Huang et al. (2024c) 利用視覺提示增強 MLLM 對物體空間關系的理解與推理。Shikra Chen et al. (2023b) 應用于視覺對話系統,使 MLLM 能夠根據對話中的指代線索做出更精確和上下文相關的互動。此外,還有多項工作旨在提供一個綜合框架,將不同粒度的視覺提示方法整合在一起,以實現更細粒度和靈活的多模態交互,包括自由形式視覺提示輸入 Lin et al. (2024a) 和視覺提示反饋機制 Liao et al. (2024)。

**4.2 多圖像和視頻理解

為了提高模型對復雜視覺關系的理解,并確保其能夠準確引用和描述多圖像輸入中的對象,多個研究提出了在多圖像輸入中使用視覺提示的新方法及評估基準。Fan et al. (2024c) 提出了一個包含多面板圖像的新基準數據集,以測試 MLLM 在區分面板間對象及導航不同視覺元素方面的能力。Pan et al. (2024) 利用形態標記自編碼提升模型在多圖像間的視覺定位能力。Li et al. (2023a) 微調 MLLM 以遵循多圖像中的上下文示范指令。此外,AIM Gao et al. (2024) 提出動態調整其定位和指代能力,以適應多個圖像中的新視覺上下文。

多種方法也被開發,以允許 MLLM 識別特定的興趣區域,提高其處理復雜和動態視頻內容的能力。OmAgent Zhang et al. (2024c) 開發了一種視覺提示方法,通過注釋一系列視覺特征,實現視頻理解中的任務劃分。RACCooN Yoon et al. (2024) 使用視覺提示引導 MLLM 識別視頻中的目標區域進行操作。Wu et al. (2024c) 在視頻中進行對象定位,使模型能夠理解和指代動態場景中的對象。

**4.3 3D視覺理解

最近的研究使用視覺提示來增強 3D 視覺理解。Li et al. (2024) 構建了一個包含指令-響應對的廣泛數據集用于 3D 場景,并引入了 3DMIT,以高效地進行提示調優,同時消除 3D 場景與語言之間的對齊階段。DOrA Wu et al. (2024e) 提出了一個具有順序感知指代的新型 3D 視覺定位框架。該方法利用 LLM 推斷有序的物體序列,以引導逐步特征細化過程。 Cho et al. (2024) 構建了一個名為 LV3D 的大規模數據集,并引入了在該數據集上預訓練的新型 MLLM Cube-LLM。Zhang et al. (2024d) 提出了 Agent3D-Zero,采用鳥瞰圖像和選擇視角的新視覺提示,釋放 MLLM 觀察 3D 場景的能力。3DAP Liu et al. (2023a) 開發了一種新型視覺提示方法,創建一個 3D 坐標系統和附加注釋,以增強 GPT-4V 完成 3D 空間任務的能力。

5 組合推理

本節討論視覺提示如何增強 MLLM 中的組合和多模態學習,促進視覺規劃、推理和行動生成等任務的改善。我們考察視覺提示如何促進復雜的逐步推理、決策制定以及對視覺生成模型的控制,擴展其在多種任務中的能力。我們還回顧了一些邊緣應用(附錄 9),這些應用可能尚未充分探索,且缺乏足夠的解決方案。

**5.1 視覺規劃

近期研究表明,視覺提示改善了視覺規劃任務。Zhou et al. (2024b) 提出了一個圖像思維(IoT)提示方法,促使 MLLM 自動設計視覺和文本步驟,并利用外部圖像處理工具生成多模態推理序列,用于輔助 MLLM 完成復雜視覺推理任務。OWG Tziafas 和 Kasaei (2024) 結合分割與抓取合成模型,通過分割、抓取規劃和排序解鎖基礎世界理解。Zhou et al. (2024a) 引入了想象鏈(CoI)方法,并在 Minecraft 中創建了一個具身代理 MineDreamer。該方法設想執行指令的逐步過程,借助 LLM 增強的擴散模型,將想象轉化為精確的視覺提示,支持代理行為的準確生成。BEVInstructor Fan et al. (2024a) 將鳥瞰圖表示作為視覺提示融入 MLLM,用于導航指令生成。AO-Planner Chen et al. (2024a) 實現了以可用性為導向的運動規劃和行動決策,采用 VAP 方法與高層 PathAgent。

**5.2 逐步推理

為了實現更復雜的圖像推理,最近的研究將視覺提示與逐步推理方法結合。Luan et al. (2024) 提出了一種新穎的逐步推理框架,用于文本豐富的圖像理解,命名為 TextCoT。該方法包括三個階段:圖像概述以獲取全局信息、粗略定位以估計包含答案的部分,以及細粒度觀察以提供精確答案。Wu et al. (2024f) 提出了 DetToolChain,解鎖 MLLM 在物體檢測任務中的潛力。該方法涉及使用“檢測提示工具包”,其中包含視覺處理和檢測推理提示,并結合多模態檢測逐步推理方法,以推理檢測提示的順序實現。

6 模型訓練

本節介紹使用視覺提示技術對多模態大語言模型(MLLMs)進行對齊的關鍵方法,包括預訓練、微調和指令調優,旨在統一多模態提示并提高跨任務的可遷移性。除了模型訓練技術外,我們還總結了評估數據集(附錄8),這些數據集為未來開發更強大的視覺提示方法提供了靈感。

6.1 預訓練

為了提升 MLLM 在更細粒度視覺感知或推理任務上的能力,研究集中在設計更好的預訓練目標,包括視覺提示。PSALM Zhang et al. (2024h) 擴展了 MLLM 在多種圖像分割任務上的能力,通過引入掩膜解碼器和靈活的輸入架構,統一了單一模型內的多種分割任務,支持通用、指代、交互和開放詞匯分割,同時在域內和域外的像素級分割任務上表現出色。OMG-LLaVA Zhang et al. (2024e) 提出了一個統一框架,將圖像級、對象級和像素級的推理與理解融合在一個模型中,結合通用分割方法作為視覺編碼器,并與 LLM 結合,使用戶能夠通過多種視覺和文本提示進行靈活互動。VisionLLM v2 Wu et al. (2024a) 引入了一個端到端的通用 MLLM,將視覺感知、理解和生成統一在一個框架內。該模型采用新穎的“超鏈接”技術將中央 LLM 與任務特定解碼器連接,支持跨數百個視覺和視覺-語言任務的信息傳輸和端到端優化。UrbanVLP Hao et al. (2024) 提出了一個針對城市區域概況的視覺-語言預訓練框架,整合了來自衛星(宏觀級)和街景(微觀級)影像的多粒度信息,克服了以往的局限性。該方法還結合了自動文本生成和校準機制,以生成高質量的城市區域文本描述,增強可解釋性。

6.2 微調

Zhang et al. (2024g) 提出了可轉移視覺提示(TVP)方法,旨在提高軟視覺提示的可轉移性,這些提示是在不同 MLLM 之間用于下游任務的小量可學習參數。Lin et al. (2024b) 將細粒度外部知識(如 OCR 和分割)通過視覺提示整合到多模態 MLLM 中,直接將細粒度知識信息嵌入到空間嵌入圖中。CoLLaVO Lee et al. (2024) 通過一種名為 Crayon Prompt 的視覺提示增強了 MLLM 的對象級圖像理解,該提示源自全景分割模型生成的全景色彩圖。CityLLaVA Duan et al. (2024) 引入了一個高效的 MLLM 微調框架,專為城市場景設計,結合了視覺提示工程技術,包括邊界框引導、視角選擇和全局-局部聯合視圖。ViP-LLaVA Cai et al. (2024) 被賦予理解任意視覺提示的能力,通過直接將視覺標記疊加到圖像上進行訓練。ImageBrush Yang et al. (2024b) 提出了一個基于示例的圖像操作框架,無需語言提示即可學習視覺上下文指令。

顯式視覺提示(EVP)Liu et al. (2023b) 提出了一個統一的方法,用于低級結構分割任務,使用凍結的預訓練視覺變換器主干,并引入源自凍結的塊嵌入和高頻圖像成分的任務特定軟提示。BlackVIP Oh et al. (2023) 通過一個協調器適應大型預訓練模型,以生成軟視覺提示,并使用 SPSA-GC 進行高效梯度估計,從而在不同領域實現穩健的少量適應。基于迭代標簽映射的視覺提示(ILM-VP)Chen et al. (2023a) 通過雙層優化共同優化輸入模式和標簽映射,從而提高軟視覺提示的準確性和可解釋性。MemVP Jie et al. (2024) 通過將視覺信息直接注入 MLLM 的前饋網絡權重,有效地結合了預訓練視覺編碼器和語言模型,以應對視覺-語言任務,將其視為附加的事實知識。VPG-C Li et al. (2023a) 通過補全缺失的視覺細節來增強 MLLM 中的視覺提示,更好地理解具有交錯多模態上下文的演示指令。它擴展了傳統視覺提示生成器,通過 LLM 引導的上下文感知視覺特征提取來創建更全面的視覺提示。

6.3 指令調優

指令調優已被證明能夠有效提高文本僅 LLM 和 MLLM 的整體能力,如指令跟隨和結構化輸出 Ouyang et al. (2022); Wang et al. (2022); Liu et al. (2024a)。對于專注于視覺提示的 MLLM,AnyRef He et al. (2024) 引入了一種統一的指代表示,使 MLLM 能夠通過指令調優處理多種輸入模態和視覺提示(文本、邊界框、圖像、音頻)。該模型使用特殊的標記和提示來格式化多模態輸入,使其能夠一致地處理各種指代格式。重新聚焦機制通過結合基礎文本嵌入增強掩膜嵌入,提高分割準確性。AnyRef 將視覺和音頻編碼器與 LLM 結合,使用投影層對不同模態在語言空間中進行對齊。該模型通過文本損失和掩膜損失的組合進行端到端的指令調優,使其能夠響應多模態提示生成文本描述和像素級分割。

7 上下文學習與少量學習

除了使用單一數據點作為輸入優化性能的方法外,一些工作集中在利用視覺提示增強上下文學習(ICL)。圖像思維(IoT)提示 Zhou et al. (2024b) 是一種無訓練的方法,通過整合離散的圖像處理動作來增強 MLLM 在視覺問答任務上的能力。IoT 使 MLLM 能夠自動設計并提取逐步的視覺推理,將其與文本推理結合,提高了準確性和可解釋性。CRG Wan et al. (2024) 是一種無訓練的方法,通過將模型輸出與掩蓋特定圖像區域的情況進行對比,改善 MLLM 的視覺定位,指導模型關注相關圖像區域。AIM Gao et al. (2024) 使任何 MLLM 能夠通過將演示中的圖像信息聚合到相應文本標簽的潛在空間中,執行高效的 ICL,這減少了內存成本,通過在聚合后丟棄視覺標記,近似多模態 ICL 提示僅包含單個查詢圖像。I2L Wang et al. (2024a) 將演示、視覺線索和推理結合為單一圖像,通過 ICL 增強多模態模型在復雜任務上的表現。I2L-Hybrid 通過在每個任務實例中自動選擇 I2L 和其他上下文學習方法擴展了這一方法。

通過視覺提示的少量學習也能在最低計算成本和更好的數據效率下提高 MLLM 的能力。CoMM Chen et al. (2024b) 提出了一個高質量一致的交錯圖像-文本數據集,旨在增強 MLLM 的生成能力,并調查其上下文學習能力。M2oEGPT Sheng et al. (2024) 提出了一個 ICL 框架,通過多模態量化和統一嵌入,使得在通用標記嵌入空間中聯合學習多模態數據,結合自回歸變換器與專家混合(MoEs)進行穩定的多任務共訓練。Partial2Global Xu et al. (2024a) 通過基于變換器的列表排序器選擇視覺 ICL 中的最佳上下文示例,比較多個備選樣本,并使用一致性感知排名聚合器實現全局一致的排名。Hossain et al. (2024) 為語義分割中的基礎類和新類引入可學習的視覺提示,并提出了一種新類-基礎類因果注意機制,使新提示能夠在不降低基礎類性能的情況下被基礎提示上下文化。Emu2 Sun et al. (2024) 是一個訓練 MLLM 以預測多模態序列中下一個元素的模型。其統一架構使得強大的多模態上下文學習能力得以實現,使其能夠快速適應新任務,僅需幾個示例。

結論

在本次調研中,我們首次全面回顧了多模態大語言模型(MLLMs)中的視覺提示方法。我們對各種視覺提示技術進行了分類,并討論了它們的生成過程,考察了這些技術如何融入 MLLMs,以增強視覺推理和感知能力。我們的工作還分析了現有的訓練和上下文學習方法在視覺提示中的應用。最后,我們提出了未來的研究方向,鼓勵利用視覺提示來改進 MLLM 的組合推理能力。

付費5元查看完整內容

摘要自動疾病診斷在臨床實踐中變得越來越有價值。大型語言模型(LLMs)的出現推動了人工智能領域的范式轉變,越來越多的證據支持LLMs在診斷任務中的有效性。盡管該領域受到了越來越多的關注,但仍然缺乏整體視角。許多關鍵方面仍不清楚,例如LLMs已應用于哪些疾病和臨床數據、使用了哪些LLM技術以及采用了哪些評估方法。在本文中,我們對基于LLM的疾病診斷方法進行了綜合評述。我們的評審從多個維度考察了現有文獻,包括疾病類型及其相關的臨床專科、臨床數據、LLM技術和評估方法。此外,我們還提出了關于LLMs在診斷任務中應用與評估的建議。我們進一步評估了當前研究的局限性,并討論了未來的研究方向。據我們所知,這是首個關于基于LLM的疾病診斷的綜合評述。

引言

自動疾病診斷是臨床場景中的一項關鍵任務,它以臨床數據為輸入,分析模式,并生成潛在的診斷,幾乎無需或完全無需人為干預。這在醫療保健中的重要性是多方面的。首先,它提高了診斷的準確性,支持臨床醫生的決策,并通過提供更多高質量的診斷服務來解決醫療保健中的不平等問題。其次,自動診斷提高了醫療專業人員的效率,這對于管理老齡化患者和多病患者群體的臨床醫生來說尤為寶貴。例如,DXplain是一個診斷系統,它利用患者的體征、癥狀和實驗室數據生成潛在診斷列表,并提供每種病癥應被考慮的理由。此外,在線服務進一步促進了某些疾病的早期診斷或大規模篩查,例如心理健康障礙,通過早期階段提高意識,幫助預防潛在的風險。例如,幾項研究探討了使用社交媒體帖子進行大規模抑郁癥識別和自殺風險預測。

人工智能(AI)的最新進展推動了自動診斷系統的發展,經歷了兩個階段。最初,機器學習技術如支持向量機和決策樹被用于疾病分類,這通常包括四個步驟:數據處理、特征提取、模型優化和疾病預測。隨著數據集的增大和計算能力的提升,深度學習方法逐漸主導了診斷任務的發展。這些方法利用了深度神經網絡(DNNs),包括卷積神經網絡(CNN)、循環神經網絡(RNN)和生成對抗網絡(GAN),實現了端到端的特征提取和模型訓練。例如,一個擁有34層的卷積DNN在心律失常診斷中達到了與心臟病專家相當的水平。然而,這些模型通常需要大量標注數據進行監督學習,并且通常是任務特定的,限制了它們對其他任務或新需求的適應性。 近年來,人工智能的范式已經從傳統的深度學習轉向了大型語言模型(LLMs)的出現。與監督學習不同,LLMs(如生成式預訓練變換器(GPT)和LLaMA)是通過自監督學習在大量未標記數據上進行預訓練的生成模型。這些模型通常包含數十億個參數,擅長語言處理,并能適應各種任務。迄今為止,LLMs在臨床場景中展現了卓越的表現,包括問答(QA)、信息檢索和臨床報告生成等任務。最近,越來越多的研究驗證了LLMs在診斷任務中的有效性。例如,PathChat是一個經過數十萬條指令微調的視覺-語言通用LLM,在人體病理學中達到了最先進的表現。Med-MLLM是一個基于多模態的LLM,經過在包括胸部X光、CT掃描和臨床筆記在內的廣泛醫療數據上的預訓練和微調,在COVID-19診斷中展示了顯著的準確性。此外,Kim等人通過提示工程使用GPT-4,發現其在識別強迫癥方面超越了心理健康專家,這突顯了LLMs在心理健康診斷中的潛力。 盡管該研究領域引起了廣泛關注,但許多關鍵問題仍未得到充分探索。例如,在基于LLMs的診斷任務中,哪些疾病和醫療數據被調查過(Q1)?LLMs技術在疾病診斷中是如何應用的,以及如何選擇合適的技術(Q2)?評估診斷性能的合適方法是什么(Q3)?盡管已有眾多綜述文章探討了LLMs在醫學領域的應用研究,這些研究通常提供了廣泛的臨床應用概述,但并未特別強調疾病診斷。例如,Pressman等人對LLMs在預咨詢、治療、術后管理、出院和患者教育等方面的潛在臨床應用進行了全面總結。此外,這些綜述文章均未探討將LLMs應用于疾病診斷的細節與挑戰,或回答上述關鍵問題,突顯了這一領域的重要研究空白。 本綜述的主要目的是提供關于利用LLMs進行疾病診斷研究的概述。綜述介紹了現有研究中的各種疾病類型、與疾病相關的臨床專科、臨床數據、LLM技術和評估方法。此外,我們為數據準備、選擇合適的LLM技術以及為診斷任務采用適當的評估策略提供了建議。進一步地,我們還分析了當前研究的局限性,并深入探討了這一領域的挑戰和未來研究方向。據我們所知,這是首個專注于LLMs疾病診斷的綜述,并全面概述了這一領域。總結來說,這篇綜述為基于LLM的疾病診斷提供了一個藍圖,旨在激發和引導未來的研究工作。


結果****研究范圍概述

本節介紹了我們綜述的范圍。圖2不僅展示了疾病類型、相關的臨床專科、臨床數據類型和數據模態(Q1),還介紹了應用的LLM技術(Q2)和評估方法(Q3),回答了前述問題。具體來說,我們調查了19個臨床專科和超過15種類型的臨床數據用于疾病診斷。這些臨床數據涵蓋了多種數據模態,包括文本、圖像、視頻、音頻、時間序列和多模態案例。此外,我們根據所應用的LLM技術對現有的疾病診斷工作進行了分類,例如提示(零樣本)、檢索增強生成(RAG)和預訓練。表1總結了主流LLM技術的分類。圖4展示了臨床專科、數據模態和所應用的LLM技術之間的關系。這些圖表全面揭示了基于LLM的疾病診斷的當前發展狀況。此外,圖3展示了我們綜述中的元信息分析,涉及不同地區的出版趨勢、廣泛用于訓練和推理的LLMs總結,以及數據來源、評估方法和數據隱私狀態的統計信息。

付費5元查看完整內容

本文探討了通過機器學習(ML)技術增強計算流體力學(CFD)任務的最新進展。我們首先介紹了基本概念、傳統方法和基準數據集,然后考察了ML在改進CFD中的各種角色。本文系統地回顧了近五年內的文獻,并為前向建模提出了一種新的分類方法:數據驅動的代理模型、物理驅動的代理模型和ML輔助數值解。此外,我們還回顧了逆向設計和控制中的最新ML方法,提出了新的分類,并進行了深入討論。接著,我們重點介紹了ML在CFD中的實際應用,涵蓋了空氣動力學、燃燒、大氣與海洋科學、生物流體、等離子體、符號回歸和降階建模等關鍵科學和工程領域。除此之外,我們還識別了關鍵挑戰,并倡導未來研究方向來應對這些挑戰,例如多尺度表示、物理知識編碼、科學基礎模型和自動科學發現。本綜述旨在為快速擴展的ML在CFD領域的社區提供指南,激發未來進步的洞見。我們得出的結論是,ML有望通過提高仿真精度、減少計算時間并實現對流體動力學更復雜的分析,顯著變革CFD研究。論文資源可在//github.com/WillDreamer/Awesome-AI4CFD查看。

流體動力學是一門研究流體流動運動和行為的基礎學科,它為包括空氣動力學、化學工程、生物學和環境科學在內的廣泛科學與工程領域提供了基礎。計算流體力學(CFD)通過偏微分方程(PDEs)來模擬流體動力學的數學模型。CFD的主要目標是在各種工況下獲得模擬結果,從而減少實際實驗的高昂成本,并加速工程設計和控制過程。

盡管在研究和工程實踐中取得了幾十年的進展,CFD技術仍然面臨重大挑戰。這些挑戰包括由于對空間或時間分辨率的嚴格限制導致的高計算成本,捕捉湍流等次級動力學的困難,以及數值算法的穩定性問題等。另一方面,ML因其從觀測數據中學習模式和動力學的能力而聞名,最近已經成為可以重塑或增強任何一般科學學科的趨勢。ML技術與近年來積累的大量流體動力學數據的結合,提供了一種變革性的方式來增強CFD實踐(見圖1)。隨著ML領域的迅速擴展,研究人員越來越難以跟上最新進展。因此,本綜述旨在揭示ML在增強CFD中的多方面作用。

實際上,已有一些關于ML在CFD領域應用的綜述。然而,這些綜述大多有以下兩點局限性:1)僅限于早期嘗試。例如,Wang等人和Huang等人都詳細討論了將物理建模融入ML的方法,強調了動態系統和混合方法。同樣,Vinuesa等人從CFD領域的角度探討了ML的前景方向,如直接數值模擬、大渦模擬(LES)、湍流譜圖、雷諾平均Navier-Stokes(RANS)模擬以及降維方法。然而,他們僅回顧了2021年前PDEs的早期ML應用。2)概述不完整。現有關于ML在CFD中的應用綜述主要集中在物理知識的整合和PDEs的常見模型架構上。Zhang等人研究了PDEs的前向建模和逆向建模中的ML,強調了四個關鍵挑戰,但忽略了系統分類及其在這一領域的潛在應用。同時,Lino等人大致區分了物理驅動和數據驅動的方法,并討論了一些方法學上的限制,但同樣忽略了對每種方法動機的系統分類。盡管這些貢獻存在,但ML在CFD中的全面、前沿和深刻的系統化仍然存在空白。我們的工作代表了第一個將這些分散的見解整合為一個連貫框架的綜述。我們系統地回顧了該領域的基礎知識、數據、方法、應用、挑戰和未來方向。本文的結構如圖2所示,組織如下:

在第2部分中,我們介紹了CFD的基本概念和知識,并附有所回顧文獻中涉及的所有類型PDEs的注釋列表。然后,我們系統地回顧了近五年的文獻,將所選研究分為三個主要類別,并在圖4中展示:數據驅動的代理模型(第3部分),依賴于觀測數據進行訓練;物理驅動的代理模型(第4部分),將選定的物理先驗整合到ML建模中;以及ML輔助數值解(第5部分),部分替代傳統的數值求解器,以在效率、準確性和泛化之間實現平衡。此外,我們介紹了逆向設計和控制問題的設置(第6部分),這是將CFD應用于現實世界問題的兩個基本問題。前者優化設計參數,如初始和邊界條件,以達到特定的設計目標;后者則通過施加時變外力來控制物理系統以實現特定目標。

接著,第7部分討論了這些方法在關鍵科學和工程領域中的應用,展示了它們的影響和潛力。最后,第8部分探討了當前技術狀態中的關鍵挑戰和局限性,并概述了未來的研究方向。我們旨在引起更廣泛的ML社區對本綜述的關注,通過豐富的CFD基礎知識和先進的發展,激發該領域未來的研究。

與現有綜述的不同之處。與現有綜述相比,我們的綜述具有四個獨特特點:(1)最新總結。本綜述基于當前的發展狀況,重點關注2020年至2024年的最新論文。相比之下,現有的相關綜述均在2022年之前發表。(2)創新分類。本綜述系統地回顧了CFD領域中的ML方法,并首次根據前向建模和逆向問題的方法設計動機提出了新的分類。(3)全面討論。本綜述提供了全面的討論,涵蓋背景、數據、前向建模/逆向設計方法和應用,幫助研究人員快速而全面地理解該領域。(4)未來指導。我們的工作總結了CFD的最新進展,強調了當前CFD研究中的挑戰,并為該領域未來的工作提供了指導和方向,例如科學基礎模型。 廣泛影響。我們的綜述的影響體現在兩點:(1)對科學相關社區。我們的綜述總結了CFD中的有效ML方法,可以幫助物理和力學領域的研究人員找到解決方案并從ML中受益。(2)對ML社區。我們的綜述還可以為ML研究人員提供指導,幫助他們將知識應用于CFD中的現實科學應用。

數據驅動的代理模型

數據驅動的代理模型是完全依賴觀測數據來訓練算法,以模擬復雜的流體動力學模型。這些模型在近年來取得了迅速的發展,具有重要的影響。根據其對空間離散化的處理方式,這些模型可以大致分為兩類:1)依賴離散化的方法,2)獨立于離散化的方法。前者需要將數據域劃分為特定的網格、網片或粒子結構,并設計相應的模型架構,而后者則不依賴離散化技術,而是直接在連續空間中學習解。

物理驅動的代理模型

盡管數據驅動模型在CFD模擬中展現了潛力,但它們也面臨一些挑戰,如數據收集的高成本以及對模型泛化能力和魯棒性的擔憂。因此,將物理先驗知識融入模型至關重要,這有助于利用物理定律的力量來提高模型的可靠性和適用性。我們根據嵌入知識的類型將這些方法分為兩類:1)物理信息驅動,2)約束信息驅動。前者將物理知識轉化為神經網絡的約束,確保預測符合已知的物理原理。后者則從傳統的PDE求解器中汲取靈感,將這些方法整合到神經網絡的訓練過程中。

結論

總之,本文系統地探討了利用機器學習(ML)在計算流體力學(CFD)中取得的重要進展。我們提出了一種針對前向建模和逆問題的新分類方法,并詳細介紹了過去五年中開發的最新方法。我們還重點介紹了ML在關鍵科學和工程領域中的有前途的應用。此外,我們討論了這一快速發展的領域中的挑戰和未來研究方向。總體而言,顯而易見的是,ML具有顯著變革CFD研究的潛力。

付費5元查看完整內容

人工智能(AI)技術已經深刻地改變了遙感領域,徹底革新了數據收集、處理和分析的方式。傳統上依賴于手工解釋和特定任務模型的遙感,因基礎模型的出現得到了顯著增強。基礎模型是指大規模、預訓練的AI模型,能夠以前所未有的精度和效率執行各種任務。本文對遙感領域的基礎模型進行了全面的綜述,涵蓋了2021年6月至2024年6月期間發布的模型。我們根據這些模型在計算機視覺和特定領域任務中的應用對其進行分類,并提供了關于其架構、預訓練數據集和方法論的深入見解。通過詳細的性能比較,我們突出了這些基礎模型所取得的顯著進展和新興趨勢。此外,我們還討論了技術挑戰、實際影響和未來研究方向,特別是針對高質量數據的需求、計算資源以及模型泛化能力的提升。我們的研究還發現,預訓練方法,尤其是對比學習和掩碼自編碼器等自監督學習技術,顯著提升了基礎模型在遙感任務中的性能和穩健性,例如場景分類、目標檢測等應用。本文旨在為研究人員和從業者提供資源,通過對基礎模型在遙感中的進展和未來發展路徑的全景式綜述,推動該領域的持續發展和應用。

關鍵詞——遙感、機器學習、人工智能、圖像處理、計算機視覺、Transformers

人工智能(AI)技術已經深刻地變革了遙感領域,徹底革新了數據的收集、處理和分析方式。傳統上,遙感項目嚴重依賴于手動解釋和任務特定模型,這些模型需要大量的標記數據集和顯著的計算資源。然而,隨著AI和深度學習(DL)的出現,一個新的時代已經到來。在這個時代中,大規模的預訓練模型,即基礎模型,能夠以前所未有的精度和效率執行各種任務。這些進步不僅增強了遙感的能力,還為其在各個領域的應用開辟了新的途徑。近年來,出現了許多基礎模型,它們在處理多樣的遙感任務方面表現出了卓越的性能。這些模型有可能顯著提升多個下游任務的性能,如場景分類、語義分割、目標檢測等。通過利用海量的預訓練數據和復雜的架構,這些基礎模型在該領域設立了新的基準,使其成為研究人員和工程師不可或缺的工具。本文旨在提供遙感領域基礎模型的全面綜述,涵蓋了2021年6月至2024年6月期間發布的基礎模型。在圖1中,按時間順序列出了51個視覺模型。為了方便研究人員的導航和使用,我們根據這些模型在計算機視覺任務和特定領域任務中的應用對其進行了分類。這樣的分類方式可以更清晰地了解哪些模型適用于特定目的,無論是一般的基于圖像的挑戰,還是更為專業的應用,如環境監測、土地覆蓋和土地利用、考古勘探、災害管理或其他領域。我們的貢獻包括

  1. 對遙感領域提出的基礎模型進行了詳盡的回顧,從基礎模型的背景和方法論到不同領域和任務中的具體應用,進行了分層和結構化的綜述。
  2. 對這些模型在計算機視覺任務(表I)和特定領域任務(表5)中的應用進行了分類和分析。我們討論了每個模型的架構、預訓練數據集、預訓練方法及其性能。
  3. 針對遙感中基礎模型相關的挑戰和未解決的問題進行了討論。我們指出了新趨勢,提出了重要問題,并為進一步探索提供了未來的研究方向。

基礎模型(FMs)指的是大規模的預訓練模型,這些模型為不同領域的各種下游任務提供了堅實的起點。基礎模型利用廣泛的數據集和先進的架構,能夠捕捉復雜的模式和特征,并通過較少的額外訓練進行微調以適應特定的應用。在遙感領域,由于數據的多樣性和復雜性,包括多光譜和多時相影像,基礎模型顯得尤為重要。諸如自監督學習(SSL)和Transformers等技術顯著提高了圖像分類、目標檢測和變化檢測等任務的性能和效率,解決了遙感數據所帶來的獨特挑戰。

基礎模型的發展得益于深度學習的進步和大型數據集的可用性。最初,卷積神經網絡(CNNs)如ResNet為圖像識別和分類任務的改進鋪平了道路。Transformers的引入,利用自注意力機制來建模遠程依賴關系,進一步提升了基礎模型在處理大規模圖像數據方面的能力。

遙感中的基礎模型的特點在于它們能夠通過SSL技術利用大量未標記數據,從而在無需大量標記數據集的情況下學習到穩健的表示。主要的SSL方法包括對比學習,它通過比較同一數據點的不同增強視圖來學習表示;以及預測編碼,它通過觀察部分數據來預測輸入數據的缺失部分。

遙感領域的知名基礎模型包括SatMAE,它為時間和多光譜衛星影像預訓練Transformers;Scale-MAE,一種用于多尺度地理空間表示學習的尺度感知掩碼自動編碼器;以及DINO-MC,它通過全球-局部視圖對齊擴展了SSL在遙感影像中的應用。這些模型在場景分類、目標檢測和變化檢測等各種遙感任務中表現出色。

盡管取得了成功,基礎模型仍面臨諸多挑戰,包括對高質量和多樣化訓練數據的需求、顯著的計算資源消耗,以及將模型有效適配于特定遙感任務的領域適應性。這些挑戰的解決對于基礎模型在遙感中的持續進步至關重要。

方法論

近年來,遙感基礎模型(FMs)的發展依賴于各種復雜的方法學,包括自監督學習(SSL)、Transformers及視覺Transformers(ViT),以及殘差神經網絡(ResNet)。這些方法顯著增強了基礎模型的能力,使其能夠在沒有大量人工監督的情況下從大量數據中學習,處理復雜的數據結構,并改善特征提取和表示能力。本節將回顧這些方法在遙感領域的機制和貢獻。

**A. 自監督學習(SSL)訓練策略在遙感基礎模型中的應用

自監督學習(SSL)在基礎模型的預訓練階段起著至關重要的作用。通過SSL,模型能夠從輸入數據的部分信息中預測另一部分,從而減少對大量標注數據集的依賴。在遙感中,由于標注數據的稀缺性,SSL顯得尤為重要。使用SSL預訓練的模型能夠有效地從大量未標注的遙感數據中捕捉模式和特征,使其在下游任務中非常高效。圖3展示了自監督學習的一般流程。 在遙感應用中,常用的兩種SSL方法是對比學習和預測編碼。 1. 對比學習:對比學習旨在通過比較同一數據點的不同增強視圖來學習表示。其核心思想是在特征空間中將相似(正樣本)對拉近,而將不相似(負樣本)對推遠。這種方法高度依賴于數據增強,以創建同一圖像的多個視圖。 1. 預測編碼:預測編碼是另一種SSL技術,模型通過觀察部分數據來預測輸入數據的缺失部分。這種方法有助于捕捉數據中的空間和時間依賴性。常見的預測編碼方法包括自動編碼器(AE)和掩碼自動編碼器(MAE)。

常用的SSL方法包括SimCLR、MoCo(動量對比)、BYOL(自我引導潛在空間)和DINO(無標簽自蒸餾)。這些方法各有特色,在生成正負樣本對和更新模型參數方面采取了不同的策略。這些方法在遙感中的場景分類、語義分割和目標檢測等任務中表現出色。例如,SSL可以幫助模型在標注數據有限的情況下,學習分類土地覆蓋類型、識別建筑物和車輛等目標,并分割衛星圖像中的不同區域。

**B. 主干網絡(Backbones)

在深度學習中,主干網絡是作為特征提取器的關鍵神經網絡架構。它們構成了模型的基礎層,處理輸入數據以生成豐富的、層次化的特征表示。這些表示可以被模型的后續組件用來執行各種任務,如分類、檢測和分割。通過利用強大的主干網絡,模型能夠高效地處理復雜數據,并在不同應用中提升性能。

主干類型I:Transformers和視覺Transformers(ViT):Transformers最初為自然語言處理設計,通過自注意力機制建模長距離依賴關系,徹底改變了計算機視覺領域。視覺Transformers(ViT)將Vaswani等人(2017)提出的Transformers架構適用于圖像數據,將圖像塊視為序列的token。這種適應在遙感中尤為有用,因為圖像往往較大且包含復雜的空間結構。圖4展示了用于遙感分割任務的ViT基本結構。

ViT的關鍵組件包括圖塊嵌入、位置編碼、Transformer編碼器和分類頭。圖塊嵌入將圖像分割為固定大小的塊,并將每個塊線性嵌入到向量中。位置編碼則為圖塊嵌入添加空間結構信息。Transformer編碼器由多層多頭自注意力和前饋神經網絡組成,處理嵌入塊的序列以捕捉全局依賴關系。最后,分類頭是一個全連接層,用于處理最終的序列表示以執行下游任務,如圖像分類。Transformer中的自注意力機制允許每個token關注所有其他token,為捕捉全局上下文提供了強大的方式。 ViT在遙感任務中表現出色,如土地覆蓋分類、城市區域識別和植被分析,利用其捕捉局部和全局模式的能力。

主干類型II:卷積神經網絡(CNN):卷積神經網絡(CNN),如殘差神經網絡(ResNet),通過引入殘差連接解決了深層神經網絡中的退化問題,這些連接允許梯度繞過某些層,從而促進非常深的網絡訓練。這一能力在遙感中尤為重要,因為通常需要深度模型來捕捉衛星圖像中的復雜細節和變化。

ResNet的特點是其殘差塊,包括繞過一個或多個層的快捷連接。殘差塊可以描述為以下公式:y=F(x,{Wi})+x\mathbf{y} = \mathcal{F}(\mathbf{x}, {W_i}) + \mathbf{x}y=F(x,{Wi})+x其中,y\mathbf{y}y是輸出,F\mathcal{F}F表示要學習的殘差映射,x\mathbf{x}x是輸入,{Wi}{W_i}{Wi}是塊中各層的權重。根據維度,快捷方式可以是恒等映射(如果輸入和輸出維度匹配)或卷積層(如果維度不同)。

ResNet有多種架構,如ResNet-50、ResNet-101和ResNet-152,數字表示總層數。這些網絡在各種視覺任務中表現出色,因為它們能夠在不退化的情況下訓練更深的網絡。在遙感中,ResNet廣泛用于圖像分類、目標檢測和變化檢測任務。例如,基于ResNet的模型可以分類不同的土地覆蓋類型,檢測建筑物和車輛等目標,并通過比較時間序列衛星圖像來監測景觀變化。

通過結合這些方法,遙感基礎模型能夠利用大量數據,處理復雜結構,并在各種應用中實現最先進的性能。這些方法使模型能夠有效應對遙感的獨特挑戰,如大圖像尺寸、多樣化數據源,以及在環境監測和分析中對高精度的需求。

在接下來的部分中,我們將探討這些方法在不同遙感任務中的具體應用,分析其性能,并討論用于訓練和評估這些模型的數據集。

在這篇全面的綜述中,我們回顧了2021年6月至2024年6月間開發的遙感基礎模型的進展。我們將這些模型分類為視覺模型和視覺-語言模型,重點介紹了它們獨特的方法論和能力。我們的分析涵蓋了多種先進技術,包括自監督學習(SSL)、視覺Transformers(ViTs)和殘差神經網絡(ResNets)。這些模型在場景分類、語義分割和目標檢測等任務中,以及在環境監測、數字考古、農業、城市規劃和災害管理等特定領域的應用中,顯著提高了性能。盡管取得了顯著進展,但仍存在若干挑戰,如需要更多樣化和高質量的數據集、較高的計算需求以及任務特定的困難。解決這些挑戰需要進一步的研究和跨學科的合作。總而言之,這篇綜述提供了當前遙感基礎模型的詳細概述,提出了寶貴的見解并指明了未來的研究方向。我們建議繼續努力開發高效的模型架構、增強多模態數據整合以及擴大數據集的多樣性,以充分發揮這些模型在遙感領域的潛力。

付費5元查看完整內容

視覺-語言基礎模型(VLFMs)在圖像字幕生成、圖文檢索、視覺問答和視覺定位等各種多模態任務上取得了顯著進展。然而,大多數方法依賴于使用通用圖像數據集進行訓練,缺乏地理空間數據導致在地球觀測方面表現不佳。最近提出了許多地理空間圖文對數據集和在其上進行微調的VLFMs。這些新方法旨在利用大規模多模態地理空間數據構建具有多樣地理感知能力的多功能智能模型,我們稱之為視覺-語言地理基礎模型(VLGFMs)。本文全面回顧了VLGFMs,匯總并分析了該領域的最新發展。特別是,我們介紹了VLGFMs興起的背景和動機,突出了其獨特的研究意義。然后,我們系統總結了VLGFMs采用的核心技術,包括數據構建、模型架構和各種多模態地理空間任務的應用。最后,我們總結了關于未來研究方向的見解、問題和討論。據我們所知,這是VLGFMs的首次綜合文獻綜述。我們持續追蹤相關工作:

//github.com/zytx121/Awesome-VLGFM。

在過去的十年中,研究人員在幾乎所有地理空間任務上都取得了顯著進展,例如場景分類[1]、目標檢測[2][3]、變化檢測[4]、去噪[5]、土地利用分割[6]、災害管理[7]和地理空間定位[8],這些進步是由深度學習和其他人工智能技術推動的。然而,這些模型是專門為特定任務設計和訓練的,因此難以直接應用于其他任務。即使是相似的任務,這些模型通常也表現出較差的泛化能力。

例如,遙感目標檢測是地球觀測的核心任務之一。它需要手動標注每個目標的位置和類別,這是一個耗時且勞動密集的過程。遙感圖像(RSIs)是由天基或空基傳感器從上方視角拍攝的,與自然圖像相比,這些圖像呈現了獨特的視角,導致了定向目標檢測的發展。由于該任務使用旋轉邊界框來表示目標,因此需要帶有旋轉邊界框標注的遙感數據集,如DOTA[9],來支持其訓練。此外,模型架構[10]、損失函數[11]、后處理函數和加速操作器[12]也必須基于標準目標檢測[13]進行修改。從這個角度來看,特定模型的應用場景似乎相當有限,缺乏跨任務甚至是相似任務之間的泛化能力。

為了減少為每個任務從頭開始訓練特定模型所浪費的資源,基礎模型[14]應運而生。這些模型在大規模圖像上進行預訓練,使它們能夠通過微調小規模的定制數據集來處理各種視覺任務。在遙感領域,先前對純視覺基礎模型的研究揭示了地球觀測通用模型的巨大潛力,稱為視覺地理基礎模型(VGFMs)。VGFMs在從單模態到多模態、從靜態到時態的全面評估中表現出顯著的泛化能力。盡管這些模型表現出強大的感知能力,但它們缺乏像人類一樣進行推理的能力。例如,沒有相應的標注樣本支持VGFM訓練,它無法通過考慮周圍環境和常識來確定遙感圖像中建筑物的具體功能,而人類則可以。類似地,沒有標注樣本,VGFM無法根據航空影像中的特征識別汽車的品牌或型號,而人類可以。

近年來,大型語言模型(LLMs)的發展徹底改變了人機交互。像BERT[16]這樣的LLMs利用大量文本數據來開發推理能力,顯示出在自然語言處理的各種任務中的顯著泛化能力。然而,LLMs只處理離散的文本數據,無法處理圖像,而視覺基礎模型雖然能夠處理圖像數據,但缺乏推理能力。為了彌合這些差距,引入了視覺-語言基礎模型(VLFMs)的概念。這些創新模型旨在進行感知和推理,整合來自文本和圖像的輸入。自從GPT-4 Vision發布以來,VLFMs的研究熱度不斷高漲,受到其強大能力的啟發。VLFMs的研究主要分為對比、對話和生成范式。下面,我們將簡要介紹三個方向中最具影響力的工作。具體而言,CLIP[17]采用對比范式,將視覺和文本信息投射到統一的表示空間,從而促進了下游視覺-語言任務的橋梁。LLaVA[18]體現了對話范式,使LLMs能夠在文本和視覺模態中進行上下文感知對話。Stable Diffusion[19],作為生成范式的代表,利用深度學習從文本描述中生成高質量、詳細的圖像,從而提升了圖像合成和創意視覺應用的能力。 當VLFMs應用于地球觀測時,本文將其稱為視覺-語言地理基礎模型(VLGFMs)。截至目前,VLGFMs也可以分為對比型、對話型和生成型。圖1列出了開發的代表性VLGFM及其發布時間。可以看出,VLGFMs首次出現在2023年第二季度。目前,相關工作的數量正處于快速增長期。值得注意的是,目前VLGFM的創新主要集中在收集訓練數據上,對模型架構的修改相對較少。大多數工作涉及基于LLaVA[18]和MiniGPT-4[20]框架,使用定制的遙感指令跟隨數據集進行微調。

隨著VLGFM的快速發展并展示出令人印象深刻的成果,追蹤和比較VLGFM的最新研究是值得的。它通過自然語言對話實現了人類與計算機的端到端交互,改變了依賴于預定義程序接口的傳統人機交互方式。據我們所知,目前沒有綜述全面總結VLGFMs的最新進展,包括數據管道、架構、基準和能力。我們的工作旨在填補這一空白。

貢獻。鑒于VLGFM的快速進展和令人鼓舞的成果,我們編寫了這篇綜述,旨在使研究人員了解VLGFMs的基本概念、主要方法和當前進展。這篇綜述提取了共同的技術細節,并涵蓋了VLGFMs領域最具代表性的工作。它還對背景和相關概念,包括VGFMs和遙感LLM驅動的代理進行了比較分析。此外,我們將VLGFMs的表現能力分為三個層次。據我們所知,這是關于VLGFMs的首次綜述。

綜述流程。在第2節中,我們提供了背景知識,包括定義、數據集、指標和相關研究領域。在第3節中,我們對基于不同數據收集方法、網絡架構和能力的各種方法進行了全面回顧。在第4節中,我們識別了挑戰和未來方向。

付費5元查看完整內容

盡管在大型語言模型(LLMs)中加速文本生成對于高效產生內容至關重要,但這一過程的順序性往往導致高推理延遲,從而對實時應用構成挑戰。為了解決這些挑戰并提高效率,已經提出并開發了各種技術。本文對自回歸語言模型中加速生成技術進行了全面的綜述,旨在了解最先進的方法及其應用。我們將這些技術分為幾個關鍵領域:投機解碼、提前退出機制和非自回歸方法。我們討論了每個類別的基本原理、優點、局限性和最新進展。通過這篇綜述,我們希望能夠提供對當前LLMs技術領域的見解,并為該自然語言處理關鍵領域的未來研究方向提供指導。

大語言模型(LLMs)的推理需要大量的計算資源,這歸因于多個因素。其中關鍵因素之一是諸如GPT家族[1]、LLaMA家族[2]、PaLM[3]、OPT[4]和Mistral[5]等模型固有的復雜性,這些模型通常包含數百萬甚至數十億個參數。因此,通過這些模型的眾多神經網絡層處理輸入數據需要大量的計算資源。此外,推理過程計算密集,涉及復雜的操作,如矩陣乘法、非線性激活和跨多個層的注意力機制。此外,LLMs需要大內存分配,因為它們的參數中包含了廣泛的數據存儲,包括詞嵌入和注意力矩陣。此外,自回歸解碼的性質,即輸出令牌基于先前生成的令牌逐步生成,限制了并行化的潛力,特別是對于較長的序列,導致推理速度較慢。最后,LLMs中常用的注意力機制用于捕捉輸入數據中的長程依賴關系,這增加了計算復雜性,特別是在計算大輸入序列的注意力分數時。綜上所述,這些因素使得大語言模型的推理需要大量的計算資源和時間。

為了解決加速大語言模型推理的挑戰,已經開發了各種方法。這些技術包括知識蒸餾[6, 7, 8, 9]、量化[10, 11, 12, 13]、稀疏化[14, 15, 16]、修改后的注意力機制[17, 18, 19, 20]。然而,提高大語言模型效率的另一個關鍵方面在于其解碼機制。本綜述聚焦于LLMs的這些解碼機制,探索和評估其在加速推理的同時保持或提高性能的作用。LLMs中的生成方法指的是這些模型如何基于輸入數據生成輸出序列。這涉及選擇最可能的下一個令牌,以在每一步構建連貫且有意義的序列。然而,加速這一過程面臨著若干挑戰。一個主要挑戰是自回歸解碼的固有順序性,即每個令牌基于先前生成的令牌生成。這種順序依賴性限制了并行化的潛力,特別是在較大模型中導致推理速度較慢。另一個挑戰是,在加速生成過程的同時保持生成輸出的質量。任何加速技術必須確保生成的序列保持準確、連貫和上下文相關。加速生成應保持模型生成高質量輸出的能力,同時所需的計算資源可能非常龐大。

本文全面討論了各種加速生成技術。第2節討論了投機解碼方法,第3節探討了提前退出方法,第4節研究了非自回歸算法(并行解碼)策略。通過詳細分類和深入分析,我們提供了對這些大語言模型機制的深刻見解,強調其優點、局限性和未來研究方向。如圖1所示,圖中展示了不同算法的分類法,本文討論的加速生成技術根據其基本原理和方法進行了分類和可視化。

投機解碼:并行預測與驗證

投機解碼技術通過并行預測多個令牌并同時驗證這些預測,有效地提高了生成速度。這一技術受啟發于處理器中的投機執行優化技術,通過并行執行任務來驗證其必要性,從而提高并發性。

**Blockwise 解碼

Blockwise解碼是一種經典的投機解碼方法,通過在模型內部并行評分來加速解碼過程。該方法首先在訓練時在原解碼層后增加多輸出前饋層,并訓練多個輔助“提議”模型以并行預測多個令牌。在推理時,這些模型并行生成下一個k個令牌,并通過基本模型對這些令牌進行評分,確定最長的前綴。如果這個前綴的長度超過1,則可以跳過一個或多個貪心解碼循環,從而加快推理速度。

**SpecDec 方法

SpecDec方法通過引入Spec-Drafter和Spec-Verification兩個組件,進一步優化了投機解碼過程。Spec-Drafter是一個獨立的模型,專注于高效準確地生成令牌草稿,而Spec-Verification則允許接受略微偏離貪心解碼的令牌,從而提高接受率。實驗結果表明,SpecDec方法在保持生成質量的同時,實現了約5倍的速度提升。

**自我投機解碼(SSD)

自我投機解碼(SSD)是一種不需要輔助草稿模型的新穎推理方案,而是利用單一LLM同時進行草稿生成和驗證,從而減少了總內存使用。在草稿階段,部分中間層被跳過,選擇這些層是通過貝葉斯優化完成的。在驗證階段,使用原始LLM對草稿令牌進行一次前向傳遞評估。雖然跳過額外層可以加速草稿生成,但也可能降低令牌接受率,增加整體推理時間。因此,層選擇過程被設計為優化問題,目標是最小化每個令牌的平均推理時間。

提前退出機制:動態計算資源分配

提前退出機制通過動態調整每個輸入和生成時間步的計算資源分配,有效地加速了生成過程。這一機制基于對樣本難度的觀察,動態調整計算資源,避免對簡單樣本的過度計算,同時確保復雜樣本的精確處理。

**CALM 框架

Confident Adaptive Language Modeling(CALM)框架通過動態分配計算資源,根據中間層的置信度得分決定是否提前退出計算,從而加速生成過程。CALM框架探索了三種不同的置信度測量方法:Softmax響應、隱藏狀態飽和度和早退出分類器。通過這些方法,模型可以在達到預定義閾值時提前退出,避免全層計算,從而加速推理。

**FREE 方法

Fast and Robust Early-Exiting(FREE)方法通過引入淺層-深層模塊和同步并行解碼,提高了推理效率。FREE框架將計算路徑分為淺層模型和深層模型,在解碼時同步處理來自淺層模型的早退出令牌,直到遇到非退出令牌。通過Beta混合模型(BMM),FREE方法能有效捕捉置信度得分與預測一致性的關系,從而動態調整閾值,提高推理效率。

**HASH EE

Hash-based Early Exiting(HASH EE)通過哈希函數為每個令牌分配固定的退出層,避免了傳統方法中的內部分類器或額外參數,從而提高了推理效率。HASH EE的優勢在于無需監督即可實現令牌級提前退出,適用于多種任務,包括語言理解和生成任務。

非自回歸模型:并行生成目標令牌

非自回歸模型通過同時或并行生成所有目標令牌,避免了自回歸模型中逐令牌生成的順序性,顯著加速了推理過程。非自回歸模型在處理諸如機器翻譯等任務時,表現出更高的推理效率。

**NAT 模型

非自回歸Transformer(NAT)模型在機器翻譯任務中首次引入,通過預測每個輸入詞的繁殖數量來確定目標句子的長度。在訓練和推理過程中,NAT模型通過復制源輸入來初始化解碼器輸入,并使用繁殖預測器來決定每個輸入詞應復制多少次,從而構建目標句子長度。通過這種方法,NAT模型實現了與自回歸模型相當的質量,同時推理延遲降低了十倍以上。

**FlowSeq 模型

FlowSeq模型使用生成流技術,通過引入潛變量提高了非自回歸生成過程的依賴性建模。FlowSeq通過生成流對先驗分布進行編碼,引入潛變量,從而在非自回歸生成過程中建模輸出令牌之間的依賴關系,同時實現高效并行解碼。實驗結果表明,FlowSeq在保持性能的同時,實現了顯著的推理加速。

**依賴感知解碼器(DePA)

依賴感知解碼器(DePA)通過雙向依賴建模和注意力轉換過程,提高了非自回歸模型對目標依賴的建模效果。DePA模型采用前向-后向依賴建模,在非自回歸訓練之前進行自回歸前向-后向預訓練,增強解碼器對目標依賴的建模能力。

結論與未來展望

本文全面探討了各種加速生成技術,包括投機解碼、提前退出機制和非自回歸方法。通過詳細的分類和分析,我們總結了當前技術的優勢、局限性和最新進展,為研究人員和工程師在實際應用中提供了寶貴的參考。未來,隨著技術的不斷發展,這些加速生成方法有望進一步優化,提高LLMs在各種應用場景中的實用性和效率。 通過不斷優化和創新,我們期待LLMs能夠在更廣泛的領域中展現其強大的潛力,實現實時高效的文本生成。

付費5元查看完整內容

近期在基礎模型上的發展,如大型語言模型(LLMs)和視覺-語言模型(VLMs),它們基于大量數據訓練,促進了跨不同任務和模態的靈活應用。它們的影響覆蓋了多個領域,包括健康護理、教育和機器人技術。本文提供了基礎模型在現實世界機器人應用中的概覽,主要強調在現有機器人系統中替換特定組件。總結包括了基礎模型中輸入輸出關系的視角,以及它們在機器人技術領域內的感知、運動規劃和控制中的作用。本文最后討論了實際機器人應用面臨的未來挑戰和含義。

近期在人工智能領域的進步顯著擴展了機器人的操作能力,使它們能夠承擔多種多樣的活動【1-5】。雖然最初機器人的部署主要限于大規模生產環境【6-11】,但現在工業機器人的適用性已經擴展到小批量和高多樣性生產領域,包括室內空間和災難現場【12-15】。這種擴散不僅僅限于環境多樣性的增加;它還擴展到了任務范圍的擴大,包括日常活動,如整理【16-18】、洗滌【19,20】、擦拭【21,22】和烹飪【23,24】。機器學習為滿足這些機器人系統的需求提供了一種方式。然而,僅僅在特定領域數據上訓練每個模型對于多樣的機器人、任務和環境來說是不夠的。越來越多地需要開發可以使用單一的、預訓練的系統或模塊應用于各種機體、任務和環境的機器人。 解決這一挑戰的一個方案是引入基礎模型【25】。基礎模型是在大量數據上訓練的模型,可以通過上下文學習、微調或甚至零樣本的方式輕松應用于廣泛的下游任務【26,27】。顯著的例子包括大型語言模型(LLMs)如GPT【27】和視覺-語言模型(VLMs)如CLIP【28】,其中語言是結合各種類型模態的粘合劑。這些基礎模型的影響是顯著的,有幾篇綜述文章討論了它們在不同領域的影響【29-32】。Wang等人【29】和Zeng等人【30】進行了關于大型語言模型在機器人學中應用的綜述,而Firoozi等人【31】和Hu等人【32】進行了更廣泛的綜述,關注于基礎模型在機器人學中的應用。在本文中,我們總結了基礎模型對現實世界機器人的適用性,旨在加速它們在實際機器人應用中的采用。與其他綜述文章相比,我們提供了如何從基礎模型的輸入輸出關系以及機器人學中的感知、運動規劃和控制的角度,用基礎模型替換現有機器人系統中的特定組件的總結。 本研究的結構如圖1所示。在第2節中,我們將描述基礎模型本身。特別地,我們將根據它們使用的模態類型,例如視覺【33,34】、語言【35-41】等,以及它們可以應用的下游任務類型進行分類。在第3節中,我們將基于當前應用【2,3,42】描述如何將基礎模型應用于機器人學。一般來說,機器人需要配備感知模塊、規劃模塊和控制模塊。從這個角度,我們分類了可以將基礎模型應用于現實世界機器人學的方式,包括低級感知、高級感知、高級規劃和低級規劃。此外,我們還將解釋在訓練直接連接低級感知和低級規劃的映射時,對機器人學的數據增強。在第4節中,我們將描述包括機器人實體在內的基礎模型,即機器人基礎模型,包括關于如何就模型架構、數據集和學習目標制作這些機器人基礎模型的討論。在第5節中,我們將描述使用基礎模型的機器人、任務和環境。我們將任務分類為導航、操縱、帶有操縱的導航、運動和交流。最后,我們將討論未來的挑戰并提出我們的結論。

“基礎模型”一詞最初在【25】中被引入。在這項綜述中,我們將簡單描述在機器人應用中使用的基礎模型的類型,以及下游任務,將關于基礎模型本身的討論推遲到【25】。在2012年,深度學習因ILSVRC-2012比賽的獲勝模型而獲得機器學習社區的主流關注【43】。2017年,由【44】介紹的Transformer模型,促進了自然語言處理(NLP)【45】和計算機視覺【46】領域的重大進步。到2021年,一個經過大量數據訓練、能夠輕松應用于廣泛下游任務的模型被稱為“基礎模型”【25】。基礎模型的特點主要有三個:

上下文學習 * 規模定律 * 同質化

上下文學習使得僅用幾個例子就能完成新任務成為可能,無需重新訓練或微調。規模定律允許隨著數據、計算資源和模型大小的增加而持續提升性能。同質化允許某些基礎模型架構以統一的方式處理多種模態。 在這一章中,我們從在機器人學中的適用性的角度對基礎模型進行分類。機器人利用基礎模型的最關鍵標準是選擇使用哪些模態。本章從語言、視覺、音頻、3D表示和各種其他模態的角度討論了基礎模型的類型和它們可以執行的下游任務。在利用每種模態的背景下,我們進一步從網絡輸入和輸出的角度對基礎模型進行分類。概覽顯示在圖2中。請注意,我們的目標不是在這里全面覆蓋基礎模型;我們的重點仍然在于解決模態差異和基礎模型的分類。

通常,機器人的行為由感知、規劃和控制組成。在本研究中,我們將感知分為兩個類別:低級感知和高級感知。同時,我們將規劃和控制分別稱為高級規劃和低級規劃。加上對學習這些組成部分的數據增強,我們將機器人對基礎模型的利用分為以下五個類別。 * 低級感知 * 高級感知 * 高級規劃 * 低級規劃 * 數據增強

這些類別之間的關系如圖3所示。用于低級感知的基礎模型包括在圖像或3D表示中的語義分割和邊界框提取,以及在各種模態中的特征提取。用于高級感知的基礎模型涉及將從低級感知獲得的結果轉換和利用成如地圖、獎勵和運動約束等形式。用于高級規劃的基礎模型執行更高級別的抽象任務規劃,不包括直接控制。用于低級規劃的基礎模型執行較低級別的運動控制,包括關節和末端執行器控制。用于數據增強的基礎模型在執行連接低級感知和低級規劃的學習時,通過數據增強增強魯棒性。 在實踐中,通過組合這五種利用方法創建了各種應用。主要分為四種類型,如圖4所示。 (i) 進行低級感知,然后用高級規劃規劃行為。 (ii) 通過低級感知和高級感知提取獎勵和運動約束,并用于強化學習和軌跡優化。 (iii) 通過低級感知和高級感知生成地圖、場景圖等,并將它們作為任務規劃的基礎。 (iv) 使用數據增強,穩健地進行直接關聯低級感知的特征提取和控制輸入的端到端學習。 值得注意的是,也有一些研究方法不適用于這一框架。 從這些角度出發,我們選取了幾篇具有代表性的論文并在表1中進行了總結。

付費5元查看完整內容

多模態3D場景理解由于其在自動駕駛和人機交互等多個領域的廣泛應用而受到了廣泛關注。與傳統的單一模態3D理解相比,引入額外的模態不僅提高了場景解釋的豐富性和精確性,而且確保了更為魯棒和有彈性的理解。在多變和具有挑戰性的環境中,這尤為重要,因為僅依賴3D數據可能是不夠的。盡管在過去三年中,多模態3D方法的發展呈現上升趨勢,尤其是那些整合多攝像頭圖像(3D+2D)和文本描述(3D+語言)的方法,但值得注意的是,缺乏一個全面且深入的綜述。在這篇文章中,我們提供了最近進展的系統性調研,以填補這一空白。我們首先簡要介紹一個背景,正式定義各種3D多模態任務并總結其固有的挑戰。之后,我們提出了一個新穎的分類法,根據模態和任務對現有方法進行了全面分類,探索了它們各自的優勢和局限性。此外,我們還提供了最近方法在幾個基準數據集上的比較結果,以及深入的分析。最后,我們討論了尚未解決的問題,并為未來的研究提供了幾個可能的方向。

//www.zhuanzhi.ai/paper/db0ef107bb8313585581f0bab52ab996

給定一個3D點云和來自另一模態的信息,如2D圖像和自然語言,多模態3D場景理解旨在理解每個物體及其周圍環境的語義含義 [1], [2], [3]。對3D場景的全面理解使代理能夠識別實體的類別和位置,并創建場景的新品牌內容和風格。與僅使用3D點云相比,2D圖像的加入提供了額外的顏色和紋理信息,而自然語言的引入則實現了人機交互。因此,多模態3D場景理解已成為計算機視覺中的一個重要研究領域,應用于自動駕駛[4]、機器人導航[5]和人機交互[6]。

多模態3D場景理解可進一步分為(1) 3D+2D場景理解。3D LiDAR點云提供了充足的深度和幾何結構信息,這有助于獲得3D物體的形狀和姿態。但它們缺乏顏色信息和紋理細節,對于遠距離的物體往往稀疏而無序[7], [8], [9], [10], [11]。相反,2D相機圖像通常包含豐富的顏色、紋理和背景,但缺乏幾何信息,且易受天氣和光線條件的影響[12], [13], [14], [15]。自然地,利用LiDAR點云和相機圖像之間的互補性可以更好地、更完整地感知3D環境。但這兩種傳感器捕獲的同一個3D場景的表示之間經常會出現差異,因為LiDAR傳感器通過360度旋轉捕獲點云,而相機從透視視圖捕獲圖像,沒有深度感[16]。為了解決這個問題,提出了一些3D+2D場景理解方法,通過基于幾何的對齊[17]和基于語義的對齊[18]來進行LiDAR-相機融合。基于融合的特征,這些方法可以進一步執行3D物體檢測和分割[19], [20], [21],這通常用于自動駕駛和機器人導航。(2) 3D+語言場景理解。傳統的3D場景理解通常要求用戶具有專業知識,這對普通用戶不友好[22], [23], [24], [25], [26], [27]。用戶現在期望有一種更便捷的方式將他們的意圖傳達給計算機,實現信息交換并獲得個性化的結果。為了實現便捷的人機交互,研究人員提出了3D+語言場景理解。它結合3D視覺信息和自然語言作為輸入[28], [29], [30],因為自然語言可以作為背景知識和查詢條件來反映用戶意圖。通過多模態交互,經常采用如Transformer[31], [32]或圖神經網絡[33], [34]等技術,3D+語言場景理解方法不僅可以定位用戶提到的實體(例如,視覺定位和開放詞匯識別),還可以生成用戶所需的內容(例如,密集字幕,視覺問題回答,場景生成)。

盡管近年來出現了眾多方法,但多模態3D場景理解的很大一部分仍然分散在不同的任務中,并且沒有此類系統的調查存在。因此,有必要系統地總結近期的研究,全面評估不同方法的性能,并有前瞻性地指出未來的研究方向。這激發了本次調查,將填補這一空白。本文的主要貢獻可以總結為:

? 關于多模態3D場景理解的系統性調查。據我們所知,這是第一篇全面討論多模態3D場景理解近期進展的調查。為了使讀者對我們的文章有清晰的理解,我們從所需數據模態和目標下游任務的角度將算法分類為不同的分類,如圖1所示。

? 全面的性能評估和分析。我們比較了幾個公開可用的數據集上現有的多模態3D場景理解方法。我們的深入分析可以幫助研究者為其特定應用選擇合適的基線,同時也提供了關于修改現有方法的有價值的見解。

?** 對未來前景的有洞察力的討論**。基于系統調查和全面的性能比較,討論了一些有前途的未來研究方向,包括大規模3D基礎模型、數據高效訓練、3D建模的計算效率以及添加額外模態。

本文的結構組織如下。第2節總結了多模態3D場景理解中的問題定義和主要挑戰。第3節和第4節分別對3D+2D和3D+語言場景理解中用于不同下游任務的典型方法進行了深入探討。第5節介紹了基準數據集、評估指標以及不同技術的比較分析。最后,第6節總結了這篇文章并討論了未來研究的有前途的方向。

3D+2D多模態場景理解可以細分為多模態室外/室內3D對象檢測和多模態室外/室內3D語義分割。從2020年至今的現有3D+2D多模態方法的時間性概述如圖2所示。

3D+語言多模態場景理解可以分為3D視覺錨定、3D密集標注、3D問題回答、文本驅動的3D場景生成、開放詞匯的3D識別以及其他類別。從2020年至今的現有3D+語言多模態方法的時間性概述如圖5所示。

**結論與展望 **

本綜述為您提供了多模態3D場景理解的最新深入了解。我們首先總結了3D+2D和3D+語言情況下的任務定義和固有挑戰。接著是對每個任務的關鍵技術的結構化分類。此外,我們提供了對幾個基準數據集的最新進展的比較結果,并提供了有洞察力的觀察。我們希望這項調查能為新手和經驗豐富的從業者提供一個全面的指導。在多模態3D場景理解中,仍有許多進一步探索的可能性。以下提供了一些有前途的未來研究方向。 大規模3D-語言基礎模型。基于2D到3D轉移的當前3D VLMs在零射擊能力和下游應用中受到限制,主要是由于數據規模有限和幾何信息保留不足[41]。這強調了大規模3D-語言基礎模型的必要性。解決這一挑戰的主要解決方案在于創建可以支持從零開始訓練VLMs的大型數據集。此外,高效的遷移學習方法,包括像提示調整[177]和LORA[178]這樣的技術,通過利用預訓練的知識為特定任務提供了很大的應用前景。

數據高效訓練。考慮到與數據收集和注釋相關的顯著成本,當前的許多研究都局限于小規模數據集。因此,強調為有限數據量量身定制的健壯模型訓練和優化的開發變得越來越重要,從而減少對大規模數據集的依賴。最近的研究已經在解決數據注釋挑戰方面展現出了有前途的結果,通過無監督和弱監督學習方法。此外,使用文本到圖像或文本到3D生成合成逼真樣本有望進一步被研究,這可能緩解數據收集問題。

3D建模的計算效率。鑒于點云的大量體積,計算需求可能會顯著增加。因此,計算效率高的3D模型變得至關重要。為了應對這一挑戰,采用模型壓縮技術,如量化[179]、修剪[180]和高效結構[181],對于減少計算復雜性至關重要。此外,利用硬件優化如Flash attention[182]可以促進應用在邊緣設備上的部署,為提高效率提供另一種途徑。

納入其他模式。盡管在多模態3D建模方面取得了令人印象深刻的進展,但主要的重點仍然是圖像和語言。我們設想將更多的模式,如音頻,納入一個綜合模型來適應它們的聯合分布,這對于理解復雜的3D場景更為有助。鑒于訓練新模型時的復雜訓練要求和成對數據的稀缺,提高現有的多模態3D模型的效果可能更為有效,通過集成其他模式。一個可行的方法[183]是使用最小的成對數據集對齊每一個定義良好的、特定模式的模型。

付費5元查看完整內容
北京阿比特科技有限公司