摘要—視覺目標跟蹤(VOT)是計算機視覺領域一個具有吸引力且重要的研究方向,其目標是在視頻序列中識別和跟蹤特定目標,且目標對象是任意的、與類別無關的。VOT技術可以應用于多種場景,處理多種模態的數據,如RGB圖像、熱紅外圖像和點云數據。此外,由于沒有單一傳感器能夠應對所有動態和變化的環境,因此多模態VOT也成為了研究的重點。本文全面綜述了近年來單模態和多模態VOT的最新進展,特別是深度學習方法的應用。具體而言,本文首先回顧了三種主流的單模態VOT,包括RGB圖像、熱紅外圖像和點云跟蹤。特別地,我們總結了四種廣泛使用的單模態框架,抽象出其架構,并對現有的繼承方法進行了分類。接著,我們總結了四種多模態VOT,包括RGB-深度、RGB-熱紅外、RGB-LiDAR和RGB-語言。此外,本文還呈現了所討論模態在多個VOT基準測試中的對比結果。最后,我們提出了建議和深刻的觀察,旨在激發這一快速發展的領域的未來發展。 關鍵詞—視覺目標跟蹤,深度學習,綜述,單模態,多模態
//www.zhuanzhi.ai/paper/2edd0971ae625f759822052af4d569fd
1 引言
視覺目標跟蹤(VOT)是過去幾十年來計算機視覺領域的一個高度活躍的研究課題,因其在視頻監控 [1]、[2]、[3]、自動駕駛 [4]、[5]、移動機器人 [6]、[7]、人機交互 [8]、[9] 等廣泛場景中的重要應用而受到關注。VOT任務的定義是:給定目標在第一幀中的邊界框位置,跟蹤器需要在隨后的所有幀中持續且魯棒地識別和定位該目標,其中目標可以是任意實例且不依賴于類別。這個任務非常具有挑戰性,因為:1)目標可能經歷諸如形變、旋轉、尺度變化、運動模糊和視野丟失等復雜的外觀變化;2)背景可能帶來諸如光照變化、相似物體干擾、遮擋和雜亂等無法控制的影響;3)視頻捕捉設備可能會震動和移動。 作為計算機視覺中的一項核心任務,VOT有多種數據模態可供選擇。最常見的模態是RGB視頻,因其普及和易獲取性,吸引了大量研究者關注這一任務。RGB模態的VOT提供了在圖像坐標系下的大致目標位置,并通過二維邊界框為許多高級圖像分析任務奠定了基礎,例如姿態估計、步態/活動識別、細粒度分類等。基于RGB的VOT的演進 [2]、[10]、[11]、[12] 是持久且歷史悠久的,隨著深度學習 [13]、[14]、[15]、[16]、[17] 和大規模數據集 [18]、[19]、[20] 的出現,這一進展進一步加速。本文主要關注過去十年中的方法,特別是基于深度神經網絡(DNN)的方法。根據其工作流程,我們將主流的RGB跟蹤器分為四類:判別性相關濾波器(DCF) [17]、[21],Siamese跟蹤器 [22]、[23]、[24],實例分類/檢測(ICD) [25]、[26]、[27] 和單流變換器(OST) [1]、[28]、[29]。為了便于說明,圖3展示了這四種基于深度學習的框架及其最簡化的組件。前兩種框架在過去十年中非常流行,而后兩種則較少被提及,甚至在以往的綜述中沒有出現過,因為ICD不像DCF和Siamese那么常見,OST則是一個自2022年才出現的新框架。 另一方面,RGB模態的缺點也非常明顯,應用場景受到限制。首先,它在夜間和惡劣天氣(如雨天和雪天)下的表現不盡如人意。在這些嚴酷的視覺條件下,可以使用基于熱紅外(TIR)的VOT [30]、[31]、[32],通過TIR攝像機捕捉來自生物體的熱輻射,在沒有光照的情況下跟蹤目標。其次,缺乏深度信息使得單一的RGB模態VOT無法感知三維幾何和定位信息,這在自動駕駛和移動機器人等應用場景中尤為重要。最近,基于LiDAR的VOT [5]、[33]、[34]、[35] 應運而生,解決了這一問題,通過探索3D點云的內在幾何結構來感知目標的深度。LiDAR點的幾何結構有助于感知目標物體的深度,從而提供精確的3D形狀和位置。因此,本文還概述了兩種單模態VOT方法(基于TIR和LiDAR的)。此外,容易發現這些模態之間的共同框架,以便更好地理解。例如,基于TIR的跟蹤器通常遵循DCF和Siamese框架,因為TIR數據格式與RGB圖像非常相似。同樣,基于LiDAR的VOT借用了RGB模態中的Siamese框架,并將其發展為主導3D跟蹤領域的方法。 此外,由于不同的單模態VOT各有優缺點,因此也提出了融合多模態信息的跟蹤器,具有提高精度和魯棒性的潛力。更具體地說,融合意味著將兩種或多種模態的信息結合起來進行目標跟蹤。例如,TIR傳感器對光照變化、偽裝和物體姿態變化不敏感,但在人群中區分不同人的TIR輪廓會比較困難。另一方面,RGB傳感器則具有相反的特性。因此,直觀地將這兩種模態進行融合,可以互相補充 [36]、[37]、[38]。此外,融合選擇可能根據不同的應用有所不同。例如,RGB-LiDAR [39]、[40] 可以是適用于機器人跟隨的良好選擇,因其需要準確的3D信息;而RGB-語言VOT [8]、[9]、[41] 則適用于人機交互。隨著實際需求的增加,VOT領域的一些研究者已轉向集成多種模態,以構建魯棒的跟蹤系統。 現有關于VOT的綜述論文主要集中在單一RGB模態方法的不同方面和分類 [42]、[43]、[44]、[45]、[46]、[47]、[48]、[49]、[50]。例如,最近的綜述 [46] 將現有的RGB跟蹤器分為生成性跟蹤器和判別性跟蹤器。Javed等人 [43] 介紹了兩種廣為人知的RGB基VOT框架,即DCF和Siamese。然而,這些以往的工作未包含最新流行的基于變換器的方法,而這些方法不僅建立了新的最先進的性能,還帶來了許多有洞察力的研究方向。此外,ICD框架的展示也不夠充分。而且,關于多模態VOT的綜述非常少,要么僅討論了兩種模態(RGB-Depth和RGB-TIR) [51],要么側重于多線索特征的融合(如顏色、梯度、輪廓、空間能量、熱輪廓等) [52]、[53]。在過去五年里,我們目睹了多模態VOT的顯著進展。同時,新的研究方向如基于LiDAR的VOT、RGB-LiDAR VOT和RGB-語言VOT相繼出現。然而,這些研究在以往的VOT綜述中未被很好地總結。 本文從數據模態的角度,系統地回顧了VOT方法,考慮了單模態VOT和多模態VOT的最新發展。我們在圖1中總結了所回顧的模態及其代表性示例、優缺點和應用。具體而言,我們首先概述了三種常見的單模態VOT方法:基于RGB、基于TIR和基于LiDAR的。接下來,我們介紹了四種多模態融合跟蹤方法,包括RGB-Depth、RGB-TIR、RGB-LiDAR和RGB-Language。除了算法外,我們還報告并討論了不同模態的VOT基準數據集及其結果。本文的主要貢獻總結如下:
本文的其余部分安排如下:第2節介紹現有的VOT綜述,并闡述本文的不同方面。第3節回顧了使用不同單一數據模態的VOT方法及其比較結果。第4節總結了多模態VOT方法。第5節介紹了不同模態的VOT數據集。最后,第6節討論了VOT的未來發展潛力。由于篇幅限制,部分結果表格,包括單模態和所有多模態結果,已移至附錄A,且不同模態的VOT數據集介紹見附錄B。
摘要
近年來,生成模型的最新進展顯著促進了個性化內容創作的發展。在給定一小組包含用戶特定概念的圖像的情況下,個性化圖像生成能夠創造出結合指定概念并遵循提供的文本描述的圖像。由于其在內容創作中的廣泛應用,近年來在這一領域已投入了大量的研究工作。然而,用于個性化的技術隨著生成模型的發展而不斷演化,且具有各自獨特且相互關聯的組成部分。在本綜述中,我們全面回顧了跨各種生成模型的廣義個性化圖像生成方法,包括傳統的生成對抗網絡(GAN)、當代文本到圖像的擴散模型和新興的多模態自回歸(AR)模型。我們首先定義了一個統一的框架,標準化不同生成模型中的個性化過程,涵蓋了三個關鍵組件:反演空間、反演方法和個性化方案。這個統一框架為分析和比較不同生成架構中的個性化技術提供了結構化的方法。基于該框架,我們進一步深入分析了每種生成模型中的個性化技術,突出其獨特貢獻和創新。通過比較分析,本綜述闡明了個性化圖像生成的現狀,識別了現有方法中的共性和特征差異。最后,我們討論了該領域中的開放挑戰,并提出了未來研究的潛在方向。相關工作的持續更新可以訪問://github.com/csyxwei/Awesome-Personalized-Image-Generation。
關鍵詞
個性化圖像生成,生成模型,生成對抗網絡,文本到圖像的擴散模型,多模態自回歸模型 1 引言
近年來,生成模型經歷了快速的發展,從生成對抗網絡(GANs)[1] 到擴散模型(DMs)[2] 和自回歸(AR)模型[3]。這些模型在生成多樣化和高質量圖像方面表現出了顯著的優勢。最近,文本到圖像(T2I)生成模型[4–7] 展現了通過文本輸入控制圖像生成的卓越靈活性。得益于大規模的預訓練,這些T2I模型表現出卓越的語義理解能力,能夠生成準確反映給定文本提示的逼真圖像。這些進展促進了多種下游任務的發展,如條件生成[8]、圖像編輯[9–11] 和藝術創作[12, 13]。其中,個性化圖像生成[14–17] 引起了廣泛關注,主要集中在通過圖像生成創造用戶特定的概念。 當代個性化方法[12, 14–18] 主要利用文本到圖像的擴散模型,并增強這些模型以在指定的上下文中生成用戶特定的概念。具體而言,用戶特定的概念通過一小組包含目標概念的圖像(例如,主題、面孔或風格,通常為 3~5 張圖像)來指示,而指定的上下文則由目標文本提供。在本綜述中,我們探討了跨多種生成模型的廣義個性化圖像生成技術,包括傳統的 GANs、當前的文本到圖像擴散模型以及新興的多模態自回歸(AR)模型。例如,如圖4所示,GAN 反演[19–23] 將真實圖像映射到 GAN 的潛在空間,從而允許后續的操作以實現廣義個性化。這些 GAN 反演技術顯著激發了當前基于擴散的個性化方法中概念反演技術的發展[16, 24, 25]。此外,最近自回歸模型[3, 26–28] 在多模態生成中的進展,為個性化生成提供了有前景的新方向。因此,本文將這些技術統稱為廣義個性化圖像生成,并對利用這些生成模型的個性化進行全面的綜述。 圖1展示了近年來該領域的論文數量和代表性作品。在過去兩年中,已提出超過180種基于擴散的個性化方法,而過去十年間,各種生成模型已發展出超過300種方法。 若干綜述[29–32] 提供了關于條件圖像合成的前沿擴散方法的全面回顧。盡管這些工作提供了寶貴的見解,但它們主要集中在一般的條件生成技術上,而沒有深入探討個性化圖像生成領域。其中,有兩篇最近的綜述[32, 33] 與我們的工作特別相關。Shuai 等人[32] 總結了文本到圖像擴散模型在圖像編輯中的應用,將個性化圖像生成歸類為一種無內容編輯形式。Zhang 等人[33] 則對基于擴散模型的個性化圖像生成進行了綜述,但傾向于忽視其他生成模型所引入的進展。與這些現有綜述不同,我們的研究集中在跨多種生成模型的個性化,包括 GANs、文本到圖像的擴散模型和多模態自回歸模型。我們全面概述了這些模型中的個性化技術,強調它們的共性和差異,以澄清當前個性化圖像生成方法的現狀。 為了系統地探索個性化圖像生成,本文首先定義了一個統一框架,標準化不同生成模型中的個性化過程。具體而言,我們將個性化圖像生成分為兩個主要階段:概念反演和個性化生成,其中包含三個關鍵組件。反演空間:個性化過程首先通過將給定概念反演為生成模型可以操作的表示,探索用于此目的的各種空間。反演方法:選擇目標空間后,可以采用多種反演方法來學習表示,例如基于優化的方法、基于學習的方法等。個性化方案:生成模型隨后將反演的概念表示與目標文本結合,生成個性化圖像。此步驟涉及針對每種生成模型量身定制的各種個性化方法和概念類別。 基于這一統一框架,我們進一步深入分析了每種生成模型中的個性化技術,突出它們在不同場景下的共性與差異。此外,我們還介紹了個性化圖像生成中常用的評估指標和數據集,并討論了該領域的開放挑戰以及未來研究的潛在方向。 本文其余部分組織如下:第2節定義了個性化圖像生成的問題,并介紹了生成模型的基礎知識;第3至5節討論了針對不同生成模型的個性化技術,包括 GANs、擴散模型和自回歸模型;第6節回顧了個性化圖像生成中現有的評估數據集和指標;第7節指出了該領域的開放挑戰,并概述了潛在的未來研究方向;最后,第8節通過總結關鍵見解和貢獻,結束了本綜述。圖2展示了我們綜述的組織結構,并分類了各節中的文獻。
生成對抗網絡(GANs)由生成器和判別器兩個神經網絡組成,通過對抗過程進行訓練。生成器旨在生成逼真的圖像,而判別器則試圖區分真實圖像和生成圖像。近年來,GANs在生成高分辨率圖像方面取得了顯著進展,特別是基于風格的GAN系列(如StyleGAN),通過分層潛在風格控制生成圖像的不同方面。
擴散模型通過逐步去噪的過程生成圖像,與GANs不同,擴散模型通過前向擴散過程和反向去噪過程生成圖像。近年來,擴散模型在文本到圖像生成領域得到了廣泛應用,特別是Stable Diffusion系列模型,通過在大規模文本-圖像數據集上進行預訓練,能夠生成與文本描述高度一致的圖像。
自回歸模型通過預測序列中的下一個元素來生成圖像,近年來在自然語言處理(NLP)領域展示了卓越的性能。DALL-E等模型通過將文本和圖像轉換為離散標記,實現了文本到圖像的生成。多模態自回歸模型通過結合視覺和文本信息,展示了在個性化圖像生成中的潛力。
GANs中的個性化圖像生成主要依賴于GAN反演技術,將真實圖像映射到GAN的潛在空間中,以便進行后續的編輯和生成。具體來說,給定一個概念圖像,個性化圖像生成包括兩個主要階段:概念反演和潛在編輯。
在GAN反演中,有多種潛在空間可用于表示概念圖像,包括廣義風格空間、特征空間和參數空間。廣義風格空間(如StyleGAN中的WW空間)提供了更好的語義解纏,能夠更準確地表示復雜概念。特征空間通過映射中間殘差特征來增強細節一致性,而參數空間則通過微調生成器參數來提高反演保真度。
GAN反演方法可以分為優化方法、學習方法和混合方法。優化方法通過直接優化潛在表示來反演圖像,而學習方法則通過訓練編碼器來預測潛在表示。混合方法結合了學習和優化的優點,通過編碼器提供初始潛在表示,并通過優化進行細化。
在反演得到概念條件后,用戶可以通過潛在編輯生成個性化圖像。潛在編輯方法包括潛在導航和文本驅動編輯。潛在導航方法通過支持向量機(SVM)或條件歸一化流模型來學習屬性編輯方向,而文本驅動編輯則通過CLIP等模型將文本描述映射到潛在空間中,實現更直觀的圖像生成。
文本到圖像擴散模型通過文本提示生成圖像,個性化圖像生成進一步增強了其生成用戶特定概念的能力。與GANs類似,擴散模型中的個性化圖像生成也涉及概念反演和個性化生成兩個階段。
擴散模型中的反演空間包括噪聲空間、文本空間、特征空間和參數空間。噪聲空間通過DDIM反演等技術將圖像反演為噪聲表示,文本空間通過CLIP文本編碼器將概念表示為文本特征,特征空間通過映射中間特征來增強細節一致性,而參數空間則通過微調模型參數來提高反演保真度。
擴散模型中的概念反演方法包括無訓練方法、優化方法、學習方法和混合方法。無訓練方法利用擴散模型的固有特性進行反演,優化方法通過優化概念條件來學習新概念,學習方法通過訓練編碼器來預測概念條件,而混合方法則結合了學習和優化的優點。
擴散模型中的個性化圖像生成可以根據概念類型進行分類,包括主題驅動、面孔驅動、風格驅動和高層語義個性化。主題驅動個性化通過優化或學習方法生成包含目標主題的圖像,面孔驅動個性化則專注于生成與參考圖像具有相同身份的面孔圖像,風格驅動個性化通過反演風格特征生成具有特定風格的圖像,而高層語義個性化則通過反演關系或動作生成具有特定語義關系的圖像。
與GANs類似,擴散模型中的文本驅動圖像編輯通過反演噪聲空間并應用文本驅動編輯技術生成個性化圖像。Prompt-to-prompt等方法通過操縱注意力機制實現圖像編輯,而MasaCtrl等方法則通過自注意力機制保持對象外觀的同時進行非剛性編輯。
自回歸模型通過預測序列中的下一個元素來生成圖像,近年來在多模態圖像生成領域展示了卓越的性能。盡管現有的自回歸模型在個性化圖像生成方面的研究較少,但其多模態生成框架展示了在個性化圖像生成中的潛力。
多模態自回歸模型通過將圖像和文本編碼到共享的標記空間中,實現了文本和圖像的聯合生成。Emu2等模型通過CLIP視覺編碼器將圖像轉換為嵌入,并通過自回歸方式預測生成的圖像嵌入。這些模型通過大規模文本-圖像對進行預訓練,展示了在個性化圖像生成中的潛力。
盡管自回歸模型在多模態生成方面展示了卓越的性能,但在個性化圖像生成中仍面臨一些挑戰。例如,生成圖像與參考圖像之間的身份一致性仍然有限,未來的研究需要開發更有效的個性化技術,以提高身份一致性和生成質量。
個性化圖像生成模型的評估通常依賴于多個數據集,如DreamBench、Custom101等。這些數據集提供了豐富的圖像和文本對,用于評估模型在不同場景下的性能。
個性化圖像生成的評估指標主要包括概念保真度和文本可編輯性。概念保真度通過FID、身份得分等指標評估生成圖像與目標概念的相似性,而文本可編輯性則通過CLIP-T、ImageReward等指標評估生成圖像與文本提示的一致性。
除了定量指標,主觀評估通過人類評分者評估生成圖像的質量和相關性。用戶研究通常包括比較基線模型和提出方法的結果,以評估其有效性。
個性化圖像生成需要在主題保真度和文本可控性之間取得平衡。現有方法在提高身份保真度的同時,往往面臨過擬合問題,導致生成圖像忽視文本提示。未來的研究需要開發更精細的設計,以更好地平衡這兩個方面。
當前的個性化方法通常專注于特定領域,如主題、面孔或風格。未來的研究需要開發能夠生成多個自定義概念的通用類別個性化方法,以提供更靈活和多樣化的生成能力。
多條件圖像生成是一個新興且有前景的領域,旨在開發能夠處理多個條件輸入并支持各種任務的統一模型。未來的研究需要開發能夠確保可擴展性和高質量生成的魯棒多條件圖像生成方法。
生成模型經歷了顯著的演進,包括最近的DiT-based文本到圖像擴散模型和多模態自回歸模型。未來的研究需要開發與這些先進模型兼容的有效個性化技術。
近年來,視頻和3D內容生成取得了快速進展,未來的研究可以探索在這些領域中應用個性化生成技術,以擴展個性化生成技術的應用范圍。
本文綜述了基于深度生成模型的個性化圖像生成技術,包括生成對抗網絡、文本到圖像擴散模型和多模態自回歸模型。我們首先從整體角度定義了個性化圖像生成的范圍,統一了不同方法在一個共同的框架下。具體來說,我們將個性化圖像生成分為三個關鍵組件:反演空間、反演方法和個性化方案。基于這一統一框架,我們深入分析了各類生成模型中的技術,強調了現有方法的共性和差異。最后,我們討論了該領域的開放挑戰,并提出了未來研究的潛在方向。本文為個性化圖像生成領域提供了一個全面且最新的綜述,系統地跟蹤了這一快速演進領域中的相關研究。
摘要—譜聚類是一種強大的高維數據聚類技術,利用基于圖的表示來檢測復雜的非線性結構和非凸聚類。構建相似度圖對于確保準確有效的聚類至關重要,因此圖結構學習(GSL)在應對日益增長的可擴展解決方案需求中,成為提升譜聚類性能的核心。盡管在GSL方面取得了一定的進展,但目前缺乏專門針對其在譜聚類中的作用的全面調查。為填補這一空白,本調查提供了關于譜聚類方法的全面綜述,重點討論了GSL的關鍵作用。我們探討了多種圖構建技術,包括成對、錨點以及基于超圖的方法,涵蓋固定和自適應設置。此外,我們將譜聚類方法分類為單視角和多視角框架,研究它們在單步和兩步聚類過程中的應用。我們還討論了多視角信息融合技術及其對聚類數據的影響。通過解決當前的挑戰并提出未來的研究方向,本綜述為推動譜聚類方法的發展提供了有價值的見解,并強調了GSL在處理大規模高維數據聚類任務中的關鍵作用。關鍵詞—譜聚類,圖結構學習,譜嵌入,多視角聚類
I. 引言
聚類(Clustering)是無監督學習中的一種基礎技術,旨在將數據點劃分為不同的組或簇,使得簇內的點彼此相似,而與其他簇中的點差異較大【1】–【3】。與監督學習不同,聚類在沒有預定義標簽或類別的情況下運行,而是通過識別數據中的內在模式和結構來實現目標。這使得聚類在探索性數據分析中尤為重要,在此過程中,目標是揭示隱藏的模式,而不依賴于數據結構的先驗假設【4】。聚類被廣泛應用于各個領域,包括市場營銷【5】、社交網絡分析【6】、圖像分割【7】、生物信息學【8】、異常檢測【9】和文檔分類【10】。它簡化了復雜的數據,增強了理解,且常常作為其他機器學習任務(如分類)的預處理步驟。
聚類方法可以大致分為傳統方法和基于降維的聚類方法,如圖1所示。傳統方法包括基于劃分的方法【11】、層次聚類方法【12】、基于密度的方法【13】和概率算法【14】,每種方法都采用不同的策略來對數據進行分組。基于劃分的方法(如K-means)將數據劃分為固定數量的簇,每個簇由一個質心表示【11】。層次方法,如凝聚型和分裂型聚類,通過合并較小的簇(凝聚型)或拆分較大的簇(分裂型)來構建聚類層次【15】【16】。基于密度的方法,如DBSCAN,通過基于高密度區域對數據點進行分組,能夠識別形狀各異的簇【17】。概率方法,如高斯混合模型(GMM),使用概率模型來表示數據分布和聚類【14】。
盡管傳統方法對于低維且結構良好的數據集有效,但當應用于高維或復雜數據時,往往面臨局限性。在高維空間中,點與點之間的距離度量變得困難,通常會導致聚類性能不佳。此外,傳統方法常常無法捕捉非凸形狀和復雜的數據結構。為了應對這些局限性,基于降維的聚類方法應運而生,通過減少特征或維度的數量,使得在較低維度空間中進行聚類,同時保留必要的結構信息。基于降維的聚類方法包括非負矩陣分解(NMF)【18】、譜聚類【19】【20】、核聚類【21】和深度聚類【22】。NMF是一種有效的降維技術,用于將數據矩陣分解為兩個低維的非負矩陣【18】。然而,當處理更加復雜或非線性的數據結構時,可能面臨一定的挑戰。核聚類(包括核K-means和核主成分分析(PCA)等方法)通過應用核函數來處理數據中的非線性關系【21】。譜聚類利用圖論,將數據點表示為圖中的節點,節點之間的相似度則通過邊來表示,并采用如Ratio-cut【23】和Normalized-cut【24】等方法。深度聚類將深度學習與聚類結合,通過神經網絡學習低維表示【22】。盡管深度聚類對于大規模、高維數據非常強大,但它需要大量的計算資源,并且需要細致的超參數調優。在降維技術中,譜聚類因其能夠通過圖結構方法識別非凸簇并捕捉非線性結構,而在處理復雜數據時表現尤為突出。譜聚類通過將數據點表示為圖中的節點,并使用基于圖的嵌入方法,根據數據點之間的連通性和關系來劃分數據。這種靈活性使得譜聚類能夠應用于各種領域中的問題,特別是在結合有效的圖構建技術時。譜聚類尤其適用于高維數據,在這種情況下,譜嵌入通過降低維度同時保留必要的結構信息,從而緩解了“維度災難”問題,并使得非線性模式的聚類變得可靠。對于大規模數據集,基于錨點圖的譜聚類通過使用一部分代表性點(或稱為錨點)來高效近似數據點之間的關系,從而提供了一種可擴展的解決方案,既節省了計算資源,又保證了聚類質量。因此,譜聚類具有很強的靈活性和可擴展性,能夠適應高維和大規模數據的應用,是進行復雜聚類任務的強大工具【21】【25】。譜聚類成功的關鍵因素之一是相似度圖的構建,圖結構是整個過程的基礎。這個圖表示了數據點之間的關系,節點對應數據點,邊表示它們之間的成對相似度。圖的質量顯著影響譜嵌入和聚類結果,因為它直接決定了數據底層結構的捕捉精度【25】。在譜聚類中,常用的圖類型包括成對圖【26】、錨點圖【27】【28】和超圖【29】【30】。不同類型的圖在數據的性質不同的情況下提供了各自的優勢。這些圖可以是固定的,即結構在整個聚類過程中保持不變,也可以是自適應的,即在聚類過程中動態學習并更新圖的結構。盡管在譜聚類,尤其是在圖像分割【31】、文本分類【32】和工業設計【33】等領域取得了進展,但仍缺乏一篇全面的綜述,專門探討圖結構學習(GSL)在譜聚類中的作用。為填補這一空白,本調查提供了關于譜聚類的廣泛綜述,特別強調了圖結構在提升聚類準確性方面的關鍵作用。雖然先前的綜述【34】提供了關于譜聚類的概述,重點討論了圖切割、拉普拉斯矩陣和聚類過程,但我們的綜述深入探討了更為具體且至關重要的GSL方面。先前的綜述側重于譜聚類的數學基礎和應用,但沒有廣泛探討圖的構建方式及其對聚類性能的影響。相較之下,我們的綜述突出了圖構建技術的作用,包括成對、錨點和超圖方法,并探討了固定和自適應形式下的應用。此外,我們將譜聚類方法分類為單視角和多視角方法,分析它們在單步和兩步框架中的應用。這些框架的區別在于聚類是否作為獨立步驟,在譜嵌入之后進行,還是與譜嵌入一起聯合優化。我們還對多視角譜聚類中的信息融合技術進行了更深入的探討,這一領域在先前的綜述中沒有涉及,提供了關于如何通過整合來自多個來源的數據來增強聚類性能的新見解。這對于處理復雜、異構和高維數據尤為重要,是推動多視角譜聚類發展的重要貢獻。
本綜述的貢獻如下:
摘要—遙感中的時序圖像分析傳統上集中于變化檢測,即識別在不同時間拍攝的圖像之間的變化區域。然而,變化檢測仍然局限于其對視覺層面解讀的關注,往往缺乏上下文或描述性信息。視覺-語言模型(VLMs)的興起為遙感時序圖像分析引入了一個新維度,通過將視覺信息與自然語言相結合,為時序圖像變化的高級解讀開辟了新的方向。遙感時序視覺-語言模型(RSTVLMs)允許動態交互,生成描述性字幕、回答問題,并提供對時序圖像更豐富的語義理解。這種時序視覺-語言能力對于復雜的遙感應用尤為重要,其中高層次的洞察力至關重要。本文全面回顧了RSTVLM研究的進展,重點介紹了最新的VLM在時序圖像分析中的應用。我們對核心方法、數據集和評估指標進行了分類和討論,突出了時序視覺-語言任務中的最新進展,并概述了該新興領域的主要挑戰和未來研究方向。本綜述填補了文獻中的關鍵空白,提供了RSTVLM的綜合概述,為遙感時序圖像理解的進一步發展奠定了基礎。我們將在//github.com/Chen-Yang-Liu/Awesome-RS-Temporal-VLM上持續追蹤相關工作。
關鍵詞—遙感,時序圖像理解,視覺-語言模型,大型語言模型。
I. 引言遙感技術通過衛星、無人機等各種平臺獲取地球表面的圖像信息【1】–【4】。它在環境監測、城市規劃、災害預警和評估等關鍵領域中發揮著重要作用【5】–【8】。早期的遙感圖像解譯主要集中于單時相圖像的分析,包括土地覆蓋分類【9】、物體檢測【11】【12】和語義分割【13】【14】等任務。然而,單時相圖像僅反映特定時刻的表面狀況,無法捕捉跨時間的動態變化。隨著遙感技術和設備的快速進展,獲取多時相遙感圖像的能力得到了顯著提高【15】–【17】。多時相遙感圖像提供了不同時間點下某些位置的表面特征信息,為地表變化的動態監測開辟了新途徑【18】【19】。這一時序維度至關重要,因為它使研究人員能夠分析隨時間變化的趨勢,從而對環境動態有更全面的了解。早期的時序圖像理解主要集中于變化檢測技術,通過比較不同時間段的圖像來定位變化區域,如植被覆蓋變化或新建筑物的出現【20】【21】。然而,變化檢測通常僅在視覺層面上檢測變化位置,缺乏對變化的更高層次語義理解,如變化對象的類型、變化過程中的狀態,以及對象之間的關系【22】–【24】。近年來,像Llava【25】和GPT-4【26】等視覺-語言模型(VLMs)取得了突破性進展,推動了多模態研究領域對視覺-語言模型的關注【27】–【29】。VLMs結合了計算機視覺和自然語言處理技術,能夠全面理解視覺和文本信息。與專注于單一圖像模態的視覺模型不同,VLMs不僅識別圖像中的目標對象,還理解它們之間的關系,生成描述性語言或回答問題。這一能力在遙感領域具有巨大的應用潛力【30】–【32】。在遙感領域,已有研究探討了各種視覺-語言模型,如圖像描述【33】–【36】、視覺問答(VQA)【37】–【40】、視覺問題生成【41】【42】、圖像檢索【43】–【45】和視覺定位【46】–【48】等。一些近期的研究探索了基于大型語言模型(LLMs)的遙感視覺語言模型,如RSGPT【49】、GeoChat【50】、H2RSVLM【51】、LHRS-Bot【52】和EarthGPT【53】。然而,這些VLMs主要關注單時相遙感圖像,無法實現多時相遙感圖像的理解。隨著VLM的不斷發展,針對多時相遙感圖像的研究進入了一個新的發展階段。研究人員越來越多地探索專為時序圖像理解設計的遙感時序視覺-語言模型(RS-TVLMs),涉及變化描述【22】【23】和變化視覺問答【54】【55】等任務。RS-TVLMs的研究豐富了時序圖像解譯的工具。語言作為人類溝通和知識的載體【56】,在融入時序圖像分析時能夠增強模型的高層次理解。通過將時序視覺信息與語言結合,RS-TVLMs不僅可以識別目標和變化,生成描述性文字,回答相關問題,還能進行多模態交互,從而將時序圖像的解譯擴展到超越單純的視覺判斷。圖1展示了一些具有代表性的RS-TVLM及其發表日期,表明該領域的研究可追溯到2021年。目前,相關研究數量正在迅速增加。盡管RS-TVLMs的研究興趣日益增長,但系統性的綜述仍然較少。現有的許多研究集中于特定任務的孤立方法,這使得研究人員很難全面了解該領域的進展和未來方向。貢獻。鑒于RS-TVLMs的快速進展和良好的發展前景,我們撰寫了本綜述,旨在讓研究人員了解基本概念、主要方法、數據集、評估指標及變化描述和變化視覺問答等任務的當前進展。據我們所知,這是關于RS-TVLMs的首篇綜述。通過回顧現有研究,我們希望為該領域的研究描繪清晰的路徑和未來方向,彌補當前相關綜述中的空白,并為遙感時序圖像理解的RS-TVLM研究奠定基礎。IV. 遙感時序視覺-語言模型目前,遙感時序圖像中的視覺-語言理解研究主要集中在幾個關鍵領域:變化描述、變化視覺問答、變化檢索和變化定位。這些任務旨在通過多模態建模和語言理解增強遙感時序圖像的解譯。此外,隨著大型語言模型(LLMs)的發展,一些近期的研究探索了將LLMs集成進來,進一步提升遙感時序圖像的視覺-語言理解。
當前,遙感時序圖像的視覺-語言理解研究主要集中在遙感變化描述(RS-CC)任務上。該任務旨在生成詳細準確的自然語言,描述不同時間拍攝的遙感圖像中的地理特征變化【22】【23】【140】。這種描述有助于用戶快速理解關鍵變化,并為時序遙感數據的決策和分析提供直觀的語義支持。變化描述要求模型準確識別重要變化,并將其轉化為自然、連貫的語言。這個轉化過程不僅依賴于精確的視覺變化識別,還要求具有較強的語言生成能力,以確保語言的準確性和流暢性。以往的變化描述方法通常基于深度學習,并遵循三階段架構,如圖4所示:視覺編碼、雙時相融合和語言解碼。每個階段對整體模型性能有重要影響,因此近期的研究集中在提高這三個階段的性能。表I總結了一些代表性的方法。視覺編碼旨在從雙時相圖像中提取豐富的語義特征,通常采用Siamese編碼器以促進雙時相圖像之間的比較。編碼器通常基于卷積神經網絡(CNNs)或視覺變換器(ViTs)。CNNs在捕捉空間細節方面表現優異,而ViTs則通過全局注意力機制提取廣泛的地理信息。許多方法利用預訓練的圖像編碼器,如ResNet【141】或ViT【142】。例如,Chang等人【22】使用ResNet-101作為編碼器,Liu等人【143】使用ViT,并比較了在ImageNet【144】和CLIP【145】上訓練的ViT的性能。此外,一些研究探索了通過自監督學習訓練專門適應變化提取的編碼器。例如,Zhou等人【24】提出了一種在大規模雙時相遙感圖像數據集上預訓練的單流提取器,顯著增強了變化特征提取的魯棒性。大多數研究集中在提高雙時相融合階段的模型性能,這是變化描述的核心階段。該階段旨在整合雙時相特征,捕捉潛在的時序變化模式。在雙時相融合過程中,模型應準確識別兩張圖像之間的顯著差異,同時抑制無關的偽變化(例如,由于光照或天氣變化導致的變化)。以往的研究通常采用CNN或Transformer作為基本模塊,并提出一些注意力機制來增強模型的變化感知能力。例如,Liu等人【23】提出了一種基于Transformer的方法,稱為RSICCformer,該方法由多個交叉編碼模塊組成,利用差異特征,允許模型關注每張圖像中的變化區域。此外,研究人員還將多尺度策略融入到方法中,以進一步增強模型識別多樣變化的能力【148】【149】。語言解碼器將融合后的視覺特征轉化為自然語言描述。早期的方法使用支持向量機(SVM)或長短期記憶(LSTM)網絡進行語言生成。Chouaf和Hoxha等人【150】【151】比較了RNN和支持向量機(SVM)作為語言解碼器的性能。鑒于Transformer解碼器具有強大的生成能力,RSICCformer【23】首次將Transformer引入遙感變化描述任務,采用交叉注意力機制,使模型在生成單詞時能專注于特定的圖像區域。盡管Transformer表現良好,但隨著序列長度的增加,模型的計算復雜度呈平方級增長。為了解決這一挑戰,近期的研究引入了Mamba模型【116】,該模型以線性復雜度運行。Liu等人【122】提出了空間差異感知SSM(SDSSM)和時空遍歷SSM(TT-SSM)以改善時空聯合建模的能力。此外,他們比較了三種不同的語言解碼器,包括Mamba、生成預訓練Transformer(GPT)風格解碼器和Transformer解碼器。上述的編碼-融合-解碼框架以耦合方式處理變化和不變的圖像對。與此不同,Liu等人【143】提出了一種解耦范式,將變化描述解耦為兩個問題:“是否發生變化”和“發生了什么變化”。他們將解耦結果輸入到預訓練的大型語言模型(LLM)中,通過多提示學習策略進行語言生成。解耦范式使研究人員能夠獨立集中于改善變化圖像對和不變圖像對的描述。
在遙感時序圖像分析中,變化檢測和變化描述任務側重于不同層次的變化信息提取【103】【166】。變化檢測主要關注生成像素級的變化掩膜,通過雙時相圖像識別和突出變化區域。相比之下,變化描述則旨在對這些變化進行語義層次的理解,包括對象屬性和上下文關系。鑒于這兩個任務之間的內在聯系,近期的研究將變化檢測和變化描述整合為統一的多任務學習框架,以提高變化解譯的整體效率和準確性。表II總結了一些代表性的方法。Change-Agent【103】是該領域的代表性工作之一,建立了一個多任務學習框架,為后續的研究奠定了基礎【166】–【170】。如圖5所示,該框架基于共享的視覺編碼器,分別為變化檢測和變化描述任務采用兩個任務特定的分支。在視覺編碼階段,模型從雙時相圖像中提取時序特征,這些融合的特征為每個任務的后續分支提供支持。值得注意的是,與傳統的變化檢測模型類似,變化檢測分支通常利用視覺編碼器提取的多尺度雙時相特征,以確保變化掩膜的精確性和細節。與此同時,變化描述分支通常僅利用最深層的視覺特征,關注變化的語義,設計上與單任務變化描述模型相似。在多任務框架中平衡兩項任務的訓練是一項關鍵挑戰。當前的研究通常應用加權損失,通過不同的權重將變化檢測和變化描述的損失結合起來。例如,文獻【166】采用了通過調整輔助任務梯度大小的元平衡策略【171】,而【169】和【170】則采用了動態權重平均策略【172】。此外,一些近期研究探索了變化檢測如何專門幫助變化描述提高描述的準確性【163】【173】。核心思想是,像素級的變化檢測能夠增強變化描述模型識別變化的能力,特別是在低光照條件下或針對小結構的變化。例如,MV-CC【163】使用低分辨率的變化檢測掩膜作為顯式指導,幫助模型準確關注變化區域。 C. 遙感變化視覺問答
遙感變化視覺問答(RS-CVQA)任務旨在根據時間變化的遙感圖像和用戶特定問題生成自然語言回答。與變化檢測和圖像標注任務不同,RS-CVQA強調用戶與時間變化圖像之間的互動語言交流,提供了一種更加靈活和高效的方式來獲取圖像中變化的信息。圖6展示了一個典型的RS-CVQA模型框架,包括以下關鍵階段:視覺編碼、問題編碼、多模態交互和答案生成。一些代表性的方法在表III中進行了總結。在視覺編碼階段,模型通常采用雙重編碼器分別從雙時相遙感圖像中提取特征,并融合這些時間特征以捕捉圖像中的變化信息。 在問題編碼階段,通常使用預訓練的語言模型(如BERT [130] 或 GPT [174])將用戶的復雜問題轉化為適合模型理解的語義嵌入。 在多模態交互階段,廣泛應用注意力機制(如自注意力和交叉注意力)來對齊和融合視覺變化與語言特征,使得模型能夠根據問題中的語義提示,關注圖像中的關鍵變化區域。這種多模態交互增強了模型對圖像變化的理解,并確保生成的答案與視覺內容緊密相關。 最后,答案生成階段將融合的多模態特征轉化為自然語言回答。根據答案生成方法,RS-CVQA方法大致分為兩類:基于候選答案的RS-CVQA和逐字生成的RS-CVQA。在基于候選答案的RS-CVQA中,答案生成模塊被設計為多類別分類器,從預定義的候選答案集中選擇最佳答案。Yuan等人[175]首次提出了這個任務,將答案分為幾個固定類別,并允許分類器從中直接選擇答案。這種方法計算效率高且穩定,適用于目標明確且變化類型固定的任務。然而,由于其依賴于有限的預定義答案池,這種方法的靈活性較差,可能不適用于處理更復雜、開放性的問題。 相比之下,逐字生成的RS-CVQA采用生成語言模型(如Transformer解碼器)逐字生成答案。這種方法更適合開放性問題,能夠生成靈活且細膩的回答。隨著大規模語言模型(LLM)的興起,基于生成模型的RS-CVQA逐漸成為主流,許多最新的方法開始整合LLM,以提供更豐富的答案生成能力。例如,ChangeChat[176]和CDChat[177]使用與先前的LLava[25]和Minigpt-4[178]類似的架構,使用雙時相視覺嵌入和用戶文本嵌入作為LLM Vicuna-v1.5[179]的前綴。 D. 遙感文本到變化檢索
隨著遙感圖像數據的快速增長,如何高效地檢索符合特定用戶需求的圖像,已成為環境監測、災害評估和城市規劃等領域的關鍵問題。傳統的基于文本的圖像檢索技術將用戶提供的查詢文本與單時相圖像進行匹配。然而,這種技術忽略了遙感圖像中的時間變化,難以滿足用戶對動態場景的檢索需求。 遙感文本到變化檢索(RSI-TCR)應運而生,以解決這一限制。其核心目標是高效檢索符合用戶輸入查詢描述的圖像變化的雙時相圖像對。RSI-TCR顯著減少了篩選大規模數據集所需的人工工作量,提高了龐大遙感數據集的可用性。這項技術在實際場景中展現了巨大的價值。例如,在災害管理中,RSI-TCR可以根據查詢文本(如“洪水淹沒”)迅速定位受影響區域的時相圖像,為災后應急響應提供必要的數據。 與傳統的基于文本的圖像檢索任務(通常涉及“文本”和“圖像”之間的二元匹配)相比,RSI-TCR更加復雜,因為它需要進行三模態匹配——“事件前圖像”、“事件后圖像”和“文本”。這種復雜性要求模型在多模態語義空間內處理時空變化和文本信息之間的復雜關系。Ferrod等人[102]首次使用LEVIR-CC數據集[23]研究了RSI-TCR任務,并提出了該任務的框架,如圖7所示。在他們的方法中,Chg2Cap模型[22]的編碼器被用來從雙時相圖像中提取語義變化嵌入。用戶提供的查詢文本通過Transformer解碼器編碼為文本嵌入。然后,他們通過對比學習損失函數(特別是InfoNCE [181])將圖像變化嵌入與查詢文本嵌入對齊。RSI-TCR中的核心挑戰之一是偽負樣本的問題。具體來說,在訓練批次中標記為負樣本的圖像對,實際上可能是與查詢文本匹配的正樣本,這可能干擾模型訓練。這個問題在許多使用對比學習的任務中都很常見,并且已有解決方案來應對這個問題[182][183]。為了解決這個問題,Ferrod等人[102]采用了兩種常見的策略來提高復雜變化場景中的檢索精度:1)偽負樣本排除(FNE):排除可能的偽負樣本以防干擾。2)偽負樣本吸引:將可能的偽負樣本重新標記為正樣本,以更好地對齊數據中的真實關系。E. 遙感變化定位
遙感變化定位(RS-CG)旨在在雙時相遙感圖像中識別和定位由用戶提供的查詢文本所指示的變化區域。通過將自然語言作為查詢模態,RS-CG顯著增強了用戶交互的靈活性,相比傳統的變化檢測方法(僅限于固定類別的輸出)。RS-CG的輸出通常以兩種形式呈現:邊界框和像素級掩模,如圖8所示。 邊界框通過矩形輪廓標注變化區域,提供目標變化的直觀空間位置。而像素級掩模則提供變化區域形狀和邊界的精確劃分,非常適合細粒度分析。 Irvin等人[101]采用了受LLaVA-1.5[25]啟發的模型架構。他們使用時間共享的ViT-L/14對時間變化圖像進行編碼,通過MLP將嵌入映射后再送入LLaMA-2[107]。LLM輸出邊界框的坐標,以文本格式有效地將檢測到的變化定位到輸入查詢中。Li等人[55]提出了一種名為VisTA的新型多任務模型,設計用于變化檢測問答和定位。VisTA不僅能夠回答用戶問題,還能同時生成與文本答案相關的像素級變化掩模。文本答案通過雙層MLP生成,而掩模解碼器由兩個注意力模塊組成。這種雙重輸出方法使VisTA能夠提供語義和視覺的雙重解釋,成為RS-CG任務的多功能解決方案。
結論通過將計算機視覺與自然語言處理相結合,遙感時間變化視覺語言模型(RS-TVLMs)大大增強了分析時間變化遙感數據的能力,在災害監測、環境分析和城市規劃等領域具有廣泛應用。本文綜述了RS-TVLMs的進展,包括基本概念、主要方法、數據集和評估指標。通過回顧現有研究,我們旨在為該領域的研究提供清晰的發展路徑和未來方向。此外,仍然存在一些挑戰,如大規模數據集的收集、基礎模型的設計以及多時相圖像序列的處理等。
摘要—神經場(Neural Fields)已成為計算機視覺和機器人領域中用于3D場景表示的變革性方法,能夠從帶姿態的2D數據中精準推理幾何、3D語義和動態信息。通過可微分渲染(differentiable rendering),神經場包括連續隱式和顯式神經表示,實現高保真3D重建、多模態傳感器數據的整合,以及新視角的生成。本綜述探討了神經場在機器人領域的應用,強調其在提升感知、規劃和控制方面的潛力。神經場的緊湊性、內存效率和可微性,加之與基礎模型和生成模型的無縫集成,使其非常適合實時應用,有助于提升機器人的適應性和決策能力。本文對機器人中的神經場進行了全面回顧,涵蓋200多篇論文中的應用,并對其優缺點進行評估。首先,我們介紹了四種關鍵的神經場框架:占用網絡(Occupancy Networks)、符號距離場(Signed Distance Fields)、神經輻射場(Neural Radiance Fields)和高斯分布(Gaussian Splatting)。其次,我們詳細描述了神經場在機器人五大主要領域中的應用:姿態估計、操控、導航、物理仿真和自動駕駛,重點介紹了關鍵工作并討論了主要發現與開放挑戰。最后,我們總結了神經場在機器人應用中的當前局限性,并提出了未來研究的有前景方向。項目頁面:robonerf.github.io 關鍵詞—神經輻射場(Neural Radiance Field, NeRF)、神經場(Neural Fields)、符號距離場(Signed Distance Fields)、3D高斯分布(3D Gaussian Splatting)、占用網絡(Occupancy Networks)、計算機視覺、新視角合成(Novel View Synthesis)、神經渲染(Neural Rendering)、體渲染(Volume Rendering)、姿態估計、機器人、操控、導航、自動駕駛。
I. 引言
機器人依賴對環境的精確且緊湊的表示來執行廣泛的任務,從穿越繁忙的倉庫到整理雜亂的家庭環境,甚至參與高風險的搜救任務。在典型的機器人系統中,感知與行動之間的協同作用是其核心。感知系統通過RGB相機、LiDAR和深度傳感器等設備采集感官數據,并將其轉化為一致的環境模型——例如,使機器人能夠在動態且障礙密集的空間中導航的3D地圖。這種表示的質量直接影響機器人的決策或策略,從而將所感知的環境轉化為行動,使其能夠避開移動的叉車、拾取散落的物體或在緊急情況下規劃安全路徑。 傳統上,機器人使用點云 [13–15]、體素網格 [16]、網格 [17–19]和截斷符號距離函數(TSDF)[20]等數據結構來建模環境。盡管這些表示提升了機器人能力,但它們在捕捉復雜或動態環境中的精細幾何細節方面仍存在局限,導致在適應性場景中的性能不佳。
為了克服這些限制,神經場(Neural Fields, NFs)[21]作為一種有前途的替代方案出現,它提供了從空間坐標到物理量(如顏色或符號距離)的連續、可微映射。與傳統的數據結構不同,神經場可以將3D環境建模為由神經網絡或高斯分布參數化的連續函數,從而更加高效地表示復雜的幾何結構和精細細節 [22, 23]。神經場可以使用基于梯度的方法與各種真實世界的傳感器數據(包括圖像和深度圖)進行優化,從而生成高質量的3D重建。
在機器人領域,神經場相比傳統方法具有幾大優勢:
生成式AI的最新進展 [39]通過將合成數據作為監督信號進一步擴展了神經場的能力,從而減少了對真實世界觀測數據的依賴。這一范式轉變使得神經場可以在現實數據采集不可行或成本高昂的情況下進行優化。重要的是,它將神經場定位為生成式AI與機器人之間的關鍵橋梁。盡管2D數據生成先驗具有強大的功能,但通常缺乏進行有效機器人決策所需的空間一致性。神經場將這些先驗與稀疏的真實世界數據 [33]結合,能夠在物理環境約束(如有限的傳感器配置和遮擋)下建模傳感與運動空間。 鑒于這些優勢,神經場在機器人領域的應用正迅速發展。圖1和圖2概述了神經場在機器人的應用,并展示了與神經場相關的機器人研究出版物的增長趨勢。本文旨在梳理和分析其對該領域的影響。
本文的結構如下:第II節介紹了神經場的基本公式,而第III節則從以下主題中概述其在不同領域中的優勢:
我們在第IV節通過探討若干研究方向和挑戰進行總結。據我們所知,本綜述是首批對機器人領域的神經場進行全面考察的研究之一。我們在最接近的并行綜述 [40] 的基礎上補充了對NeRF、3DGS、占用網絡、符號距離場等多個領域的全面涵蓋。通過結合多個維度的見解,本綜述旨在提供對神經場在機器人應用中當前狀態的整體理解,突顯近期成就、未來挑戰及未探索的研究領域。
摘要—密集的三維環境表示一直是機器人領域的長期目標。盡管之前的神經輻射場(NeRF)表示因其基于坐標的隱式模型而廣泛應用,但最近出現的三維高斯濺射(3DGS)在顯式輻射場表示方面展示了顯著潛力。通過利用三維高斯基元進行顯式場景表示并實現可微渲染,3DGS在實時渲染和逼真性能上比其他輻射場有顯著優勢,這對于機器人應用極具益處。在本綜述中,我們對3DGS在機器人領域的應用進行了全面分析。我們將相關工作的討論分為兩個主要類別:3DGS的應用及其技術進展。在應用部分,我們從場景理解和交互的角度探討了3DGS在各種機器人任務中的應用。而在技術進展部分,我們聚焦于3DGS在適應性和效率方面的改進,以期提升其在機器人領域的性能表現。隨后,我們總結了機器人領域中最常用的數據集和評估指標。最后,我們識別了當前3DGS方法的挑戰與局限,并探討了3DGS在機器人領域的未來發展方向。索引詞—三維高斯濺射,機器人,場景理解與交互,挑戰與未來方向
神經輻射場(NeRF)的出現推動了機器人領域的發展,特別是在感知、場景重建和環境交互方面提升了機器人的能力。然而,這種隱式表示在優化過程中,由于逐像素光線投射渲染的低效性而受到限制。三維高斯濺射(3DGS)的出現通過其顯式表示解決了這一效率問題,并通過濺射實現了高質量和實時渲染。具體來說,3DGS使用一組具有可學習參數的高斯基元來建模環境,為場景提供顯式表示。在渲染過程中,3DGS通過濺射將三維高斯映射到給定攝像機位置的二維圖像空間,并使用基于切片的光柵化器進行加速,從而實現了實時性能。因此,3DGS在提升機器人系統性能和擴展其能力方面具有更大的潛力。自2023年3DGS問世以來,已有多篇綜述論文[4]、[5]、[6]、[7]、[8]、[9]展示了該領域的發展。Chen等人[4]首次綜述了3DGS的發展歷程和關鍵貢獻。Fei等人[5]提出了一個統一框架,用于對現有3DGS工作進行分類。Wu等人[7]則提供了一份包含傳統濺射方法與新興的基于神經網絡的3DGS方法的綜述,展示了3DGS濺射技術的發展。Bao等人[9]基于3DGS技術提供了更詳細的分類。此外,Dalal等人[6]聚焦于3DGS中的三維重建任務,而Bagdasarian等人[8]則總結了基于3DGS的壓縮方法,展示了3DGS在特定領域的優勢與不足。然而,現有的3DGS綜述要么對3DGS工作進行廣泛的分類,要么聚焦于3DGS的實時視圖合成,缺乏對機器人領域的詳細總結。因此,在本文中,我們對機器人領域中的3DGS進行了全面總結和詳細分類。我們介紹了3DGS在機器人中的應用,并詳細分類了與機器人應用相關的3DGS研究。此外,我們總結了增強3DGS表示以適用于機器人系統的潛在解決方案。最后,我們展示了基于3DGS的工作的性能評估,并討論了3DGS在機器人領域的未來發展。本綜述的整體框架如圖1所示。第二部分簡要介紹了3DGS的核心概念和數學原理。第三部分將3DGS在機器人中的各種應用方向進行分類,并詳細介紹了相關工作的分類。第四部分討論了改進3DGS表示以增強其在機器人任務中的能力的各種進展。此外,在第五部分中,我們總結了用于3DGS機器人應用的數據集和評估指標,并比較了現有方法在不同機器人方向上的表現。第六部分探討了3DGS在機器人領域的挑戰和未來方向。最后,第七部分總結了本次綜述的結論。
摘要—檢索增強生成(RAG)已迅速成為大規模語言模型(LLM)開發中的關鍵范式。盡管當前該領域的大部分研究主要集中在性能優化,尤其是在準確性和效率方面,但RAG系統的可信度仍是一個尚待深入探索的領域。從積極的角度來看,RAG系統有望通過從廣泛的外部數據庫中提供有用的、最新的知識,增強LLM的能力,從而緩解長期存在的幻覺問題。而從消極的角度來看,如果檢索到的信息不合適或使用不當,RAG系統有可能生成不良內容。為了解決這些問題,我們提出了一個統一框架,用于從六個關鍵維度評估RAG系統的可信度:真實性、魯棒性、公平性、透明性、問責性和隱私性。在此框架下,我們全面回顧了現有文獻中對每個維度的研究。此外,我們針對這六個維度創建了評估基準,并對多種專有和開源模型進行了全面評估。最后,基于我們的調查結果,我們確定了未來研究可能面臨的挑戰。通過這項工作,我們旨在為未來的研究奠定一個結構化的基礎,并提供提升RAG系統在實際應用中可信度的實用見解。
關鍵詞—可信度;大規模語言模型;檢索增強生成
1 引言
大規模語言模型(LLM)的出現代表了人工智能,特別是在自然語言處理(NLP)和理解領域的重大進展。隨著時間的推移,這些模型從簡單的基于規則的系統演變為復雜的深度學習架構,其進步得益于諸如Transformer架構[1]、在多樣化數據集上的廣泛預訓練以及先進的微調技術[2]等創新。這些進展極大地增強了LLM的能力,影響了自動內容生成[3]和高級語言翻譯[4]等應用,從而改變了機器對人類語言的解讀與生成方式。
盡管取得了這些進展,LLM仍面臨持續的“幻覺”挑戰,即模型生成看似合理但實際上不正確或無意義的信息[5, 6]。幻覺產生的原因包括訓練數據中的偏差[7]以及語言模型的概率性質[8]。在需要高度精確和可靠性的應用場景中,如醫療和法律領域[9],這一問題尤為關鍵。為減輕這一問題,檢索增強生成(RAG)系統應運而生[10]。RAG系統通過集成外部信息檢索機制,確保生成的內容基于事實數據,從而提高LLM輸出的準確性和可信度[11]。
隨著LLM越來越多地融入金融系統[12]和醫療保健[13]等應用,LLM的可信度已成為一個關鍵問題。根據各種框架,可信度通過多個關鍵維度進行評估,包括真實性、安全性、公平性、魯棒性、隱私性、機器倫理、透明性和問責性[14]。這些維度確保LLM提供準確、無偏見且安全的輸出,同時保護用戶隱私并符合倫理標準[15]。強化學習(RLHF)[16]、數據過濾[17]和對抗性訓練[18]等技術已被用于提高可信度,其中專有模型如GPT-4在某些高風險應用中通常優于開源替代品[19]。隨著LLM繼續影響關鍵社會功能,學術界與工業界之間的持續研究與透明、協作努力對于確保其可靠和倫理的部署至關重要[20]。
然而,目前關于RAG系統的研究主要集中于優化檢索器和生成器組件以及精煉它們的交互策略[3, 21]。對于這些系統的可信度關注較少[22]。可信度對于RAG系統的實際部署至關重要,尤其是在法律咨詢或醫療保健等高風險或敏感應用中,錯誤可能會產生嚴重后果[23]。因此,必須確定定義RAG系統可信度的關鍵要素,并開發評估這些維度的可信度方法[24]。在此背景下,出現了兩個主要挑戰:(1)定義一個全面的框架,涵蓋RAG系統可信度的所有相關方面;(2)設計實際且穩健的評估方法,有效衡量各維度的可信度[25]。 為應對這些挑戰,我們提出了一個統一框架,支持對RAG系統可信度的全面分析,框架包括三個關鍵部分:
RAG系統可信度六個關鍵維度的定義:如圖1所示,我們從六個維度定義了RAG系統的可信度:(1)真實性:通過與可靠來源進行驗證,確保生成信息的準確性和真實性。(2)魯棒性:確保系統對錯誤、對抗性攻擊和其他外部威脅的可靠性。(3)公平性:在檢索和生成階段盡量減少偏見,確保公平的結果。(4)透明性:使RAG系統的過程和決策對用戶清晰易懂,促進信任和問責。(5)問責性:實施機制,確保系統的行為和輸出負有責任且可追溯。(6)隱私性:在檢索和生成過程中保護個人數據和用戶隱私。
現有工作的調查:我們對與RAG系統可信度相關的現有文獻和研究進行了全面回顧。我們分析了為增強六個關鍵維度的可信度而提出或實施的各種方法、技術和技術路線。
各種LLM的基準評測和評估:為提供對RAG系統可信度的實際評估,我們構建了一個基準并建立了全面的評估框架。該框架評估了10種不同的LLM,包括專有和開源模型,涵蓋各種模型規模和訓練策略。該基準為不同模型在實際應用中的可信度表現提供了寶貴的見解。
本次綜述的貢獻主要有三方面:(1)我們引入了一個統一框架,定義了RAG系統可信度的六個關鍵維度。(2)我們對現有RAG可信度文獻進行了詳細回顧,識別了研究空白并突出了有前途的方法。(3)我們建立了一個實用的基準評測框架,并對10個LLM進行了全面評估,為未來RAG系統可信度提升提供了可操作的見解和指南。 可信的RAG系統
一個完整的RAG系統包括三個主要階段:將外部知識注入生成器,生成器生成答案,以及對生成的答案進行評估。每個階段都面臨與可信性相關的挑戰。在外部知識注入階段,存在注入噪聲或私人信息的風險。在答案生成階段,引入的外部知識可能導致偏見推理,并破壞通過人類反饋強化學習(RLHF)所實現的一致性。最后,在答案評估階段,生成的答案可能包含事實錯誤或缺乏足夠的外部知識依據。 如圖2所示,我們確定了RAG系統可信性的六個關鍵維度:魯棒性、公平性、真實性、隱私性、透明性和問責性。對于每個維度,我們將探討以下幾個方面:適用于LLM的一般定義、RAG背景下的具體定義以及詳盡的文獻回顧。為了更清楚地對相關研究進行分類和總結,我們首先在圖3中展示了這些研究的時間線,以確定該領域的趨勢。然后,在表1中,我們根據三個標準對每項研究進行了分類:可信性維度、方法類型和對象。以下章節將深入探討每個可信性維度的細節。
摘要——視頻異常檢測 (VAD) 旨在發現視頻中偏離正常行為或事件的異常現象。作為計算機視覺領域中一個長期存在的任務,VAD 已經取得了許多顯著的進展。在深度學習的時代,隨著具備持續增長的能力和容量的架構的爆發,基于深度學習的各種方法不斷涌現于 VAD 任務中,極大地提升了檢測算法的泛化能力并拓寬了應用場景。因此,面對如此多樣的方法和大量的文獻,一篇全面的綜述變得迫在眉睫。本文提供了一篇廣泛而全面的研究綜述,涵蓋了五種不同類別的范疇,即半監督、弱監督、全監督、無監督以及開放集監督的 VAD 方法,并深入探討了基于預訓練大模型的最新 VAD 工作,彌補了過去僅關注于半監督 VAD 和小模型方法的綜述的局限性。針對不同監督級別的 VAD 任務,我們構建了一個有條理的分類體系,深入討論了不同類型方法的特點,并展示了它們的性能對比。此外,本綜述還涉及了公共數據集、開源代碼以及覆蓋所有上述 VAD 任務的評估指標。最后,我們為 VAD 社區提供了若干重要的研究方向。 關鍵詞——視頻異常檢測,異常檢測,視頻理解,深度學習。
異常代表著偏離標準、正常或預期的事物。正常性有多種多樣,而異常現象則非常稀少。然而,當異常出現時,往往會產生負面影響。異常檢測旨在通過機器學習發現這些稀有的異常,從而減少人工判斷的成本。異常檢測在多個領域中有著廣泛的應用【1】,例如金融欺詐檢測、網絡入侵檢測、工業缺陷檢測和人類暴力檢測。在這些應用中,視頻異常檢測 (VAD) 占據著重要地位,異常在此指的是時間或空間維度上的異常事件。VAD 不僅在智能安防中起著至關重要的作用(例如暴力、入侵和徘徊檢測),還廣泛應用于其他場景,如在線視頻內容審查和自動駕駛中的交通異常預測【2】。由于其在各個領域中顯著的應用潛力,VAD 吸引了來自工業界和學術界的廣泛關注。
在深度學習時代之前,常規的方法是將特征提取與分類器設計分離,形成一個兩階段的過程,并在推理階段將它們結合起來。首先進行特征提取,將原始的高維度視頻數據轉換為基于專家先驗知識的緊湊手工特征。盡管手工特征缺乏魯棒性,且在面對復雜場景時難以有效捕捉行為表達,但這些早期工作極大啟發了后續基于深度學習的研究工作。
在過去十年中,隨著深度學習的崛起,傳統的機器學習算法逐漸失去了吸引力。隨著計算機硬件的快速發展以及互聯網時代大量數據的涌現,近年來基于深度學習的方法在 VAD 領域取得了顯著進展。例如,ConvAE【3】作為第一個基于卷積神經網絡 (CNN) 的深度自編碼器,首次用于捕捉視頻中的規律;FuturePred【4】首次利用 U-Net 預測未來的異常;DeepMIL【5】是第一個探索用于現實世界異常的深度多實例學習 (MIL) 框架的工作。為了更直觀地展現深度學習時代對 VAD 任務的研究熱情,我們通過 Google Scholar 和 IEEE Xplore1 對過去十年中與 VAD 相關的出版物數量進行了統計調查(這個時期由基于深度學習方法的崛起所驅動)。我們選擇了五個相關主題,即視頻異常檢測、異常事件檢測、異常行為檢測、異常事件檢測和異常行為檢測,并在圖 1 中展示了出版物統計數據。不難看出,從這兩個來源統計的相關出版物數量呈現出穩步快速增長的趨勢,表明 VAD 已經引起了廣泛的關注。此外,我們還展示了在兩種常見監督方式下常用數據集上年度最先進方法的檢測性能趨勢,并在圖 2 中呈現了性能趨勢。檢測性能在所有數據集上均表現出穩步上升的趨勢,未顯示出任何性能瓶頸。例如,CUHK Avenue【6】上的半監督方法性能在過去七年間顯著提升,從 70.2% AUC【3】上升到 90.1% AUC【7】。此外,針對后續提出的弱監督 VAD,研究也取得了顯著進展。這表明,隨著架構的發展,深度學習方法的能力不斷提升,同時也展示了對 VAD 任務中深度學習方法的持續探索熱情。
上述統計數據清楚地表明,深度學習驅動的 VAD 是當前研究的熱點。因此,迫切需要對現有工作進行系統分類并進行全面總結,以便為新手提供指導并為現有研究人員提供參考。基于此,我們首先收集了近年來一些高影響力的 VAD 綜述,見表 I。Ramachandra 等人【8】主要聚焦于單一場景下的半監督 VAD,缺乏對跨場景的討論。Santhosh 等人【9】回顧了針對道路交通場景中實體的 VAD 方法。其綜述缺乏足夠的深度分析,主要關注 2020 年之前的方法,忽略了最近的進展。Nayak 等人【10】對基于深度學習的半監督 VAD 方法進行了全面調查,但未考慮弱監督 VAD 方法。隨后 Tran 等人【11】介紹了新興的弱監督 VAD 綜述,但其重點不僅限于視頻,還涉及圖像異常檢測,導致對 VAD 任務的系統性組織不足。最近,Chandrakala 等人【12】和 Liu 等人【13】構建了涵蓋多種 VAD 任務的分類體系,例如無監督 VAD、半監督 VAD、弱監督 VAD 和全監督 VAD,并對大多數監督 VAD 任務的深度學習方法進行了綜述。然而,他們的研究范圍局限于傳統的閉集場景,未涵蓋最新的開放集監督 VAD 研究,也未引入基于預訓練大模型和可解釋學習的全新框架。
為全面解決這一差距,我們對深度學習時代的 VAD 研究進行了深入綜述。我們的綜述涵蓋了幾個關鍵方面,以提供對 VAD 研究的全面分析。具體而言,我們對深度學習時代 VAD 任務的發展趨勢進行了深入調查,并提出了一個統一的框架,將不同的 VAD 任務整合在一起,填補了現有綜述在分類方面的空白。我們還收集了最全面的開源資源,包括基準數據集、評估指標、開源代碼和性能對比,以幫助該領域的研究人員避免走彎路并提高效率。此外,我們系統地對各種 VAD 任務進行分類,將現有工作劃分為不同類別,并建立了一個清晰的結構化分類體系,以提供對各種 VAD 模式的連貫和有條理的概述。除了這個分類體系,我們還對每種模式進行了全面分析。此外,在整個綜述中,我們重點介紹了對 VAD 研究進展做出重大貢獻的影響力工作。 本綜述的主要貢獻總結如下三個方面:
我們對 VAD 進行了全面綜述,涵蓋了基于不同監督信號的五種任務,即半監督 VAD、弱監督 VAD、全監督 VAD、無監督 VAD 和開放集監督 VAD。研究重點已經從傳統的單任務半監督 VAD 擴展到了更廣泛的多任務 VAD。
跟隨研究趨勢,我們回顧了最新的開放集監督 VAD 研究。此外,我們還重新審視了基于預訓練大模型和可解釋學習的最新 VAD 方法。這些方法的出現提升了 VAD 的性能和應用前景。據我們所知,這是首次對開放集監督 VAD 和基于預訓練大模型的 VAD 方法進行的全面綜述。
針對不同任務,我們系統地回顧了現有的基于深度學習的方法,更重要的是,我們引入了一個統一的分類框架,從模型輸入、架構、方法論、模型改進和輸出等多個方面對各種 VAD 模式的方法進行了分類。這一精細的科學分類體系有助于對該領域的全面理解。
半監督視頻異常檢測
基于我們對以往綜述的深入調查,我們發現現有的綜述大多缺乏科學的分類體系。許多綜述只是根據使用方法將半監督視頻異常檢測 (VAD) 作品分為不同的組別,例如基于重建、基于距離和基于概率的方法,有些綜述則根據輸入進行分類,例如基于圖像、基于光流和基于片段的方法。顯然,現有的分類綜述相對簡單且表面化,因此難以全面有效地涵蓋所有方法。為了解決這個問題,我們建立了一個全面的分類體系,涵蓋了模型輸入、方法論、架構、模型優化和模型輸出。詳細說明見圖 4。
如前所述,在半監督 VAD 任務中,只有正常樣本可用于訓練,這使得監督分類范式不可適用。常見的方法是利用訓練樣本的內在信息,學習深度神經網絡 (DNN) 來解決前置任務。例如,正常性重建是一個經典的前置任務【3】。在此過程中,需要考慮幾個關鍵方面:樣本信息的選擇(模型輸入)、前置任務的設計(方法論)、深度網絡的利用(網絡架構)、方法的改進(優化)和異常結果的表達(模型輸出)。這些關鍵要素共同決定了半監督 VAD 解決方案的有效性。在接下來的章節中,我們將根據上述分類體系系統地介紹現有的基于深度學習的 VAD 方法。
IV. 弱監督視頻異常檢測
弱監督視頻異常檢測 (VAD) 是當前 VAD 領域中備受關注的研究方向,其起源可追溯到 DeepMIL【5】。相比于半監督 VAD,這是一個較新的研究方向,因此現有的綜述缺乏全面而深入的介紹。如表 I 所示,Chandrakala 等人【12】和 Liu 等人【13】都提到了弱監督 VAD 任務。然而,前者僅簡要描述了 2018 至 2020 年間的一些成果,而后者盡管涵蓋了近期的工作,卻缺乏科學的分類體系,僅根據不同的模態將其簡單地分為單模態和多模態。鑒于此背景,我們從 2018 年至今調查了相關工作,包括基于預訓練大模型的最新方法,并從四個方面對現有工作進行了分類:模型輸入、方法論、優化策略和模型輸出。弱監督 VAD 的分類體系如圖 8 所示。 與半監督 VAD 相比,弱監督 VAD 在訓練過程中明確定義了異常,為檢測算法提供了明確的方向。然而,與全監督 VAD 相比,粗糙的弱監督信號為檢測過程引入了不確定性。現有的大多數方法利用 MIL 機制來優化模型。這個過程可以視為從正常包(正常視頻)中選擇看起來最異常的最困難區域(視頻片段),以及從異常包(異常視頻)中選擇最有可能異常的區域。然后,目標是最大化它們之間的預測置信差異(即使最困難的正常區域的置信度接近 0,最異常區域的置信度接近 1),這可以被視為二元分類優化。通過逐步挖掘所有正常和異常區域的不同特征,異常區域的異常置信度逐漸增加,而正常區域的置信度則逐漸下降。不幸的是,由于缺乏強監督信號,檢測模型在上述優化過程中不可避免地會涉及盲目猜測。
VII. 開集監督視頻異常檢測
讓經過充分訓練的監督模型在開放環境中檢測未見過的異常是一項具有挑戰性的任務。在現實場景中,未見過的異常很可能會出現,因此,關于開集異常檢測的研究引起了廣泛關注。開集監督視頻異常檢測 (VAD) 是一項具有挑戰性的任務,其目標是在訓練階段未見過的異常事件中進行檢測。與傳統的(閉集)VAD 不同,傳統 VAD 中的異常類型是已知且定義明確的,而開集 VAD 必須處理不可預見和未知的異常。這對現實世界的應用至關重要,因為在訓練過程中預見并標注所有可能的異常是不現實的。因此,開集 VAD 的研究引起了極大的關注。然而,現有的綜述工作并未對開集 VAD 進行深入研究。基于此,我們進行了深入的調查,并對現有的開集 VAD 工作進行了系統分類。據我們所知,這是第一個包含詳細介紹開集監督 VAD 的綜述。在本節中,我們根據不同的研究方向,將開集監督 VAD 大致分為兩類:開集 VAD 和小樣本 VAD。在圖 10 中,我們展示了六種經典的開集監督 VAD 方法。
IX. 結論
我們對深度學習時代的視頻異常檢測方法進行了全面綜述。與之前主要集中于半監督視頻異常檢測的綜述不同,我們提出了一個系統的分類體系,將現有的工作根據監督信號分為五類:半監督、弱監督、無監督、全監督和開集監督視頻異常檢測。對于每個類別,我們進一步根據模型的不同特征進行細分,例如模型輸入和輸出、方法論、優化策略和架構,并展示了各種方法的性能對比。最后,我們討論了基于深度學習的視頻異常檢測未來的一些有前景的研究方向。
摘要——從演示中學習(Learning from Demonstrations),即通過數據學習機器人行為模型的領域,隨著深度生成模型的出現,正在越來越受到關注。盡管這一問題在“模仿學習”、“行為克隆”或“逆強化學習”等名稱下已經被研究了多年,但傳統方法依賴的模型往往難以有效捕捉復雜的數據分布,或者無法很好地擴展至大量演示數據。近年來,機器人學習社區對于使用深度生成模型來捕捉大數據集的復雜性表現出了越來越濃厚的興趣。在本綜述中,我們旨在提供對去年機器人領域中使用深度生成模型的進展的統一且全面的回顧。我們介紹了社區探索的不同類型的模型,如基于能量的模型、擴散模型、動作值圖、生成對抗網絡等。我們還展示了深度生成模型在不同應用中的使用情況,從抓取生成到軌跡生成或成本學習等。生成模型的一個重要元素是分布外的泛化能力。在我們的綜述中,我們回顧了社區為改善所學模型的泛化能力而做出的不同決策。最后,我們強調了研究中的挑戰,并提出了未來在機器人領域學習深度生成模型的一些研究方向。關鍵詞——機器人,生成模型,決策制定,控制,模仿學習,行為克隆,從演示中學習
I. 引言**
從演示中學習(Learning from Demonstration, LfD)[1], [2],也稱為模仿學習(Imitation Learning)[3], [4],是通過觀察和模仿一組專家演示來學習期望的機器人行為模型的領域**。基于場景的觀察和所需任務的條件,模型(通常稱為策略)被訓練生成與專家演示中行為相似的動作。根據任務的不同,這些動作可能代表期望的末端執行器姿態 [5], [6]、機器人軌跡 [7], [8] 或期望的場景安排 [9], [10] 等。LfD 包括幾種解決這一問題的方法。行為克隆(Behavioral Cloning, BC)方法 [1] 將條件生成模型擬合到基于觀察的動作上。盡管在序列決策問題中存在一些缺點(例如,錯誤累積導致的協變量偏移 [11]),但在實踐中,由于其穩定且高效的訓練算法,它已經展示了一些最為令人印象深刻的結果 [6], [12], [7], [13]。另一種方法是逆強化學習(Inverse Reinforcement Learning, IRL)[14], [15], [16] 或其變體 [17], [18], [19],結合了演示數據與環境中的試錯(即強化學習(Reinforcement Learning, RL)),生成的策略比 BC 更具魯棒性,但受到訓練算法穩定性較差的限制。與直接模仿演示動作的 BC 不同,IRL 側重于推斷演示行為所優化的潛在獎勵函數,并應用 RL 來推斷策略。IRL 的一個關鍵優勢在于它能夠僅通過觀察進行學習 [20], [21],而無需明確的演示動作信息。在 LfD 中,演示的固有特性帶來了重大挑戰。通常,收集的數據是次優的、噪聲較大的、基于高維觀察條件的,并且包含多種行為模式 [22], [23], [24]。這種多樣性可以在對給定物體的多種抓取方式、專家提供演示的偏好或專家之間的分歧中體現出來。數據的這些固有屬性促使研究人員尋找能夠恰當地捕捉其分布的模型。傳統上,在深度學習成為主流之前,LfD 方法通常使用高斯過程(Gaussian Process, GP)[25], [26]、隱馬爾可夫模型(Hidden Markov Model, HMM)[27], [28] 或高斯混合模型(Gaussian Mixture Models, GMM)[29] 來表示生成模型。然而,這些模型無法擴展至大數據集,也無法在圖像等高維上下文中表示條件分布。基于神經網絡的模型允許在圖像 [30], [31] 或文本 [32], [33] 等高維變量上進行條件設定,但它們通常被訓練為單峰模型。這些模型與收集的演示數據的多模式特性相沖突。這些模型無法捕捉數據中的固有多樣性和多模式,導致研究人員不得不將自己局限于較小的 [34] 或高度策劃的數據集,以確保單峰性,從而簡化建模過程。
近年來,深度生成模型(Deep Generative Models, DGM)在圖像 [35] 和文本生成 [36] 中的成功展示了其捕捉高度多模態數據分布的能力。近年來,這些表現力強的模型在機器人領域的模仿學習應用中引起了廣泛關注(見圖2)。例如,擴散模型(Diffusion Models, DM)[37], [35] 已被有效用于學習高維軌跡分布 [38], [7], [8];基于語言和圖像的策略使用類似GPT的模型來表示動作空間中的類別分布 [39];變分自編碼器(Variational Autoencoders, VAE)[40] 被應用于生成任意物體的六自由度(6-DoF)抓取姿態 [5]。本文統一且全面地回顧了機器人領域中為捕捉數據固有的多模態性而從演示中學習 DGM 的各種方法。盡管其中一些模型借鑒了其他機器學習領域的成果,如 DM,但我們也重點介紹了在機器人動作分布表示中特別有影響力的方法,如動作價值圖(Action Value Maps)[41], [42], [43]。本綜述主要關注使用離線數據的方法,即不收集額外的在線或交互數據,以及離線監督,即除了專家動作外不使用額外的監督。盡管在從視覺到文本生成的各個領域中,從離線數據集中學習 DGM 已被廣泛研究,但機器人領域有其固有的挑戰,需要謹慎的設計選擇。為了激發機器人應用中的具體設計選擇,我們將在 I-A 節中介紹從演示中學習策略的基本挑戰。我們將綜述分為六個部分(見圖1): 在第二部分中,我們將形式化問題并提供整個綜述中使用的術語。 在第三部分中,我們介紹了機器人領域中最常用的 DGM,展示了它們的固有屬性,簡要列出了應用這些方法的各種工作,并介紹了每種模型的訓練和采樣算法。 在第四部分中,我們展示了深度生成模型應用的不同類型,重點介紹了模型生成的數據類型以及考慮的條件變量類型。 在第五部分中,我們提出了一系列設計和算法歸納偏差,以提高從學習模型的數據分布中的泛化能力。我們如何保證在上下文觀察中生成有用的動作,而這些動作在演示中沒有出現?我們提出的選項包括生成模型的模塊化組合、從觀察中提取有用特征以及利用觀察與動作之間的對稱性。 最后,在第六部分中,我們強調了該領域當前的研究挑戰,并提出了未來的研究方向。
A. 從離線演示中學習的挑戰從離線演示中學習機器人策略面臨著若干挑戰。盡管其中許多挑戰(例如演示中的多模態)與其他研究領域(如圖像生成或文本生成)共享,但在機器人領域中,我們還需要考慮一些特有的挑戰。以下是從離線數據中學習機器人策略的主要挑戰。演示的多樣性。主要挑戰之一是演示本身的固有變化。不同的演示者可能具有不同的技能水平、偏好和完成相同任務的策略,導致數據集中包含廣泛的方法。單峰分布缺乏表達能力,無法捕捉演示中的這種變化,從而導致性能不佳。DGM 是解決這一挑戰的有前景的方法。通過捕捉復雜的多模態分布,這些模型可以學習表示演示中展現的不同策略和行為。異質的動作和狀態空間。與數據空間定義明確的計算機視覺不同,在機器人領域中,沒有單一的狀態-動作空間。機器人動作可以包括從力矩命令到期望的目標位置或期望的軌跡。此外,機器人行為可以在機器人的配置空間和任務空間中建模。這種多樣性導致了異質的數據集和用于學習機器人策略的異質解決方案。部分可觀察的演示。當人類執行演示時,其動作不僅基于可觀察到的元素,還受到任務知識和觀察歷史影響的內部狀態驅動。此外,人類可以整合環境中的信息,這些信息可能無法被機器人的傳感器輕易獲得或觀察到,例如人類視覺捕捉到的外圍細節但被機器人的攝像頭遺漏。這種不匹配往往導致演示僅部分代表任務的上下文,從而導致機器人學習的策略中出現歧義。關于部分可觀測性的問題已經在文獻中得到了廣泛研究 [44]。一種常見的實際方法是將觀察歷史編碼為上下文,而不是單一的觀察,允許模型提取內部狀態,從而減少歧義 [45]。時間依賴性和長視距規劃。機器人任務通常涉及序列決策,其中動作在時間上是相互關聯的。這種序列性可能導致錯誤的累積,將機器人引向訓練演示中未遇到的情況。為解決此問題,已有多種方法提出。一些工作建議學習短視距技能,然后與高層規劃器連接。另一方向是,許多工作 [38], [13] 提出學習生成動作軌跡而不是單步動作的策略,從而減少序列累積錯誤。此外,其他選項包括在生成演示時注入噪聲 [46] 或交互式擴展數據集 [11]。訓練和評估目標之間的不匹配。從離線演示中學習通常被定義為密度估計問題。學習的模型經過訓練以生成類似于訓練數據集的樣本。然而,學習的模型用于解決特定任務,最大化的度量是任務成功率。這種訓練目標與評估目標之間的不匹配可能導致在機器人用于解決特定任務時表現不佳。解決這一問題的一個可能方向是將行為克隆階段與后續強化學習微調相結合 [47]。分布偏移和泛化。從離線演示中學習的一個基本挑戰是演示數據與實際場景之間的分布偏移,在這些場景中,學習的策略被部署。演示通常在受控環境或特定上下文中收集,但機器人必須在演示未覆蓋的潛在新環境中運行。這種不匹配可能導致泛化失敗和性能下降。解決這一挑戰需要能夠從給定演示中推斷并適應新環境的技術。我們將在第五部分中探討提高機器人應用中泛化能力的不同方法。
B. 相關綜述
LfD 領域有著悠久的歷史,已有多篇綜述對此進行了探討。在基于深度學習的方法成為主流之前,已有幾篇綜述 [50], [51], [52], [53] 探討了模仿學習的基本問題。這些綜述回答了諸如我們應該如何獲取數據?我們應該學習什么模型?或我們應該如何學習策略?等問題。近年來,一些最新的研究 [54], [3], [55] 更新了基于深度學習模型在 LfD 問題中的應用的綜述。特別是 [3] 從算法的角度審視了模仿學習,使得不同算法的比較可以從信息論的角度進行。機器人學習社區的當前階段,隨著大規模機器人演示數據集的增加(無論是在模擬中還是在現實中),模仿學習方法的重要性日益增加,以及廉價機器人硬件的日益普及,當前適時提供一個涵蓋過去幾年研究進展并專注于該領域當前面臨挑戰(多模態性、泛化、異質數據集等)的綜述。最近,幾篇綜述 [56], [57] 探討了學習機器人基礎模型的問題,主要集中在將互聯網規模的視覺和語言基礎模型整合到機器人問題中。盡管將視覺-語言基礎模型應用于機器人問題具有潛力,但我們的綜述關注于不同的問題。本綜述的興趣在于探索如何直接從具體現體機器人的數據中學習策略(部分原因是大規模數據集的日益豐富 [24], [58]),而不是將視覺-語言模型適應于機器人。
視頻目標檢測是為了解決每一個視頻幀中出現的目標如何進行定位和識別的問題。相比于圖像目標檢測,視頻具有高冗余度的特性,其中包含了大量的時空局部信息。隨著深度卷積神經網絡在靜態圖像目標檢測領域的迅速普及,在性能上相較于傳統方法顯示出了非常大的優越性,并逐步在基于視頻的目標檢測任務上也發揮了應有的作用。但現有的視頻目標檢測算法仍然面臨改進與優化主流目標檢測算法的性能、保持視頻序列的時空一致性、檢測模型輕量化等關鍵技術的挑戰。針對上述問題和挑戰,在調研大量文獻的基礎上系統地對基于深度學習的視頻目標檢測算法進行了總結。從基于光流、檢測等基礎方法對這些算法進行了分類,從骨干網絡、算法結構、數據集等角度細致探究了這些方法。結合在ImageNet VID等數據集上的實驗結果,分析了該領域具有代表性算法的性能優勢和劣勢,以及算法之間存在的聯系。對視頻目標檢測中待解決的問題與未來研究方向進行了闡述和展望。視頻目標檢測已成為眾多的計算機視覺領域學者追逐的熱點,將來會有更加高效、精度更高的算法被相繼提出,其發展方向也會越來越好。
深度視覺生成是計算機視覺領域的熱門方向,旨在使計算機能夠根據輸入數據自動生成預期的視覺內容。深度視覺生成用人工智能技術賦能相關產業,推動產業自動化、智能化改革與轉型。生成對抗網絡(GAN)是深度視覺生成的有效工具,近年來受到了極大關注,成為快速發展的研究方向。GAN能夠接收多種模態的輸入數據,包括噪聲、圖像、文本、視頻,以對抗博弈的模式進行圖像生成和視頻生成,已成功應用于多項視覺生成任務,如廣告設計、藝術創作、動畫制作、虛擬現實等。利用GAN實現真實的、多樣化、可控的視覺生成具有重要的研究意義。本文通過系統調研,對近年來深度對抗視覺生成的相關工作進行綜述。首先介紹深度視覺生成背景及典型生成模型,然后根據深度對抗視覺生成的主流任務概述相關算法,總結深度對抗視覺生成目前面臨的痛點問題,在此基礎上分析深度對抗視覺生成的未來發展趨勢。