亚洲男人的天堂2018av,欧美草比,久久久久久免费视频精选,国色天香在线看免费,久久久久亚洲av成人片仓井空

摘要

近年來,生成模型的最新進展顯著促進了個性化內容創作的發展。在給定一小組包含用戶特定概念的圖像的情況下,個性化圖像生成能夠創造出結合指定概念并遵循提供的文本描述的圖像。由于其在內容創作中的廣泛應用,近年來在這一領域已投入了大量的研究工作。然而,用于個性化的技術隨著生成模型的發展而不斷演化,且具有各自獨特且相互關聯的組成部分。在本綜述中,我們全面回顧了跨各種生成模型的廣義個性化圖像生成方法,包括傳統的生成對抗網絡(GAN)、當代文本到圖像的擴散模型和新興的多模態自回歸(AR)模型。我們首先定義了一個統一的框架,標準化不同生成模型中的個性化過程,涵蓋了三個關鍵組件:反演空間、反演方法和個性化方案。這個統一框架為分析和比較不同生成架構中的個性化技術提供了結構化的方法。基于該框架,我們進一步深入分析了每種生成模型中的個性化技術,突出其獨特貢獻和創新。通過比較分析,本綜述闡明了個性化圖像生成的現狀,識別了現有方法中的共性和特征差異。最后,我們討論了該領域中的開放挑戰,并提出了未來研究的潛在方向。相關工作的持續更新可以訪問://github.com/csyxwei/Awesome-Personalized-Image-Generation。

關鍵詞

個性化圖像生成,生成模型,生成對抗網絡,文本到圖像的擴散模型,多模態自回歸模型 1 引言


近年來,生成模型經歷了快速的發展,從生成對抗網絡(GANs)[1] 到擴散模型(DMs)[2] 和自回歸(AR)模型[3]。這些模型在生成多樣化和高質量圖像方面表現出了顯著的優勢。最近,文本到圖像(T2I)生成模型[4–7] 展現了通過文本輸入控制圖像生成的卓越靈活性。得益于大規模的預訓練,這些T2I模型表現出卓越的語義理解能力,能夠生成準確反映給定文本提示的逼真圖像。這些進展促進了多種下游任務的發展,如條件生成[8]、圖像編輯[9–11] 和藝術創作[12, 13]。其中,個性化圖像生成[14–17] 引起了廣泛關注,主要集中在通過圖像生成創造用戶特定的概念。 當代個性化方法[12, 14–18] 主要利用文本到圖像的擴散模型,并增強這些模型以在指定的上下文中生成用戶特定的概念。具體而言,用戶特定的概念通過一小組包含目標概念的圖像(例如,主題、面孔或風格,通常為 3~5 張圖像)來指示,而指定的上下文則由目標文本提供。在本綜述中,我們探討了跨多種生成模型的廣義個性化圖像生成技術,包括傳統的 GANs、當前的文本到圖像擴散模型以及新興的多模態自回歸(AR)模型。例如,如圖4所示,GAN 反演[19–23] 將真實圖像映射到 GAN 的潛在空間,從而允許后續的操作以實現廣義個性化。這些 GAN 反演技術顯著激發了當前基于擴散的個性化方法中概念反演技術的發展[16, 24, 25]。此外,最近自回歸模型[3, 26–28] 在多模態生成中的進展,為個性化生成提供了有前景的新方向。因此,本文將這些技術統稱為廣義個性化圖像生成,并對利用這些生成模型的個性化進行全面的綜述。 圖1展示了近年來該領域的論文數量和代表性作品。在過去兩年中,已提出超過180種基于擴散的個性化方法,而過去十年間,各種生成模型已發展出超過300種方法。 若干綜述[29–32] 提供了關于條件圖像合成的前沿擴散方法的全面回顧。盡管這些工作提供了寶貴的見解,但它們主要集中在一般的條件生成技術上,而沒有深入探討個性化圖像生成領域。其中,有兩篇最近的綜述[32, 33] 與我們的工作特別相關。Shuai 等人[32] 總結了文本到圖像擴散模型在圖像編輯中的應用,將個性化圖像生成歸類為一種無內容編輯形式。Zhang 等人[33] 則對基于擴散模型的個性化圖像生成進行了綜述,但傾向于忽視其他生成模型所引入的進展。與這些現有綜述不同,我們的研究集中在跨多種生成模型的個性化,包括 GANs、文本到圖像的擴散模型和多模態自回歸模型。我們全面概述了這些模型中的個性化技術,強調它們的共性和差異,以澄清當前個性化圖像生成方法的現狀。 為了系統地探索個性化圖像生成,本文首先定義了一個統一框架,標準化不同生成模型中的個性化過程。具體而言,我們將個性化圖像生成分為兩個主要階段:概念反演和個性化生成,其中包含三個關鍵組件。反演空間:個性化過程首先通過將給定概念反演為生成模型可以操作的表示,探索用于此目的的各種空間。反演方法:選擇目標空間后,可以采用多種反演方法來學習表示,例如基于優化的方法、基于學習的方法等。個性化方案:生成模型隨后將反演的概念表示與目標文本結合,生成個性化圖像。此步驟涉及針對每種生成模型量身定制的各種個性化方法和概念類別。 基于這一統一框架,我們進一步深入分析了每種生成模型中的個性化技術,突出它們在不同場景下的共性與差異。此外,我們還介紹了個性化圖像生成中常用的評估指標和數據集,并討論了該領域的開放挑戰以及未來研究的潛在方向。 本文其余部分組織如下:第2節定義了個性化圖像生成的問題,并介紹了生成模型的基礎知識;第3至5節討論了針對不同生成模型的個性化技術,包括 GANs、擴散模型和自回歸模型;第6節回顧了個性化圖像生成中現有的評估數據集和指標;第7節指出了該領域的開放挑戰,并概述了潛在的未來研究方向;最后,第8節通過總結關鍵見解和貢獻,結束了本綜述。圖2展示了我們綜述的組織結構,并分類了各節中的文獻。

2. 問題定義與生成模型基礎

2.2 生成模型基礎

**2.2.1 生成對抗網絡(GANs)

生成對抗網絡(GANs)由生成器和判別器兩個神經網絡組成,通過對抗過程進行訓練。生成器旨在生成逼真的圖像,而判別器則試圖區分真實圖像和生成圖像。近年來,GANs在生成高分辨率圖像方面取得了顯著進展,特別是基于風格的GAN系列(如StyleGAN),通過分層潛在風格控制生成圖像的不同方面。

**2.2.2 文本到圖像擴散模型(DMs)

擴散模型通過逐步去噪的過程生成圖像,與GANs不同,擴散模型通過前向擴散過程和反向去噪過程生成圖像。近年來,擴散模型在文本到圖像生成領域得到了廣泛應用,特別是Stable Diffusion系列模型,通過在大規模文本-圖像數據集上進行預訓練,能夠生成與文本描述高度一致的圖像。

**2.2.3 多模態自回歸模型(ARs)

自回歸模型通過預測序列中的下一個元素來生成圖像,近年來在自然語言處理(NLP)領域展示了卓越的性能。DALL-E等模型通過將文本和圖像轉換為離散標記,實現了文本到圖像的生成。多模態自回歸模型通過結合視覺和文本信息,展示了在個性化圖像生成中的潛力。

3. GANs中的個性化圖像生成

3.1 概述

GANs中的個性化圖像生成主要依賴于GAN反演技術,將真實圖像映射到GAN的潛在空間中,以便進行后續的編輯和生成。具體來說,給定一個概念圖像,個性化圖像生成包括兩個主要階段:概念反演和潛在編輯。

3.2 反演空間

在GAN反演中,有多種潛在空間可用于表示概念圖像,包括廣義風格空間、特征空間和參數空間。廣義風格空間(如StyleGAN中的WW空間)提供了更好的語義解纏,能夠更準確地表示復雜概念。特征空間通過映射中間殘差特征來增強細節一致性,而參數空間則通過微調生成器參數來提高反演保真度。

3.3 GAN反演方法

GAN反演方法可以分為優化方法、學習方法和混合方法。優化方法通過直接優化潛在表示來反演圖像,而學習方法則通過訓練編碼器來預測潛在表示。混合方法結合了學習和優化的優點,通過編碼器提供初始潛在表示,并通過優化進行細化。

3.4 潛在編輯

在反演得到概念條件后,用戶可以通過潛在編輯生成個性化圖像。潛在編輯方法包括潛在導航和文本驅動編輯。潛在導航方法通過支持向量機(SVM)或條件歸一化流模型來學習屬性編輯方向,而文本驅動編輯則通過CLIP等模型將文本描述映射到潛在空間中,實現更直觀的圖像生成。

4. 擴散模型中的個性化圖像生成

4.1 概述

文本到圖像擴散模型通過文本提示生成圖像,個性化圖像生成進一步增強了其生成用戶特定概念的能力。與GANs類似,擴散模型中的個性化圖像生成也涉及概念反演和個性化生成兩個階段。

4.2 反演空間

擴散模型中的反演空間包括噪聲空間、文本空間、特征空間和參數空間。噪聲空間通過DDIM反演等技術將圖像反演為噪聲表示,文本空間通過CLIP文本編碼器將概念表示為文本特征,特征空間通過映射中間特征來增強細節一致性,而參數空間則通過微調模型參數來提高反演保真度。

4.3 概念反演方法

擴散模型中的概念反演方法包括無訓練方法、優化方法、學習方法和混合方法。無訓練方法利用擴散模型的固有特性進行反演,優化方法通過優化概念條件來學習新概念,學習方法通過訓練編碼器來預測概念條件,而混合方法則結合了學習和優化的優點。

4.4 個性化圖像生成

擴散模型中的個性化圖像生成可以根據概念類型進行分類,包括主題驅動、面孔驅動、風格驅動和高層語義個性化。主題驅動個性化通過優化或學習方法生成包含目標主題的圖像,面孔驅動個性化則專注于生成與參考圖像具有相同身份的面孔圖像,風格驅動個性化通過反演風格特征生成具有特定風格的圖像,而高層語義個性化則通過反演關系或動作生成具有特定語義關系的圖像。

4.5 文本驅動圖像編輯

與GANs類似,擴散模型中的文本驅動圖像編輯通過反演噪聲空間并應用文本驅動編輯技術生成個性化圖像。Prompt-to-prompt等方法通過操縱注意力機制實現圖像編輯,而MasaCtrl等方法則通過自注意力機制保持對象外觀的同時進行非剛性編輯。

5. 自回歸模型中的個性化圖像生成

5.1 概述

自回歸模型通過預測序列中的下一個元素來生成圖像,近年來在多模態圖像生成領域展示了卓越的性能。盡管現有的自回歸模型在個性化圖像生成方面的研究較少,但其多模態生成框架展示了在個性化圖像生成中的潛力。

5.2 多模態自回歸模型

多模態自回歸模型通過將圖像和文本編碼到共享的標記空間中,實現了文本和圖像的聯合生成。Emu2等模型通過CLIP視覺編碼器將圖像轉換為嵌入,并通過自回歸方式預測生成的圖像嵌入。這些模型通過大規模文本-圖像對進行預訓練,展示了在個性化圖像生成中的潛力。

5.3 個性化圖像生成的挑戰

盡管自回歸模型在多模態生成方面展示了卓越的性能,但在個性化圖像生成中仍面臨一些挑戰。例如,生成圖像與參考圖像之間的身份一致性仍然有限,未來的研究需要開發更有效的個性化技術,以提高身份一致性和生成質量。

6. 評估

6.1 評估數據集

個性化圖像生成模型的評估通常依賴于多個數據集,如DreamBench、Custom101等。這些數據集提供了豐富的圖像和文本對,用于評估模型在不同場景下的性能。

6.2 評估指標

個性化圖像生成的評估指標主要包括概念保真度和文本可編輯性。概念保真度通過FID、身份得分等指標評估生成圖像與目標概念的相似性,而文本可編輯性則通過CLIP-T、ImageReward等指標評估生成圖像與文本提示的一致性。

6.3 主觀評估

除了定量指標,主觀評估通過人類評分者評估生成圖像的質量和相關性。用戶研究通常包括比較基線模型和提出方法的結果,以評估其有效性。

7. 挑戰與未來方向

7.1 主題保真度與文本可控性的權衡

個性化圖像生成需要在主題保真度和文本可控性之間取得平衡。現有方法在提高身份保真度的同時,往往面臨過擬合問題,導致生成圖像忽視文本提示。未來的研究需要開發更精細的設計,以更好地平衡這兩個方面。

7.2 通用類別個性化

當前的個性化方法通常專注于特定領域,如主題、面孔或風格。未來的研究需要開發能夠生成多個自定義概念的通用類別個性化方法,以提供更靈活和多樣化的生成能力。

7.3 多條件可控圖像生成

多條件圖像生成是一個新興且有前景的領域,旨在開發能夠處理多個條件輸入并支持各種任務的統一模型。未來的研究需要開發能夠確保可擴展性和高質量生成的魯棒多條件圖像生成方法。

7.4 基于先進生成模型的個性化

生成模型經歷了顯著的演進,包括最近的DiT-based文本到圖像擴散模型和多模態自回歸模型。未來的研究需要開發與這些先進模型兼容的有效個性化技術。

7.5 個性化視頻和3D生成

近年來,視頻和3D內容生成取得了快速進展,未來的研究可以探索在這些領域中應用個性化生成技術,以擴展個性化生成技術的應用范圍。

8. 結論

本文綜述了基于深度生成模型的個性化圖像生成技術,包括生成對抗網絡、文本到圖像擴散模型和多模態自回歸模型。我們首先從整體角度定義了個性化圖像生成的范圍,統一了不同方法在一個共同的框架下。具體來說,我們將個性化圖像生成分為三個關鍵組件:反演空間、反演方法和個性化方案。基于這一統一框架,我們深入分析了各類生成模型中的技術,強調了現有方法的共性和差異。最后,我們討論了該領域的開放挑戰,并提出了未來研究的潛在方向。本文為個性化圖像生成領域提供了一個全面且最新的綜述,系統地跟蹤了這一快速演進領域中的相關研究。

付費5元查看完整內容

相關內容

深度生成模型基本都是以某種方式尋找并表達(多變量)數據的概率分布。有基于無向圖模型(馬爾可夫模型)的聯合概率分布模型,另外就是基于有向圖模型(貝葉斯模型)的條件概率分布。前者的模型是構建隱含層(latent)和顯示層(visible)的聯合概率,然后去采樣。基于有向圖的則是尋找latent和visible之間的條件概率分布,也就是給定一個隨機采樣的隱含層,模型可以生成數據。 生成模型的訓練是一個非監督過程,輸入只需要無標簽的數據。除了可以生成數據,還可以用于半監督的學習。

摘要—大型語言模型(LLMs)在廣泛的任務中展現出了卓越的能力,但在專業領域的應用仍面臨挑戰,主要原因在于需要深厚的領域專業知識。檢索增強生成(RAG)作為一種有前景的解決方案,通過無縫集成外部知識庫,使大型語言模型能夠在推理過程中實時訪問領域特定的專業知識,從而實現定制化。然而,傳統基于平面文本檢索的RAG系統面臨三個關鍵挑戰:(i)專業領域中復雜的查詢理解,(ii)跨分布式源的知識整合困難,和(iii)大規模下的系統效率瓶頸。本綜述提出了一種系統性的分析,重點討論了基于圖的檢索增強生成(GraphRAG),這是一種通過圖結構革命性地改變領域特定大型語言模型應用的新范式。GraphRAG通過三項關鍵創新解決了傳統RAG的局限性:(i)圖結構的知識表示,顯式捕捉實體關系和領域層次,(ii)高效的基于圖的檢索技術,支持多跳推理的上下文保持型知識檢索,和(iii)結構感知的知識整合算法,通過利用檢索到的知識進行準確且邏輯連貫的LLM生成。本文對GraphRAG的技術基礎進行了系統分析,并考察了在多個專業領域中的現有實現,識別了關鍵的技術挑戰和有前景的研究方向。所有與GraphRAG相關的資源,包括研究論文、開源數據和項目,已匯集在//github.com/DEEP-PolyU/Awesome-GraphRAG供社區使用。

關鍵詞—檢索增強生成,知識圖譜,大型語言模型,GraphRAG

I. 引言

大型語言模型(LLMs),如GPT系列 [1],憑借其在廣泛任務中的卓越能力,令世界為之一驚,在文本理解 [2]、問答 [3] 和內容生成 [4]–[6] 等領域取得了突破性進展。然而,盡管LLMs在許多任務上表現出色,它們在處理需要領域專業知識的知識密集型任務時仍面臨批評 [7]。具體而言,LLMs在專業領域中的應用仍然面臨三大挑戰: ? 知識局限性:LLMs的預訓練知識廣泛,但在專業領域中較為淺薄。它們的訓練數據主要來自通用領域內容,導致在專業領域的知識深度不足,并且可能與當前的領域特定標準和實踐存在不一致。 ? 推理復雜性:專業領域要求精確的多步驟推理,涉及領域特定的規則和約束。LLMs往往難以在擴展的推理鏈中保持邏輯一致性和專業準確性,尤其是在處理技術約束或領域特定協議時。 ? 上下文敏感性:專業領域通常涉及依賴于上下文的解釋,相同的術語或概念在特定情況下可能具有不同的含義或影響。LLMs往往無法捕捉這些細微的上下文差異,導致潛在的誤解或不當概括。 為了將LLMs適配到特定或私有領域,最初的策略是通過使用專業數據集對LLMs進行微調 [8]。這種方法通過增加有限的參數并固定預訓練中學習到的參數來提高性能 [9]。然而,領域特定數據集與預訓練語料庫之間的顯著分布差距使得LLMs在不妥協現有理解的情況下整合新知識變得困難 [10]。谷歌研究的一項最新研究進一步突出了使用監督微調更新知識的風險,特別是在新知識與已有信息沖突時;通過監督微調獲取新知識可能導致模型生成新的幻覺,甚至遭遇嚴重的災難性遺忘 [11]。 檢索增強生成(RAG) 提供了一個有前景的解決方案來定制LLMs以適應特定領域 [12]。RAG并不是通過重新訓練LLMs來整合更新,而是通過利用外部知識庫增強這些模型,無需修改其架構或參數。這種方法使LLMs不僅能利用其預訓練知識,還能實時檢索領域特定信息,從而生成更加準確和可靠的回答。傳統的RAG系統通過三個關鍵步驟進行操作:知識準備、檢索和整合。在知識準備階段,外部資源(如文檔、數據庫或網頁)被分割成可管理的文本塊,并轉換為向量表示以便高效索引。在檢索階段,當用戶提交查詢時,系統通過關鍵詞匹配或向量相似度度量來搜索相關的文本塊。整合階段將這些檢索到的文本塊與原始查詢結合,以生成用于LLM響應的知情提示。近年來,一些先進的RAG系統已經超越了簡單的文本塊檢索,提供了更為復雜的知識增強方法。這些方法包括:通過多級檢索保持文檔結構的層次化RAG [13][14],實施兩階段檢索以提高召回率和精確度的重排序系統 [15][16],自動分解復雜查詢的自查詢RAG [17],以及根據查詢類型動態調整檢索策略的自適應RAG [18][19]。這些先進的RAG系統通過提升上下文感知能力、檢索準確性,并更有效地處理復雜查詢,旨在克服傳統RAG方法的局限性。 RAG的出現為定制LLMs提供了一個有前景的方法,但盡管如此,RAG仍面臨若干關鍵限制,影響其在實際應用中的效果。這些限制可大致分為四個主要挑戰,顯著影響RAG增強的LLMs的性能和實用性。主要挑戰在于復雜查詢理解。專業領域通常涉及復雜的術語和行業特定的行話,需要精確的解釋 [20]。這些領域中的用戶查詢通常包含大量技術性術語和行業特有的表達,解決方案往往需要跨多個相關概念進行推理。傳統的RAG方法依賴于簡單的關鍵詞匹配和向量相似度技術,這些方法無法有效捕捉準確和全面的深層語義差異和多步驟推理過程 [21]。例如,當詢問概念A與概念D之間的關系時,這些系統通常只檢索直接相關的信息,而忽略了可能橋接這一關系的關鍵中介概念,如B和C。這種狹隘的檢索范圍限制了RAG對廣泛上下文理解和復雜推理的能力。 另一個關鍵挑戰是從分布式來源整合領域知識。領域知識通常來自不同的資源,如教科書、研究論文、行業報告、技術手冊和維護日志。這些文本文檔可能具有不同的質量、準確性和完整性。檢索到的知識通常是平坦的、廣泛的且復雜的,而領域概念通常分散在多個文檔中,且不同概念之間缺乏清晰的層次關系 [7][22][23]。盡管RAG系統通過將文檔分割成較小的塊以便高效索引來管理這種復雜性,但這種方法不經意間犧牲了重要的上下文信息,顯著妥協了檢索準確性和上下文理解能力。這一限制妨礙了在相關知識點之間建立穩固聯系,導致理解片面,進而降低了領域專業知識的利用效果。 第三個限制來自LLMs固有的限制。盡管RAG系統可以從龐大的知識庫中檢索相關信息,但LLM處理這些信息的能力受限于其固定的上下文窗口(通常為2K-32K個token) [1][24]。復雜文檔中的長程依賴關系無法完全捕捉,因為超出上下文窗口的內容必須被截斷或總結,這會打斷自然的語義單元和邏輯流程。在專業領域中,保持跨廣泛知識背景的一致性變得更加棘手,因為在上下文窗口截斷過程中,關鍵信息可能會丟失。這一固有限制直接影響了系統從大規模知識庫中處理和綜合信息的能力。 最后的挑戰與系統效率和可擴展性有關。整個RAG管道——從初步的語料預處理和索引到實時檢索和生成——面臨顯著的效率瓶頸 [25][26]。外部知識庫中包含大量與領域無關的信息,而領域特定的術語通常在這些文檔中分布稀疏。RAG系統計算成本高且耗時 [25],特別是在處理大規模知識源時,因為模型需要搜索大量未結構化的文本以尋找相關信息。此外,實時檢索和跨文檔推理可能引入相當大的延遲,影響用戶體驗。隨著知識庫規模的增長,RAG的可擴展性受到檢索質量和準確性的下降限制 [26],這進一步限制了其在廣泛且動態的專業環境中的實際部署。 為了應對這些限制,圖檢索增強生成(GraphRAG)作為一種新范式應運而生,旨在通過組織良好的背景知識和改進的上下文推理定制LLMs [25][27]–[29]。基于圖結構,現有的GraphRAG模型可分為三大類:? 基于知識的GraphRAG,將圖作為知識載體;? 基于索引的GraphRAG,使用圖作為索引工具,從語料庫中檢索相關的原始文本;? 混合型GraphRAG,結合了基于知識和基于索引框架的優勢,為復雜推理任務提供了更先進的解決方案。基于知識的GraphRAG和基于索引的GraphRAG代表了兩種不同的增強LLMs的圖結構方法。基于知識的GraphRAG側重于將非結構化文本文檔轉化為明確且結構化的知識圖譜,其中節點表示領域概念,邊表示它們之間的語義關系,從而更好地表示層次關系和復雜的知識依賴性。相比之下,基于索引的GraphRAG保持原始文本形式,同時主要利用圖結構作為索引機制來高效地組織和檢索相關文本塊。通過將圖結構融入文本索引,基于索引的GraphRAG方法在文本塊之間建立語義連接,便于高效的查找操作和檢索。雖然基于知識的GraphRAG強調通過圖轉換明確建模領域知識和語義關系,而基于索引的GraphRAG則優先優化信息檢索和通過圖形索引策略提升文本信息的可訪問性。這兩種方法在目的上有所不同:基于知識的GraphRAG旨在通過圖結構推理能力創建結構化的知識表示,幫助更好地理解復雜關系;而基于索引的GraphRAG則側重于通過圖結構索引策略優化相關文本信息的檢索和可達性。 在本文中,我們系統地分析了GraphRAG的技術基礎,并考察了在各個專業領域中的當前實現,識別了關鍵的技術挑戰和有前景的研究方向。所有與GraphRAG相關的資源,包括研究論文、開源數據和項目,已匯集在

本綜述對GraphRAG進行了全面分析,詳細介紹了其分類、機制、挑戰和未來的研究方向,并將內容組織為七個主要部分,逐步從基礎概念到實際應用展開。具體來說,我們在第二部分(Section 2 II)首先建立了基礎框架,追溯了GraphRAG從傳統RAG系統的演變,探討了RAG在處理結構化知識時的局限性,并介紹了GraphRAG在復雜推理任務中的核心概念和優勢。接下來的三部分系統地探討了GraphRAG系統的關鍵組件:包括知識承載圖和索引圖(第三部分Section 3 IV)兩種主要的結構化知識組織范式;從結構化知識庫中提取與查詢相關的事實信息的檢索技術(第四部分Section 4 V);以及有效地將檢索到的知識整合到LLM中的知識集成方法(第五部分Section 5 VI)。隨著向實際應用的推進,第六部分(Section 6 VIII)通過提供詳細的實施指南、回顧開源項目,并呈現由全面數據集和評估基準支持的領域特定案例研究,討論了GraphRAG的實施方面。最后,第七部分(Section 7 VII)通過識別未來的研究方向,并討論知識質量、檢索效率、系統泛化能力和安全性等潛在挑戰,結合實踐指導,總結了構建領域特定GraphRAG系統的建議。 本綜述在現有的綜述 [28]–[30] 基礎上進行了進一步擴展,采用了更加系統和全面的方法分析GraphRAG系統。盡管之前的綜述提供了Graph基索引、圖引導檢索和圖增強生成的基本工作流描述,我們引入了一個更為復雜且全面的分類法,將GraphRAG方法清晰地分為三類(基于知識的、基于索引的和混合型GraphRAG),從而提供了對該領域更加細致的理解。我們的綜述采用了更為系統的六部分結構,邏輯地從理論基礎到實踐應用展開,詳細探討了每個組成部分,包括知識組織范式、檢索技術和集成方法。

與之前的綜述不同,我們通過詳細回顧開源項目、領域特定案例研究以及提供全面的數據集和評估基準,提供了豐富的實踐指導。我們還對多個維度的挑戰和解決方案進行了更為深入的分析,包括知識質量、檢索效率、系統泛化能力和安全性問題。最后,盡管現有綜述廣泛討論了潛在應用,我們提供了更多基于實證證據和實施示例的可操作性見解,使我們的綜述成為在生產環境中部署GraphRAG系統的實踐者更具價值的資源。

付費5元查看完整內容

摘要—基礎模型(FM)驅動的代理服務被視為一種有前景的解決方案,用于開發智能化和個性化的應用,推動人工通用智能(AGI)的發展。為了在部署這些代理服務時實現高可靠性和可擴展性,必須協同優化計算和通信資源,從而確保有效的資源分配和無縫的服務交付。為實現這一愿景,本文提出了一個統一框架,旨在提供一個全面的綜述,探討在異構設備上部署基于FM的代理服務,重點是模型和資源優化的集成,以建立一個強大的基礎設施支持這些服務。特別地,本文首先探索了推理過程中的各種低層次優化策略,并研究了增強系統可擴展性的方法,如并行化技術和資源擴展方法。接著,本文討論了幾種重要的基礎模型,并調查了專注于推理加速的研究進展,包括模型壓縮和標記減少等技術。此外,本文還研究了構建代理服務的關鍵組件,并突出了值得關注的智能應用。最后,本文提出了開發具有高服務質量(QoS)實時代理服務的潛在研究方向。 關鍵詞—基礎模型、AI代理、云/邊緣計算、服務系統、分布式系統、AGI。

I. 引言

人工智能(AI)的快速發展使得基礎模型(FM)成為創新的基石,推動了自然語言處理、計算機視覺和自主系統等多個領域的進步。這些模型的特點是參數空間龐大,并在廣泛的數據集上進行了深度訓練,孕育了從自動化文本生成到高級多模態問答和自主機器人服務等眾多應用[1]。一些流行的基礎模型,如GPT、Llama、ViT和CLIP,推動了AI能力的邊界,提供了處理和分析大量數據的復雜解決方案,涵蓋了不同格式和模態。基礎模型的持續進展顯著增強了AI在理解和與世界互動方面的能力,使其在某種程度上類似于人類認知。 然而,傳統的基礎模型通常僅限于提供問答服務,并根據已有知識生成回答,往往無法整合最新信息或利用先進工具。基礎模型驅動的代理服務旨在增強基礎模型的能力。這些代理具備動態記憶管理、長期任務規劃、高級計算工具以及與外部環境的交互功能[2]。例如,基礎模型驅動的代理能夠調用不同的外部API以訪問實時數據,執行復雜的計算,并根據最新的可用信息生成更新的響應。這種方法提高了響應的可靠性和準確性,并使與用戶的互動更加個性化。 開發具有低延遲、高可靠性、高彈性并且資源消耗最小的服務系統,對于向用戶提供高質量的代理服務至關重要。這樣的系統能夠有效地管理不同的查詢負載,同時保持快速響應并減少資源成本。此外,在異構的邊緣-云設備上構建服務系統,是利用邊緣設備的閑置計算資源和云端豐富計算集群的一種有前景的解決方案。邊緣-云設備的協同推理能夠通過根據計算負載和實時網絡條件動態分配任務,提升整體系統效率。 盡管許多研究已經探討了小型模型在邊緣-云環境中的協同推理,但在這種范式下部署基礎模型以支持多樣化的代理服務仍然面臨著一些嚴重挑戰。首先,波動的查詢負載極大地挑戰了模型服務。隨著越來越多的用戶希望體驗基礎模型驅動的智能代理服務,查詢負載急劇增加。例如,截至2024年4月,ChatGPT的用戶約為1.805億,其中每周活躍用戶約為1億[3]。這些用戶在不同時間訪問服務,導致請求速率變化。因此,彈性服務系統應根據當前的系統特性動態調整系統容量。其次,基礎模型的參數空間極為龐大,達到數百億規模,這對存儲系統提出了巨大挑戰。然而,邊緣設備和消費級GPU的存儲容量有限,無法容納整個模型。龐大的參數量導致了顯著的推理開銷和較長的執行延遲。因此,有必要設計模型壓縮方法,并在不同的執行環境中采用不同的并行化方法。此外,用戶在不同應用中有不同的服務需求和輸入。例如,有些應用優先考慮低延遲,而有些則優先考慮高精度。這要求動態資源分配并調整推理過程。此外,AI代理需要在復雜環境中處理大量艱巨任務,這要求有效管理大規模內存、實時處理更新的規則和特定領域知識。此外,代理具有不同的個性和角色,因此需要設計高效的多代理協作框架。

為了解決上述挑戰,并推動實時基礎模型驅動的代理服務的發展,本文提出了一個統一框架,并從不同優化角度調查了多項研究成果。該框架如圖1所示。底層是執行層,邊緣或云設備在此執行基礎模型推理。聯合計算優化、輸入/輸出優化和通信優化被應用于加速推理,并促進構建強大的基礎模型基礎設施。資源層由兩個組件組成,幫助在不同設備上部署模型。并行化方法設計了不同的模型拆分和放置策略,以利用可用資源并協同提高吞吐量。資源擴展根據查詢負載和資源利用情況動態調整硬件資源,從而提高整體可擴展性。模型層專注于優化基礎模型,提出了兩種輕量級方法,包括模型壓縮和標記減少,旨在推動基礎模型的廣泛應用。基于這些基礎模型,構建了許多AI代理來完成各種任務。為了增強代理的四個關鍵組件,提出了許多方法,包括多代理框架、規劃能力、記憶存儲和工具利用。最終,利用上述技術,可以開發各種應用,為用戶提供智能化和低延遲的代理服務。

A. 相關工作

許多研究集中于優化在邊緣-云環境中部署機器學習模型的系統。KACHRIS回顧了一些用于大規模語言模型(LLMs)計算加速的硬件加速器,以解決計算挑戰[4]。Tang等人總結了旨在優化網絡和計算資源的調度方法[5]。Miao等人提出了一些加速方法以提高大規模語言模型的效率[6]。這項綜述涵蓋了系統優化,如內存管理和內核優化,以及算法優化,如架構設計和壓縮算法,以加速模型推理。Xu等人關注人工智能生成內容(AIGC)的部署,并概述了AIGC的移動網絡優化,涵蓋了數據集收集、AIGC預訓練、AIGC微調和AIGC推理過程[7]。Djigal等人研究了機器學習和深度學習技術在多接入邊緣計算(MEC)系統中資源分配的應用[8]。該綜述包括了資源卸載、資源調度和協同分配。許多研究提出了不同的算法來優化基礎模型和代理的設計。[1]、[9]和[10]提出了流行的基礎模型,特別是大規模語言模型。[11]、[12]和[13]總結了大規模語言模型的模型壓縮和推理加速方法。[2]、[14]和[15]回顧了代理開發中的挑戰和進展。 總之,上述研究要么優化了邊緣-云資源分配和調度以支持小型模型,要么為大規模基礎模型設計了加速或效率方法。據我們所知,本文是首篇全面綜述和討論實時基礎模型驅動的代理服務在異構設備上部署的研究,近年來這一研究方向已經變得尤為重要。我們設計了一個統一框架,填補了這一研究空白,并從不同視角回顧當前的研究成果。該框架不僅勾畫了基礎模型部署的關鍵技術,還識別了基礎模型驅動的代理服務的關鍵組件和相應的系統優化方法。

B. 貢獻

本文全面綜述了在邊緣-云環境中部署基礎模型驅動的代理服務,涵蓋了從硬件到軟件層的優化方法。為方便讀者,本文提供了綜述的大綱(見圖2)。本文的貢獻總結如下:

  • 本綜述提出了第一個全面的框架,旨在深度理解在邊緣-云環境中部署基礎模型驅動的代理服務。該框架具有促進人工通用智能(AGI)發展的巨大潛力。
  • 從低層次硬件角度出發,本文展示了各種運行時優化方法和資源分配與調度方法,這些技術旨在為基礎模型構建可靠且靈活的基礎設施。
  • 從高層次軟件角度出發,本文闡述了專注于模型優化和代理優化的研究工作,提供了構建智能化和輕量化代理應用的多種機會。

本文其余部分安排如下:第二節介紹了一些低層次的執行優化方法;第三節描述了資源分配和并行機制;第四節討論了當前的基礎模型及模型壓縮和標記減少技術;第五節闡明了代理的關鍵組件;第六節介紹了批處理方法及相關應用;最后,第七節討論了未來的研究方向并作結論總結。

付費5元查看完整內容

摘要—視覺目標跟蹤(VOT)是計算機視覺領域一個具有吸引力且重要的研究方向,其目標是在視頻序列中識別和跟蹤特定目標,且目標對象是任意的、與類別無關的。VOT技術可以應用于多種場景,處理多種模態的數據,如RGB圖像、熱紅外圖像和點云數據。此外,由于沒有單一傳感器能夠應對所有動態和變化的環境,因此多模態VOT也成為了研究的重點。本文全面綜述了近年來單模態和多模態VOT的最新進展,特別是深度學習方法的應用。具體而言,本文首先回顧了三種主流的單模態VOT,包括RGB圖像、熱紅外圖像和點云跟蹤。特別地,我們總結了四種廣泛使用的單模態框架,抽象出其架構,并對現有的繼承方法進行了分類。接著,我們總結了四種多模態VOT,包括RGB-深度、RGB-熱紅外、RGB-LiDAR和RGB-語言。此外,本文還呈現了所討論模態在多個VOT基準測試中的對比結果。最后,我們提出了建議和深刻的觀察,旨在激發這一快速發展的領域的未來發展。 關鍵詞—視覺目標跟蹤,深度學習,綜述,單模態,多模態

//www.zhuanzhi.ai/paper/2edd0971ae625f759822052af4d569fd

1 引言

視覺目標跟蹤(VOT)是過去幾十年來計算機視覺領域的一個高度活躍的研究課題,因其在視頻監控 [1]、[2]、[3]、自動駕駛 [4]、[5]、移動機器人 [6]、[7]、人機交互 [8]、[9] 等廣泛場景中的重要應用而受到關注。VOT任務的定義是:給定目標在第一幀中的邊界框位置,跟蹤器需要在隨后的所有幀中持續且魯棒地識別和定位該目標,其中目標可以是任意實例且不依賴于類別。這個任務非常具有挑戰性,因為:1)目標可能經歷諸如形變、旋轉、尺度變化、運動模糊和視野丟失等復雜的外觀變化;2)背景可能帶來諸如光照變化、相似物體干擾、遮擋和雜亂等無法控制的影響;3)視頻捕捉設備可能會震動和移動。 作為計算機視覺中的一項核心任務,VOT有多種數據模態可供選擇。最常見的模態是RGB視頻,因其普及和易獲取性,吸引了大量研究者關注這一任務。RGB模態的VOT提供了在圖像坐標系下的大致目標位置,并通過二維邊界框為許多高級圖像分析任務奠定了基礎,例如姿態估計、步態/活動識別、細粒度分類等。基于RGB的VOT的演進 [2]、[10]、[11]、[12] 是持久且歷史悠久的,隨著深度學習 [13]、[14]、[15]、[16]、[17] 和大規模數據集 [18]、[19]、[20] 的出現,這一進展進一步加速。本文主要關注過去十年中的方法,特別是基于深度神經網絡(DNN)的方法。根據其工作流程,我們將主流的RGB跟蹤器分為四類:判別性相關濾波器(DCF) [17]、[21],Siamese跟蹤器 [22]、[23]、[24],實例分類/檢測(ICD) [25]、[26]、[27] 和單流變換器(OST) [1]、[28]、[29]。為了便于說明,圖3展示了這四種基于深度學習的框架及其最簡化的組件。前兩種框架在過去十年中非常流行,而后兩種則較少被提及,甚至在以往的綜述中沒有出現過,因為ICD不像DCF和Siamese那么常見,OST則是一個自2022年才出現的新框架。 另一方面,RGB模態的缺點也非常明顯,應用場景受到限制。首先,它在夜間和惡劣天氣(如雨天和雪天)下的表現不盡如人意。在這些嚴酷的視覺條件下,可以使用基于熱紅外(TIR)的VOT [30]、[31]、[32],通過TIR攝像機捕捉來自生物體的熱輻射,在沒有光照的情況下跟蹤目標。其次,缺乏深度信息使得單一的RGB模態VOT無法感知三維幾何和定位信息,這在自動駕駛和移動機器人等應用場景中尤為重要。最近,基于LiDAR的VOT [5]、[33]、[34]、[35] 應運而生,解決了這一問題,通過探索3D點云的內在幾何結構來感知目標的深度。LiDAR點的幾何結構有助于感知目標物體的深度,從而提供精確的3D形狀和位置。因此,本文還概述了兩種單模態VOT方法(基于TIR和LiDAR的)。此外,容易發現這些模態之間的共同框架,以便更好地理解。例如,基于TIR的跟蹤器通常遵循DCF和Siamese框架,因為TIR數據格式與RGB圖像非常相似。同樣,基于LiDAR的VOT借用了RGB模態中的Siamese框架,并將其發展為主導3D跟蹤領域的方法。 此外,由于不同的單模態VOT各有優缺點,因此也提出了融合多模態信息的跟蹤器,具有提高精度和魯棒性的潛力。更具體地說,融合意味著將兩種或多種模態的信息結合起來進行目標跟蹤。例如,TIR傳感器對光照變化、偽裝和物體姿態變化不敏感,但在人群中區分不同人的TIR輪廓會比較困難。另一方面,RGB傳感器則具有相反的特性。因此,直觀地將這兩種模態進行融合,可以互相補充 [36]、[37]、[38]。此外,融合選擇可能根據不同的應用有所不同。例如,RGB-LiDAR [39]、[40] 可以是適用于機器人跟隨的良好選擇,因其需要準確的3D信息;而RGB-語言VOT [8]、[9]、[41] 則適用于人機交互。隨著實際需求的增加,VOT領域的一些研究者已轉向集成多種模態,以構建魯棒的跟蹤系統。 現有關于VOT的綜述論文主要集中在單一RGB模態方法的不同方面和分類 [42]、[43]、[44]、[45]、[46]、[47]、[48]、[49]、[50]。例如,最近的綜述 [46] 將現有的RGB跟蹤器分為生成性跟蹤器和判別性跟蹤器。Javed等人 [43] 介紹了兩種廣為人知的RGB基VOT框架,即DCF和Siamese。然而,這些以往的工作未包含最新流行的基于變換器的方法,而這些方法不僅建立了新的最先進的性能,還帶來了許多有洞察力的研究方向。此外,ICD框架的展示也不夠充分。而且,關于多模態VOT的綜述非常少,要么僅討論了兩種模態(RGB-Depth和RGB-TIR) [51],要么側重于多線索特征的融合(如顏色、梯度、輪廓、空間能量、熱輪廓等) [52]、[53]。在過去五年里,我們目睹了多模態VOT的顯著進展。同時,新的研究方向如基于LiDAR的VOT、RGB-LiDAR VOT和RGB-語言VOT相繼出現。然而,這些研究在以往的VOT綜述中未被很好地總結。 本文從數據模態的角度,系統地回顧了VOT方法,考慮了單模態VOT和多模態VOT的最新發展。我們在圖1中總結了所回顧的模態及其代表性示例、優缺點和應用。具體而言,我們首先概述了三種常見的單模態VOT方法:基于RGB、基于TIR和基于LiDAR的。接下來,我們介紹了四種多模態融合跟蹤方法,包括RGB-Depth、RGB-TIR、RGB-LiDAR和RGB-Language。除了算法外,我們還報告并討論了不同模態的VOT基準數據集及其結果。本文的主要貢獻總結如下:

  1. 我們從數據模態的角度全面回顧了VOT方法,包括三種常見的單模態(RGB、TIR、LiDAR)和四種多模態(RGB-Depth、RGB-TIR、RGB-LiDAR、RGB-Language)。據我們所知,這是第一篇綜述工作,展示了新興的基于LiDAR、RGB-LiDAR和RGB-Language的VOT方法。
  2. 我們總結了四種廣泛使用的基于深度神經網絡的單模態跟蹤器框架,抽象出其架構并展示了其對應的定制繼承者。
  3. 我們提供了對VOT社區中300多篇論文的全面回顧,涉及最新和先進的方法,為讀者提供了最先進的技術和工作流程。
  4. 我們對不同模態的現有方法在廣泛使用的基準測試中的表現進行了廣泛比較,并最終給出了深刻的討論和有前景的未來研究方向。

本文的其余部分安排如下:第2節介紹現有的VOT綜述,并闡述本文的不同方面。第3節回顧了使用不同單一數據模態的VOT方法及其比較結果。第4節總結了多模態VOT方法。第5節介紹了不同模態的VOT數據集。最后,第6節討論了VOT的未來發展潛力。由于篇幅限制,部分結果表格,包括單模態和所有多模態結果,已移至附錄A,且不同模態的VOT數據集介紹見附錄B。

付費5元查看完整內容

摘要—遙感中的時序圖像分析傳統上集中于變化檢測,即識別在不同時間拍攝的圖像之間的變化區域。然而,變化檢測仍然局限于其對視覺層面解讀的關注,往往缺乏上下文或描述性信息。視覺-語言模型(VLMs)的興起為遙感時序圖像分析引入了一個新維度,通過將視覺信息與自然語言相結合,為時序圖像變化的高級解讀開辟了新的方向。遙感時序視覺-語言模型(RSTVLMs)允許動態交互,生成描述性字幕、回答問題,并提供對時序圖像更豐富的語義理解。這種時序視覺-語言能力對于復雜的遙感應用尤為重要,其中高層次的洞察力至關重要。本文全面回顧了RSTVLM研究的進展,重點介紹了最新的VLM在時序圖像分析中的應用。我們對核心方法、數據集和評估指標進行了分類和討論,突出了時序視覺-語言任務中的最新進展,并概述了該新興領域的主要挑戰和未來研究方向。本綜述填補了文獻中的關鍵空白,提供了RSTVLM的綜合概述,為遙感時序圖像理解的進一步發展奠定了基礎。我們將在//github.com/Chen-Yang-Liu/Awesome-RS-Temporal-VLM上持續追蹤相關工作。

關鍵詞—遙感,時序圖像理解,視覺-語言模型,大型語言模型。

I. 引言遙感技術通過衛星、無人機等各種平臺獲取地球表面的圖像信息【1】–【4】。它在環境監測、城市規劃、災害預警和評估等關鍵領域中發揮著重要作用【5】–【8】。早期的遙感圖像解譯主要集中于單時相圖像的分析,包括土地覆蓋分類【9】、物體檢測【11】【12】和語義分割【13】【14】等任務。然而,單時相圖像僅反映特定時刻的表面狀況,無法捕捉跨時間的動態變化。隨著遙感技術和設備的快速進展,獲取多時相遙感圖像的能力得到了顯著提高【15】–【17】。多時相遙感圖像提供了不同時間點下某些位置的表面特征信息,為地表變化的動態監測開辟了新途徑【18】【19】。這一時序維度至關重要,因為它使研究人員能夠分析隨時間變化的趨勢,從而對環境動態有更全面的了解。早期的時序圖像理解主要集中于變化檢測技術,通過比較不同時間段的圖像來定位變化區域,如植被覆蓋變化或新建筑物的出現【20】【21】。然而,變化檢測通常僅在視覺層面上檢測變化位置,缺乏對變化的更高層次語義理解,如變化對象的類型、變化過程中的狀態,以及對象之間的關系【22】–【24】。近年來,像Llava【25】和GPT-4【26】等視覺-語言模型(VLMs)取得了突破性進展,推動了多模態研究領域對視覺-語言模型的關注【27】–【29】。VLMs結合了計算機視覺和自然語言處理技術,能夠全面理解視覺和文本信息。與專注于單一圖像模態的視覺模型不同,VLMs不僅識別圖像中的目標對象,還理解它們之間的關系,生成描述性語言或回答問題。這一能力在遙感領域具有巨大的應用潛力【30】–【32】。在遙感領域,已有研究探討了各種視覺-語言模型,如圖像描述【33】–【36】、視覺問答(VQA)【37】–【40】、視覺問題生成【41】【42】、圖像檢索【43】–【45】和視覺定位【46】–【48】等。一些近期的研究探索了基于大型語言模型(LLMs)的遙感視覺語言模型,如RSGPT【49】、GeoChat【50】、H2RSVLM【51】、LHRS-Bot【52】和EarthGPT【53】。然而,這些VLMs主要關注單時相遙感圖像,無法實現多時相遙感圖像的理解。隨著VLM的不斷發展,針對多時相遙感圖像的研究進入了一個新的發展階段。研究人員越來越多地探索專為時序圖像理解設計的遙感時序視覺-語言模型(RS-TVLMs),涉及變化描述【22】【23】和變化視覺問答【54】【55】等任務。RS-TVLMs的研究豐富了時序圖像解譯的工具。語言作為人類溝通和知識的載體【56】,在融入時序圖像分析時能夠增強模型的高層次理解。通過將時序視覺信息與語言結合,RS-TVLMs不僅可以識別目標和變化,生成描述性文字,回答相關問題,還能進行多模態交互,從而將時序圖像的解譯擴展到超越單純的視覺判斷。圖1展示了一些具有代表性的RS-TVLM及其發表日期,表明該領域的研究可追溯到2021年。目前,相關研究數量正在迅速增加。盡管RS-TVLMs的研究興趣日益增長,但系統性的綜述仍然較少。現有的許多研究集中于特定任務的孤立方法,這使得研究人員很難全面了解該領域的進展和未來方向。貢獻。鑒于RS-TVLMs的快速進展和良好的發展前景,我們撰寫了本綜述,旨在讓研究人員了解基本概念、主要方法、數據集、評估指標及變化描述和變化視覺問答等任務的當前進展。據我們所知,這是關于RS-TVLMs的首篇綜述。通過回顧現有研究,我們希望為該領域的研究描繪清晰的路徑和未來方向,彌補當前相關綜述中的空白,并為遙感時序圖像理解的RS-TVLM研究奠定基礎。IV. 遙感時序視覺-語言模型目前,遙感時序圖像中的視覺-語言理解研究主要集中在幾個關鍵領域:變化描述、變化視覺問答、變化檢索和變化定位。這些任務旨在通過多模態建模和語言理解增強遙感時序圖像的解譯。此外,隨著大型語言模型(LLMs)的發展,一些近期的研究探索了將LLMs集成進來,進一步提升遙感時序圖像的視覺-語言理解。

A. 遙感變化描述

當前,遙感時序圖像的視覺-語言理解研究主要集中在遙感變化描述(RS-CC)任務上。該任務旨在生成詳細準確的自然語言,描述不同時間拍攝的遙感圖像中的地理特征變化【22】【23】【140】。這種描述有助于用戶快速理解關鍵變化,并為時序遙感數據的決策和分析提供直觀的語義支持。變化描述要求模型準確識別重要變化,并將其轉化為自然、連貫的語言。這個轉化過程不僅依賴于精確的視覺變化識別,還要求具有較強的語言生成能力,以確保語言的準確性和流暢性。以往的變化描述方法通常基于深度學習,并遵循三階段架構,如圖4所示:視覺編碼、雙時相融合和語言解碼。每個階段對整體模型性能有重要影響,因此近期的研究集中在提高這三個階段的性能。表I總結了一些代表性的方法。視覺編碼旨在從雙時相圖像中提取豐富的語義特征,通常采用Siamese編碼器以促進雙時相圖像之間的比較。編碼器通常基于卷積神經網絡(CNNs)或視覺變換器(ViTs)。CNNs在捕捉空間細節方面表現優異,而ViTs則通過全局注意力機制提取廣泛的地理信息。許多方法利用預訓練的圖像編碼器,如ResNet【141】或ViT【142】。例如,Chang等人【22】使用ResNet-101作為編碼器,Liu等人【143】使用ViT,并比較了在ImageNet【144】和CLIP【145】上訓練的ViT的性能。此外,一些研究探索了通過自監督學習訓練專門適應變化提取的編碼器。例如,Zhou等人【24】提出了一種在大規模雙時相遙感圖像數據集上預訓練的單流提取器,顯著增強了變化特征提取的魯棒性。大多數研究集中在提高雙時相融合階段的模型性能,這是變化描述的核心階段。該階段旨在整合雙時相特征,捕捉潛在的時序變化模式。在雙時相融合過程中,模型應準確識別兩張圖像之間的顯著差異,同時抑制無關的偽變化(例如,由于光照或天氣變化導致的變化)。以往的研究通常采用CNN或Transformer作為基本模塊,并提出一些注意力機制來增強模型的變化感知能力。例如,Liu等人【23】提出了一種基于Transformer的方法,稱為RSICCformer,該方法由多個交叉編碼模塊組成,利用差異特征,允許模型關注每張圖像中的變化區域。此外,研究人員還將多尺度策略融入到方法中,以進一步增強模型識別多樣變化的能力【148】【149】。語言解碼器將融合后的視覺特征轉化為自然語言描述。早期的方法使用支持向量機(SVM)或長短期記憶(LSTM)網絡進行語言生成。Chouaf和Hoxha等人【150】【151】比較了RNN和支持向量機(SVM)作為語言解碼器的性能。鑒于Transformer解碼器具有強大的生成能力,RSICCformer【23】首次將Transformer引入遙感變化描述任務,采用交叉注意力機制,使模型在生成單詞時能專注于特定的圖像區域。盡管Transformer表現良好,但隨著序列長度的增加,模型的計算復雜度呈平方級增長。為了解決這一挑戰,近期的研究引入了Mamba模型【116】,該模型以線性復雜度運行。Liu等人【122】提出了空間差異感知SSM(SDSSM)和時空遍歷SSM(TT-SSM)以改善時空聯合建模的能力。此外,他們比較了三種不同的語言解碼器,包括Mamba、生成預訓練Transformer(GPT)風格解碼器和Transformer解碼器。上述的編碼-融合-解碼框架以耦合方式處理變化和不變的圖像對。與此不同,Liu等人【143】提出了一種解耦范式,將變化描述解耦為兩個問題:“是否發生變化”和“發生了什么變化”。他們將解耦結果輸入到預訓練的大型語言模型(LLM)中,通過多提示學習策略進行語言生成。解耦范式使研究人員能夠獨立集中于改善變化圖像對和不變圖像對的描述。

B. 變化檢測與描述的多任務學習

在遙感時序圖像分析中,變化檢測和變化描述任務側重于不同層次的變化信息提取【103】【166】。變化檢測主要關注生成像素級的變化掩膜,通過雙時相圖像識別和突出變化區域。相比之下,變化描述則旨在對這些變化進行語義層次的理解,包括對象屬性和上下文關系。鑒于這兩個任務之間的內在聯系,近期的研究將變化檢測和變化描述整合為統一的多任務學習框架,以提高變化解譯的整體效率和準確性。表II總結了一些代表性的方法。Change-Agent【103】是該領域的代表性工作之一,建立了一個多任務學習框架,為后續的研究奠定了基礎【166】–【170】。如圖5所示,該框架基于共享的視覺編碼器,分別為變化檢測和變化描述任務采用兩個任務特定的分支。在視覺編碼階段,模型從雙時相圖像中提取時序特征,這些融合的特征為每個任務的后續分支提供支持。值得注意的是,與傳統的變化檢測模型類似,變化檢測分支通常利用視覺編碼器提取的多尺度雙時相特征,以確保變化掩膜的精確性和細節。與此同時,變化描述分支通常僅利用最深層的視覺特征,關注變化的語義,設計上與單任務變化描述模型相似。在多任務框架中平衡兩項任務的訓練是一項關鍵挑戰。當前的研究通常應用加權損失,通過不同的權重將變化檢測和變化描述的損失結合起來。例如,文獻【166】采用了通過調整輔助任務梯度大小的元平衡策略【171】,而【169】和【170】則采用了動態權重平均策略【172】。此外,一些近期研究探索了變化檢測如何專門幫助變化描述提高描述的準確性【163】【173】。核心思想是,像素級的變化檢測能夠增強變化描述模型識別變化的能力,特別是在低光照條件下或針對小結構的變化。例如,MV-CC【163】使用低分辨率的變化檢測掩膜作為顯式指導,幫助模型準確關注變化區域。 C. 遙感變化視覺問答

遙感變化視覺問答(RS-CVQA)任務旨在根據時間變化的遙感圖像和用戶特定問題生成自然語言回答。與變化檢測和圖像標注任務不同,RS-CVQA強調用戶與時間變化圖像之間的互動語言交流,提供了一種更加靈活和高效的方式來獲取圖像中變化的信息。圖6展示了一個典型的RS-CVQA模型框架,包括以下關鍵階段:視覺編碼、問題編碼、多模態交互和答案生成。一些代表性的方法在表III中進行了總結。在視覺編碼階段,模型通常采用雙重編碼器分別從雙時相遙感圖像中提取特征,并融合這些時間特征以捕捉圖像中的變化信息。 在問題編碼階段,通常使用預訓練的語言模型(如BERT [130] 或 GPT [174])將用戶的復雜問題轉化為適合模型理解的語義嵌入。 在多模態交互階段,廣泛應用注意力機制(如自注意力和交叉注意力)來對齊和融合視覺變化與語言特征,使得模型能夠根據問題中的語義提示,關注圖像中的關鍵變化區域。這種多模態交互增強了模型對圖像變化的理解,并確保生成的答案與視覺內容緊密相關。 最后,答案生成階段將融合的多模態特征轉化為自然語言回答。根據答案生成方法,RS-CVQA方法大致分為兩類:基于候選答案的RS-CVQA和逐字生成的RS-CVQA。在基于候選答案的RS-CVQA中,答案生成模塊被設計為多類別分類器,從預定義的候選答案集中選擇最佳答案。Yuan等人[175]首次提出了這個任務,將答案分為幾個固定類別,并允許分類器從中直接選擇答案。這種方法計算效率高且穩定,適用于目標明確且變化類型固定的任務。然而,由于其依賴于有限的預定義答案池,這種方法的靈活性較差,可能不適用于處理更復雜、開放性的問題。 相比之下,逐字生成的RS-CVQA采用生成語言模型(如Transformer解碼器)逐字生成答案。這種方法更適合開放性問題,能夠生成靈活且細膩的回答。隨著大規模語言模型(LLM)的興起,基于生成模型的RS-CVQA逐漸成為主流,許多最新的方法開始整合LLM,以提供更豐富的答案生成能力。例如,ChangeChat[176]和CDChat[177]使用與先前的LLava[25]和Minigpt-4[178]類似的架構,使用雙時相視覺嵌入和用戶文本嵌入作為LLM Vicuna-v1.5[179]的前綴。 D. 遙感文本到變化檢索

隨著遙感圖像數據的快速增長,如何高效地檢索符合特定用戶需求的圖像,已成為環境監測、災害評估和城市規劃等領域的關鍵問題。傳統的基于文本的圖像檢索技術將用戶提供的查詢文本與單時相圖像進行匹配。然而,這種技術忽略了遙感圖像中的時間變化,難以滿足用戶對動態場景的檢索需求。 遙感文本到變化檢索(RSI-TCR)應運而生,以解決這一限制。其核心目標是高效檢索符合用戶輸入查詢描述的圖像變化的雙時相圖像對。RSI-TCR顯著減少了篩選大規模數據集所需的人工工作量,提高了龐大遙感數據集的可用性。這項技術在實際場景中展現了巨大的價值。例如,在災害管理中,RSI-TCR可以根據查詢文本(如“洪水淹沒”)迅速定位受影響區域的時相圖像,為災后應急響應提供必要的數據。 與傳統的基于文本的圖像檢索任務(通常涉及“文本”和“圖像”之間的二元匹配)相比,RSI-TCR更加復雜,因為它需要進行三模態匹配——“事件前圖像”、“事件后圖像”和“文本”。這種復雜性要求模型在多模態語義空間內處理時空變化和文本信息之間的復雜關系。Ferrod等人[102]首次使用LEVIR-CC數據集[23]研究了RSI-TCR任務,并提出了該任務的框架,如圖7所示。在他們的方法中,Chg2Cap模型[22]的編碼器被用來從雙時相圖像中提取語義變化嵌入。用戶提供的查詢文本通過Transformer解碼器編碼為文本嵌入。然后,他們通過對比學習損失函數(特別是InfoNCE [181])將圖像變化嵌入與查詢文本嵌入對齊。RSI-TCR中的核心挑戰之一是偽負樣本的問題。具體來說,在訓練批次中標記為負樣本的圖像對,實際上可能是與查詢文本匹配的正樣本,這可能干擾模型訓練。這個問題在許多使用對比學習的任務中都很常見,并且已有解決方案來應對這個問題[182][183]。為了解決這個問題,Ferrod等人[102]采用了兩種常見的策略來提高復雜變化場景中的檢索精度:1)偽負樣本排除(FNE):排除可能的偽負樣本以防干擾。2)偽負樣本吸引:將可能的偽負樣本重新標記為正樣本,以更好地對齊數據中的真實關系。E. 遙感變化定位

遙感變化定位(RS-CG)旨在在雙時相遙感圖像中識別和定位由用戶提供的查詢文本所指示的變化區域。通過將自然語言作為查詢模態,RS-CG顯著增強了用戶交互的靈活性,相比傳統的變化檢測方法(僅限于固定類別的輸出)。RS-CG的輸出通常以兩種形式呈現:邊界框和像素級掩模,如圖8所示。 邊界框通過矩形輪廓標注變化區域,提供目標變化的直觀空間位置。而像素級掩模則提供變化區域形狀和邊界的精確劃分,非常適合細粒度分析。 Irvin等人[101]采用了受LLaVA-1.5[25]啟發的模型架構。他們使用時間共享的ViT-L/14對時間變化圖像進行編碼,通過MLP將嵌入映射后再送入LLaMA-2[107]。LLM輸出邊界框的坐標,以文本格式有效地將檢測到的變化定位到輸入查詢中。Li等人[55]提出了一種名為VisTA的新型多任務模型,設計用于變化檢測問答和定位。VisTA不僅能夠回答用戶問題,還能同時生成與文本答案相關的像素級變化掩模。文本答案通過雙層MLP生成,而掩模解碼器由兩個注意力模塊組成。這種雙重輸出方法使VisTA能夠提供語義和視覺的雙重解釋,成為RS-CG任務的多功能解決方案。

結論通過將計算機視覺與自然語言處理相結合,遙感時間變化視覺語言模型(RS-TVLMs)大大增強了分析時間變化遙感數據的能力,在災害監測、環境分析和城市規劃等領域具有廣泛應用。本文綜述了RS-TVLMs的進展,包括基本概念、主要方法、數據集和評估指標。通過回顧現有研究,我們旨在為該領域的研究提供清晰的發展路徑和未來方向。此外,仍然存在一些挑戰,如大規模數據集的收集、基礎模型的設計以及多時相圖像序列的處理等。

付費5元查看完整內容

摘要——基于用戶指定要求的條件圖像生成是創建復雜視覺內容的關鍵組件。近年來,基于擴散的生成模型已成為條件圖像生成的一個非常有效的方法,導致了相關文獻的爆炸式增長。然而,擴散模型的復雜性、圖像生成任務的廣泛性以及條件機制的多樣性,為研究人員跟上快速發展的步伐并理解該主題的核心概念帶來了巨大挑戰。在本綜述中,我們根據條件如何融入擴散模型的兩個基本組件(即去噪網絡和采樣過程)對現有工作進行分類。我們特別強調了在訓練、重用和專門化階段構建理想去噪網絡時,各種條件方法的基本原理、優點和潛在挑戰。我們還總結了在核心采樣過程中使用的六種主流條件機制。所有討論都圍繞流行的應用展開。最后,我們指出了一些關鍵但仍未解決的未來問題,并提出了一些可能的解決方案。我們審閱的相關工作列在 //github.com/zju-pi/Awesome-Conditional-Diffusion-Models。

關鍵詞——生成模型,擴散模型,條件圖像生成,條件集成。

I. 引言

圖像生成是生成式人工智能的一個重要任務。當結合用戶提供的條件來生成符合不同用戶需求的圖像時,它的實用性會更大。早期的研究在各種條件圖像生成任務中取得了重大突破,如文本到圖像生成 [37, 41, 156, 159, 239]、圖像修復 [87, 88, 125, 210] 和圖像編輯 [1, 10, 107]。然而,早期基于深度學習的生成模型(如生成對抗網絡 (GANs) [49, 131]、變分自編碼器 (VAEs) [81, 185] 和自回歸模型 (ARMs) [199, 200])在條件圖像生成中的表現并不令人滿意,這是由于它們的內在局限性:GANs 容易出現模式崩潰和訓練不穩定的問題 [49];VAEs 通常生成模糊的圖像 [81];而 ARMs 則存在順序誤差積累和耗時巨大的問題 [200]。

近年來,擴散模型 (DMs) 作為最先進的圖像生成模型嶄露頭角,憑借其強大的生成能力和多功能性,得到了廣泛認可 [20, 57, 71, 184, 191]。在擴散模型中,圖像是通過引導去噪網絡預測的迭代去噪步驟從高斯噪聲中生成的。這種獨特的多步采樣過程使得擴散模型能夠實現出色的生成性能,表現為穩定的訓練、豐富的輸出和卓越的樣本質量。此外,與一步生成模型相比,擴散模型在促進條件集成方面具有獨特優勢。這些優點使得擴散模型成為條件圖像生成的首選工具,近年來基于擴散的條件圖像生成 (DCIS) 研究得到了迅速發展 [25, 45, 56, 75, 118, 160, 167, 168, 209, 242, 247]。圖1展示了使用多種輸入模態的七個流行的 DCIS 任務。

隨著相關研究的快速擴展,模型架構、訓練方法和采樣技術的眾多變化,以及潛在的條件生成任務的廣泛性,研究人員很難全面掌握 DCIS 的全貌。這種復雜性對該領域的新手來說尤為具有挑戰性。當前需要的是一項系統性的綜述,提供對這一快速發展的研究領域的全面且結構化的概述。

已有一些關于特定條件圖像生成任務的綜述,如圖像修復 [238]、文本到圖像生成 [103] 和圖像編輯 [64],或根據目標條件生成任務對計算機視覺領域的相關工作進行分類的研究 [32, 149]。雖然這些面向任務的綜述為其各自目標任務的方法提供了寶貴的見解,但它們并未涵蓋不同條件生成任務在模型框架中的共同特征,特別是在模型架構和條件機制方面。最近的兩篇綜述 [14, 182] 提供了基于擴散模型的廣泛任務的概述,但它們的范圍有限,主要集中于構建在文本到圖像 (T2I) 框架上的 DCIS 工作,忽略了早期將條件集成到無條件去噪網絡中的工作,或涉及從頭開始訓練特定任務的條件去噪網絡的工作。這些早期工作為當前使用 T2I 框架的 DCIS 進展奠定了基礎,并且在低級任務如圖像修復中仍然廣泛應用。此外,[182] 主要關注基于擴散模型的圖像編輯框架,缺乏對該領域其他任務統一框架的系統分析,而 [14] 并未深入探討模型架構的設計選擇和采樣過程中詳細的條件機制。因此,它們的分類方法缺乏系統性,并遺漏了 DCIS 領域中的一些關鍵相關工作。

相較之下,本綜述旨在提供一個全面且結構化的框架,涵蓋當前廣泛的 DCIS 研究工作,基于 DCIS 框架中條件集成的主流技術提供分類方法。我們對構建具有條件集成的 DCIS 框架所涉及的組件和設計選擇進行了清晰而系統的分解。具體來說,我們通過審查和總結現有的 DCIS 方法,探討條件如何集成到擴散建模的兩個基本組件中:去噪網絡和采樣過程。在去噪網絡方面,我們將構建條件去噪網絡的過程分為三個階段。在采樣過程中,我們將六種主流的采樣中條件機制進行分類,詳細說明控制信號如何集成到采樣過程的各個組件中。我們的目標是為讀者提供跨不同任務的現有 DCIS 工作的高層次和易于理解的概述,使他們能夠設計適用于其所需任務的條件生成框架,包括尚未探索的新任務。

本綜述的其余部分組織如下:首先在第二部分介紹擴散模型的背景和條件圖像生成任務。接下來,我們在第三部分總結去噪網絡中的條件集成方法,并在第四部分總結采樣過程中的方法。最后,我們在第五部分探討未來的潛在方向。圖2展示了本文提出的 DCIS 分類體系。

付費5元查看完整內容

摘要—文本到圖像 (T2I) 擴散模型 (DMs) 因其在圖像生成方面的顯著進展而受到廣泛關注。然而,隨著其日益普及,與信任度的關鍵非功能性屬性相關的倫理和社會問題也日益凸顯,例如魯棒性、公平性、安全性、隱私性、事實性和可解釋性,這些問題與傳統深度學習 (DL) 任務中的類似問題相似。由于 T2I DMs 的獨特特性,例如其多模態性,傳統的研究深度學習任務信任度的方式往往不足以應對這些問題。鑒于這一挑戰,近年來一些新方法被提出,通過偽造、增強、驗證與確認以及評估等多種方式來研究 T2I DMs 的信任度。然而,關于這些非功能性屬性和方法的深入分析仍然相對缺乏。在本次調研中,我們對可信的 T2I DMs 文獻進行了及時且重點突出的回顧,涵蓋了從屬性、手段、基準和應用等角度構建的簡明分類結構。我們的調研首先介紹了 T2I DMs 的基本知識,隨后總結了 T2I 任務特有的關鍵定義/指標,并基于這些定義/指標分析了最新文獻中提出的研究手段。此外,我們還回顧了 T2I DMs 的基準測試和領域應用。最后,我們指出了當前研究中的空白,討論了現有方法的局限性,并提出了未來研究方向,以推動可信 T2I DMs 的發展。此外,我們還通過我們的 GitHub 倉庫(//github.com/wellzline/Trustworthy-T2I-DMs)保持領域最新進展的更新。 關鍵詞—文本到圖像擴散模型,人工智能安全,可靠性,負責任的人工智能,基礎模型,多模態模型。

1. 引言

文本到圖像 (T2I) 擴散模型 (DMs) 在生成高保真圖像方面取得了顯著進展。通過簡單的自然語言描述生成高質量圖像的能力,可能會為多個現實世界的應用帶來巨大好處,如智能汽車 [1], [2], [3]、醫療保健 [4], [5], [6],以及一系列不受領域限制的生成任務 [7], [8], [9], [10], [11]。擴散模型是一類概率生成模型,它通過先注入噪聲再進行逆過程來生成樣本 [12]。T2I DMs 是其中的一種特殊實現,通過描述性文本作為指導信號來引導圖像生成。像 Stability AI 的 Stable Diffusion (SD) [13] 和 Google 的 Imagen [14] 這樣的模型,經過大規模帶注釋的文本-圖像對數據集訓練,能夠生成照片般真實的圖像。商業產品如 DALL-E 3 [15] 和 Midjourney [16] 在多個 T2I 應用中展示了令人印象深刻的能力,推動了該領域的發展。 然而,類似于傳統深度學習 (DL) 系統 [17], [18], [19],T2I DMs 的日益普及和進步也引發了倫理和社會問題 [20], [21], [22],特別是圍繞信任度的一系列非功能性屬性問題,包括魯棒性、公平性、安全性、隱私性、事實性和可解釋性。然而,由于 T2I DMs 的獨特特性,傳統 DL 的信任度研究方法并不直接適用于它們。這里有兩個主要區別:(1) 傳統的信任度研究通常針對單一模態系統,無論是文本 [23], [24] 還是圖像 [25], [26],而 T2I DMs 涉及多模態任務,處理輸入(文本)和輸出(圖像)等更為多樣的數據結構 [27],這使得傳統 DL 任務中提出的黑箱信任度方法不再適用;(2) 與傳統的確定性 AI 模型(如用于 DL 分類任務的模型)相比,T2I DMs 的生成機制有所不同。即使與生成式對抗網絡 (GANs) 等隨機生成式 AI 模型相比,T2I DMs 的訓練目標和基礎算法也有本質區別 [28], [29], [30]。因此,傳統 DL 的白箱方法無法直接應用于 T2I DMs。T2I DMs 的這些獨特特性要求開發新的方法來應對其特定的信任度挑戰。 為應對這一挑戰,近年來涌現了大量關于 T2I DMs 信任度的研究。然而,社區中仍然缺乏專門針對這一關鍵且新興領域的調查研究。為此,本次調研旨在填補這一空白——提供一份關于 T2I DMs 信任度的及時且重點突出的文獻綜述。

范圍、分類和術語

在本次調研中,我們特別關注 T2I DMs 信任度的六個關鍵非功能性屬性1:魯棒性、公平性、安全性、隱私性、事實性和可解釋性。此外,我們通過四種方式探討這些屬性:偽造、增強、驗證與確認 (V&V) 以及評估。我們對屬性和手段的選擇基于傳統 DL 系統中常研究的信任度和安全性方面 [17], [31], [32],這些系統定義了一組類似的屬性,僅在命名上略有不同。此外,我們還總結了 T2I DMs 的幾個基準測試和應用領域。該分類如圖 1 所示。 圖 1. 可信 T2I DMs 的分類。

我們現在為每個屬性提供非正式定義,正式定義將在后面介紹:

  • 魯棒性 是指模型在面對“小”輸入擾動時保持一致性能的能力。
  • 公平性 是確保模型輸出不會偏向或歧視某些個人或群體。
  • 安全性(本文中特別關注后門攻擊)涉及保護模型免受隱藏漏洞的攻擊,這些漏洞可能在特定輸入觸發時導致惡意預測。
  • 隱私性 是指訓練模型可能無意中泄露訓練數據中的敏感信息的風險。
  • 可解釋性 旨在使模型的內部工作機制變得可理解,為模型如何做出決策提供洞見。
  • 事實性 是指生成的圖像與文本描述的常識或事實保持一致,而不僅僅是與文本提示相匹配。

此外,我們將研究這些屬性的四種主要手段進行分類:

  • 偽造 涉及通過設計和執行復雜攻擊暴露模型的漏洞,從而展示模型的缺陷或弱點。
  • 驗證與確認 (V&V) 側重于確保模型的正確性,檢查其是否符合預定義的(正式)規范。
  1. 非功能性屬性(也稱為質量屬性)指的是描述系統如何執行其功能的特性,而不是系統執行什么功能。
  • 評估 類似于 V&V,但不針對特定規范,而是設計和應用指標來評估模型。
  • 增強 涉及實施對策以保護模型免受各種威脅或修復影響模型信任度的缺陷。

總而言之,在本次綜述的范圍內,偽造旨在“查找漏洞”,評估旨在設計信任度測量規范,V&V 旨在實施符合過程,最后,增強旨在設計附加機制。

相關綜述

擴散模型 (DMs) 在多個領域取得了顯著的性能提升,極大地推動了生成式 AI 的發展。已有若干綜述總結了 DMs 的進展,包括通用綜述 [33], [34] 以及專注于特定領域的綜述,如視覺 [35]、語言處理 [36], [37]、音頻 [38]、時間序列 [39] 和醫學分析 [40]。此外,還有綜述涵蓋了 DMs 在不同數據結構中的應用 [41]。然而,這些綜述都未專門針對文本到圖像 (T2I) 任務。 在 T2I DMs 領域,一些評論深入探討了功能性屬性 [27], [42], [43],但它們忽略了非功能性屬性。相比之下,我們的工作聚焦于信任度,提供了對研究非功能性屬性的現有方法的及時分析,并指出了當前研究的局限性。此外,一些研究分析了 T2I DMs 的特定屬性,如可控生成。例如,[44] 重點分析了新條件在 T2I 模型中的集成及其影響,而 [45] 探討了文本編碼器在 T2I DMs 圖像生成過程中的作用。最近的工作 [46] 調查了多種類型的攻擊,包括對抗性攻擊、后門攻擊和成員推斷攻擊 (MIAs),以及相應的防御策略。然而,這些綜述都沒有全面探討信任度作為一組屬性和手段的關鍵問題。據我們所知,本工作是第一個全面深入分析 T2I DMs 的信任度非功能性屬性及其應對手段的研究,同時涵蓋了它們的基準和應用。

貢獻

總而言之,我們的主要貢獻如下:

  1. 分類法:我們提出了一個簡明的可信 T2I DMs 分類法,涵蓋三個維度——非功能性屬性的定義、研究這些屬性的手段以及基準和應用。
  2. 綜述:我們圍繞提出的信任度分類法進行了一項及時且重點突出的綜述,匯集了71篇相關論文。
  3. 分析:我們對六個與信任度相關的非功能性屬性和四種手段進行了深入分析,概括了所綜述論文中的解決方案,進行了比較,識別了模式和趨勢,并總結了關鍵論點。
  4. 空白和未來方向:我們為每個屬性和手段識別了研究空白,指出了現有工作的局限性,并提出了推動可信 T2I DMs 發展的未來研究方向。

付費5元查看完整內容

摘要——從演示中學習(Learning from Demonstrations),即通過數據學習機器人行為模型的領域,隨著深度生成模型的出現,正在越來越受到關注。盡管這一問題在“模仿學習”、“行為克隆”或“逆強化學習”等名稱下已經被研究了多年,但傳統方法依賴的模型往往難以有效捕捉復雜的數據分布,或者無法很好地擴展至大量演示數據。近年來,機器人學習社區對于使用深度生成模型來捕捉大數據集的復雜性表現出了越來越濃厚的興趣。在本綜述中,我們旨在提供對去年機器人領域中使用深度生成模型的進展的統一且全面的回顧。我們介紹了社區探索的不同類型的模型,如基于能量的模型、擴散模型、動作值圖、生成對抗網絡等。我們還展示了深度生成模型在不同應用中的使用情況,從抓取生成到軌跡生成或成本學習等。生成模型的一個重要元素是分布外的泛化能力。在我們的綜述中,我們回顧了社區為改善所學模型的泛化能力而做出的不同決策。最后,我們強調了研究中的挑戰,并提出了未來在機器人領域學習深度生成模型的一些研究方向。關鍵詞——機器人,生成模型,決策制定,控制,模仿學習,行為克隆,從演示中學習

I. 引言**

從演示中學習(Learning from Demonstration, LfD)[1], [2],也稱為模仿學習(Imitation Learning)[3], [4],是通過觀察和模仿一組專家演示來學習期望的機器人行為模型的領域**。基于場景的觀察和所需任務的條件,模型(通常稱為策略)被訓練生成與專家演示中行為相似的動作。根據任務的不同,這些動作可能代表期望的末端執行器姿態 [5], [6]、機器人軌跡 [7], [8] 或期望的場景安排 [9], [10] 等。LfD 包括幾種解決這一問題的方法。行為克隆(Behavioral Cloning, BC)方法 [1] 將條件生成模型擬合到基于觀察的動作上。盡管在序列決策問題中存在一些缺點(例如,錯誤累積導致的協變量偏移 [11]),但在實踐中,由于其穩定且高效的訓練算法,它已經展示了一些最為令人印象深刻的結果 [6], [12], [7], [13]。另一種方法是逆強化學習(Inverse Reinforcement Learning, IRL)[14], [15], [16] 或其變體 [17], [18], [19],結合了演示數據與環境中的試錯(即強化學習(Reinforcement Learning, RL)),生成的策略比 BC 更具魯棒性,但受到訓練算法穩定性較差的限制。與直接模仿演示動作的 BC 不同,IRL 側重于推斷演示行為所優化的潛在獎勵函數,并應用 RL 來推斷策略。IRL 的一個關鍵優勢在于它能夠僅通過觀察進行學習 [20], [21],而無需明確的演示動作信息。在 LfD 中,演示的固有特性帶來了重大挑戰。通常,收集的數據是次優的、噪聲較大的、基于高維觀察條件的,并且包含多種行為模式 [22], [23], [24]。這種多樣性可以在對給定物體的多種抓取方式、專家提供演示的偏好或專家之間的分歧中體現出來。數據的這些固有屬性促使研究人員尋找能夠恰當地捕捉其分布的模型。傳統上,在深度學習成為主流之前,LfD 方法通常使用高斯過程(Gaussian Process, GP)[25], [26]、隱馬爾可夫模型(Hidden Markov Model, HMM)[27], [28] 或高斯混合模型(Gaussian Mixture Models, GMM)[29] 來表示生成模型。然而,這些模型無法擴展至大數據集,也無法在圖像等高維上下文中表示條件分布。基于神經網絡的模型允許在圖像 [30], [31] 或文本 [32], [33] 等高維變量上進行條件設定,但它們通常被訓練為單峰模型。這些模型與收集的演示數據的多模式特性相沖突。這些模型無法捕捉數據中的固有多樣性和多模式,導致研究人員不得不將自己局限于較小的 [34] 或高度策劃的數據集,以確保單峰性,從而簡化建模過程。

近年來,深度生成模型(Deep Generative Models, DGM)在圖像 [35] 和文本生成 [36] 中的成功展示了其捕捉高度多模態數據分布的能力。近年來,這些表現力強的模型在機器人領域的模仿學習應用中引起了廣泛關注(見圖2)。例如,擴散模型(Diffusion Models, DM)[37], [35] 已被有效用于學習高維軌跡分布 [38], [7], [8];基于語言和圖像的策略使用類似GPT的模型來表示動作空間中的類別分布 [39];變分自編碼器(Variational Autoencoders, VAE)[40] 被應用于生成任意物體的六自由度(6-DoF)抓取姿態 [5]。本文統一且全面地回顧了機器人領域中為捕捉數據固有的多模態性而從演示中學習 DGM 的各種方法。盡管其中一些模型借鑒了其他機器學習領域的成果,如 DM,但我們也重點介紹了在機器人動作分布表示中特別有影響力的方法,如動作價值圖(Action Value Maps)[41], [42], [43]。本綜述主要關注使用離線數據的方法,即不收集額外的在線或交互數據,以及離線監督,即除了專家動作外不使用額外的監督。盡管在從視覺到文本生成的各個領域中,從離線數據集中學習 DGM 已被廣泛研究,但機器人領域有其固有的挑戰,需要謹慎的設計選擇。為了激發機器人應用中的具體設計選擇,我們將在 I-A 節中介紹從演示中學習策略的基本挑戰。我們將綜述分為六個部分(見圖1): 在第二部分中,我們將形式化問題并提供整個綜述中使用的術語。 在第三部分中,我們介紹了機器人領域中最常用的 DGM,展示了它們的固有屬性,簡要列出了應用這些方法的各種工作,并介紹了每種模型的訓練和采樣算法。 在第四部分中,我們展示了深度生成模型應用的不同類型,重點介紹了模型生成的數據類型以及考慮的條件變量類型。 在第五部分中,我們提出了一系列設計和算法歸納偏差,以提高從學習模型的數據分布中的泛化能力。我們如何保證在上下文觀察中生成有用的動作,而這些動作在演示中沒有出現?我們提出的選項包括生成模型的模塊化組合、從觀察中提取有用特征以及利用觀察與動作之間的對稱性。 最后,在第六部分中,我們強調了該領域當前的研究挑戰,并提出了未來的研究方向。

A. 從離線演示中學習的挑戰從離線演示中學習機器人策略面臨著若干挑戰。盡管其中許多挑戰(例如演示中的多模態)與其他研究領域(如圖像生成或文本生成)共享,但在機器人領域中,我們還需要考慮一些特有的挑戰。以下是從離線數據中學習機器人策略的主要挑戰。演示的多樣性。主要挑戰之一是演示本身的固有變化。不同的演示者可能具有不同的技能水平、偏好和完成相同任務的策略,導致數據集中包含廣泛的方法。單峰分布缺乏表達能力,無法捕捉演示中的這種變化,從而導致性能不佳。DGM 是解決這一挑戰的有前景的方法。通過捕捉復雜的多模態分布,這些模型可以學習表示演示中展現的不同策略和行為。異質的動作和狀態空間。與數據空間定義明確的計算機視覺不同,在機器人領域中,沒有單一的狀態-動作空間。機器人動作可以包括從力矩命令到期望的目標位置或期望的軌跡。此外,機器人行為可以在機器人的配置空間和任務空間中建模。這種多樣性導致了異質的數據集和用于學習機器人策略的異質解決方案。部分可觀察的演示。當人類執行演示時,其動作不僅基于可觀察到的元素,還受到任務知識和觀察歷史影響的內部狀態驅動。此外,人類可以整合環境中的信息,這些信息可能無法被機器人的傳感器輕易獲得或觀察到,例如人類視覺捕捉到的外圍細節但被機器人的攝像頭遺漏。這種不匹配往往導致演示僅部分代表任務的上下文,從而導致機器人學習的策略中出現歧義。關于部分可觀測性的問題已經在文獻中得到了廣泛研究 [44]。一種常見的實際方法是將觀察歷史編碼為上下文,而不是單一的觀察,允許模型提取內部狀態,從而減少歧義 [45]。時間依賴性和長視距規劃。機器人任務通常涉及序列決策,其中動作在時間上是相互關聯的。這種序列性可能導致錯誤的累積,將機器人引向訓練演示中未遇到的情況。為解決此問題,已有多種方法提出。一些工作建議學習短視距技能,然后與高層規劃器連接。另一方向是,許多工作 [38], [13] 提出學習生成動作軌跡而不是單步動作的策略,從而減少序列累積錯誤。此外,其他選項包括在生成演示時注入噪聲 [46] 或交互式擴展數據集 [11]。訓練和評估目標之間的不匹配。從離線演示中學習通常被定義為密度估計問題。學習的模型經過訓練以生成類似于訓練數據集的樣本。然而,學習的模型用于解決特定任務,最大化的度量是任務成功率。這種訓練目標與評估目標之間的不匹配可能導致在機器人用于解決特定任務時表現不佳。解決這一問題的一個可能方向是將行為克隆階段與后續強化學習微調相結合 [47]。分布偏移和泛化。從離線演示中學習的一個基本挑戰是演示數據與實際場景之間的分布偏移,在這些場景中,學習的策略被部署。演示通常在受控環境或特定上下文中收集,但機器人必須在演示未覆蓋的潛在新環境中運行。這種不匹配可能導致泛化失敗和性能下降。解決這一挑戰需要能夠從給定演示中推斷并適應新環境的技術。我們將在第五部分中探討提高機器人應用中泛化能力的不同方法。

B. 相關綜述

LfD 領域有著悠久的歷史,已有多篇綜述對此進行了探討。在基于深度學習的方法成為主流之前,已有幾篇綜述 [50], [51], [52], [53] 探討了模仿學習的基本問題。這些綜述回答了諸如我們應該如何獲取數據?我們應該學習什么模型?或我們應該如何學習策略?等問題。近年來,一些最新的研究 [54], [3], [55] 更新了基于深度學習模型在 LfD 問題中的應用的綜述。特別是 [3] 從算法的角度審視了模仿學習,使得不同算法的比較可以從信息論的角度進行。機器人學習社區的當前階段,隨著大規模機器人演示數據集的增加(無論是在模擬中還是在現實中),模仿學習方法的重要性日益增加,以及廉價機器人硬件的日益普及,當前適時提供一個涵蓋過去幾年研究進展并專注于該領域當前面臨挑戰(多模態性、泛化、異質數據集等)的綜述。最近,幾篇綜述 [56], [57] 探討了學習機器人基礎模型的問題,主要集中在將互聯網規模的視覺和語言基礎模型整合到機器人問題中。盡管將視覺-語言基礎模型應用于機器人問題具有潛力,但我們的綜述關注于不同的問題。本綜述的興趣在于探索如何直接從具體現體機器人的數據中學習策略(部分原因是大規模數據集的日益豐富 [24], [58]),而不是將視覺-語言模型適應于機器人。

付費5元查看完整內容

摘要

深度長尾學習是視覺識別中最具挑戰性的問題之一,其目標是從大量遵循長尾類分布的圖像中訓練出性能良好的深度模型。在過去的十年中,深度學習已經成為一種學習高質量圖像表示的強大的識別模型,并導致了一般視覺識別的顯著突破。然而,長尾類不平衡是實際視覺識別任務中普遍存在的問題,這種不平衡往往限制了基于深度網絡的識別模型在實際應用中的實用性,因為長尾類容易偏向主導類,在尾類上的表現較差。為了解決這一問題,近年來人們進行了大量的研究,在深度長尾學習領域取得了可喜的進展。鑒于該領域的快速發展,本文對深度長尾學習的最新進展進行了綜述。具體地說,我們將已有的深度長尾學習研究分為三類(即類重平衡、信息增強和模塊改進),并根據這三類對這些方法進行了詳細的回顧。之后,我們通過一種新提出的評價指標,即相對準確性,來評估它們在多大程度上解決了階級失衡問題,從而對幾種最先進的方法進行了實證分析。最后,我們強調了深度長尾學習的重要應用,并確定了未來研究的幾個有前景的方向。

引言

深度學習允許由多個處理層組成的計算模型學習具有多級抽象[1]、[2]的數據表示,并在計算機視覺[3]、[4]、[5]、[6]、[7]、[8]方面取得了令人難以置信的進展。深度學習的關鍵因素是大規模數據集的可用性、GPU的出現和深度網絡架構[9]的進步。深度神經網絡具有很強的學習高質量數據表示的能力,在圖像分類[6]、[10]、目標檢測[7]、[11]和語義分割[8]、[12]等視覺識別任務中取得了巨大的成功。

在實際應用中,訓練樣本通常表現為長尾類分布,其中一小部分類有大量的樣本點,而其他類只與少數樣本[13],[14],[15],[16]相關。然而,這種訓練樣本數量的類不平衡,使得基于深度網絡的識別模型的訓練非常具有挑戰性。如圖1所示,訓練后的模型容易偏向訓練數據量大的頭類,導致模型在數據量有限的尾類上表現不佳。因此,經驗風險最小化[20]常用實踐訓練的深度模型無法處理長尾類不平衡的現實應用,如人臉識別[21],[22],物種分類[23],[24],醫學圖像診斷[25],城市場景理解[26],無人機檢測[27]。針對長尾類的不平衡,近年來開展了大量的深度長尾學習研究,包括[15]、[16]、[28]、[29]、[30]。盡管這一領域發展迅速,但仍沒有系統的研究來回顧和討論現有的進展。為了填補這一空白,我們旨在對2021年年中之前進行的近期長尾學習研究進行全面綜述。

如圖2所示,我們根據現有方法的主要技術貢獻將其分為三類,即類重平衡、信息增強和模塊改進;這些類別可以進一步分為九個子類別:重采樣、代價敏感學習、logit調整、遷移學習、數據增強、表示學習、分類器設計、解耦訓練和集成學習。根據這一分類,我們對現有的方法進行了全面的回顧,并對幾種最先進的方法進行了實證分析,使用一個新的評價指標,即相對準確性來評價它們處理類不平衡的能力。我們通過介紹幾個真實的深度長尾學習的應用場景,并確定了幾個有前景的研究方向,可以由社區在未來探索。

我們總結了這項綜述的主要貢獻如下。

? 據我們所知,這是第一次對深度長尾學習的全面調研,將為研究人員和社區提供對深度神經網絡的長尾視覺學習的更好理解。

? 我們提供了對高級長尾學習研究的深入回顧,并通過一個新的相對準確性度量來評估它們在多大程度上處理長尾類別失衡,以實證研究最先進的方法。

? 我們為未來的研究確定了四個潛在的方法創新方向以及八個新的深度長尾學習任務設置。

第二節介紹了問題的定義,并介紹了廣泛使用的數據集、度量和網絡骨架。第3節全面回顧了先進的長尾學習方法,第4節基于一個新的評價指標實證分析了幾種最先進的方法。第5節給出了深度長尾學習的應用場景,第6節給出了未來的研究方向。我們在第7節結束調研。

付費5元查看完整內容

摘要

視覺和語言在生成智能中起著至關重要的作用。因此,在過去的幾年中,大量的研究致力于圖像描述,即用句法和語義上有意義的句子描述圖像的任務。從2015年開始,該任務通常使用由可視化編碼步驟和用于文本生成的語言模型組成的流程來解決。在這些年里,這兩個組件通過開發對象區域、屬性和關系以及引入多模態連接、充分關注的方法和類似BERT的早期融合策略得到了相當大的發展。然而,盡管已經取得了令人印象深刻的成果,但關于圖像描述的研究還沒有得出一個結論性的答案。這項工作旨在提供圖像描述方法的全面概述和分類,從視覺編碼和文本生成到訓練策略,使用的數據集和評估指標。在這方面,我們定量比較了許多相關的最先進的方法,以確定在圖像描述架構和訓練策略中最具影響力的技術創新。此外,本文還分析和討論了該問題的許多變體及其面臨的挑戰。這項工作的最終目標是作為一個工具來理解現有的最先進的技術,并強調計算機視覺和自然語言處理可以找到最佳協同的未來研究方向。

引言

圖像描述(Image Captioning)生成有意義的、語法正確的句子。神經科學研究在最近幾年才闡明了人類視覺和語言生成之間的聯系。類似地,在人工智能中,能夠處理圖像和生成語言的架構設計是一個非常新問題。這些研究工作的目標是找到最有效的管道來處理輸入圖像,表示其內容,并通過在保持語言流暢的同時產生視覺和文本元素之間的聯系,將其轉換為一系列單詞。在其標準配置中,圖像描述是一個圖像到序列的問題,其輸入是像素。在視覺編碼步驟中,這些特征被編碼為一個或多個特征向量,為第二個生成步驟(稱為語言模型)準備輸入。這將產生一個根據給定詞匯表解碼的單詞或子單詞序列。在這幾年里,研究人員對模型進行了很大的改進:從第一個基于深度學習的模型,采用循環神經網絡(RNNs),并通過卷積神經網絡(CNN)提取全局圖像描述子,方法已經被注意力方法和強化學習豐富,直到突破變體和自注意力到單流BERT-like方法。與此同時,計算機視覺和自然語言處理(NLP)社區已經解決了建立適當的評估協議和評估指標的挑戰,以將結果與人工生成的標準進行比較。此外,還研究了該任務的幾個特定領域的場景和變體。然而,取得的成果還遠未確定最終的解決方案。在本文中,我們追溯了過去幾年發展起來的模型的整體概述。

根據描述模型固有的雙重性,我們提出開發了視覺編碼和語言建模方法的分類,重點關注它們的關鍵方面和限制。我們還關注了過去幾年文獻中遵循的訓練策略,從交叉熵損失到強化學習,以及預訓練范式獲得的最新進展。此外,我們回顧了用于探索圖像描述的主要數據集,從領域通用基準到收集來調查問題的特定方面的領域特定數據集,并分析用于性能評估的標準和非標準指標,這些指標捕獲產生描述質量的不同方面。這項工作的另一個貢獻是對主要圖像描述方法進行定量比較,其中考慮了標準和非標準指標,并討論了它們之間的關系,闡明了最重要模型的性能、差異和特征。最后,我們概述了該問題的許多變體,并討論了一些開放的挑戰和未來的方向。

付費5元查看完整內容

摘要

視頻分割,即將視頻幀分割成多個片段或對象,在電影的視覺效果輔助、自動駕駛中的場景理解、視頻會議中的虛擬背景創建等廣泛的實際應用中起著至關重要的作用。最近,由于計算機視覺中的連接主義的復興,出現了大量基于深度學習的方法,這些方法致力于視頻分割,并提供了引人注目的性能。本文通過對視頻中未知類別的一般目標分割和視頻語義分割這兩項研究的任務設置、背景概念、感知需求、發展歷史和主要挑戰的介紹,全面回顧了這兩項研究的基本方向。我們還提供了一個詳細的概述的代表性文獻的方法和數據集。此外,我們在基準數據集上提出了評測方法的量化性能比較。最后,指出了該領域尚未解決的問題,并提出了進一步研究的機會。

引言

視頻分割是機器視覺中一個基本的、具有挑戰性的問題,它是識別視頻場景中具有特定特征屬性或語義值的目標集。由于其在廣泛應用領域(如自動駕駛、機器人技術、自動監控、社交媒體、增強現實、電影產業、視頻會議等)中的重要作用,它長期以來一直受到計算機視覺和圖形界的廣泛關注和積極研究。

視頻分割在過去已經被用來解決各種傳統的計算機視覺和機器學習技術,包括手工特征(例如,顏色,直方圖統計,光流等),啟發式先驗知識(例如,視覺注意力機制[1],運動邊界[2]等),低/中級視覺表示(例如,超級體素[3]、軌跡[4]、對象proposal [5]等),以及經典的機器學習模型(如聚類算法[6]、圖模型[7]、隨機漫步[8]、支持向量機[9]、隨機決策森林[10]、馬爾可夫隨機場[11]、條件隨機場[12]等)。近年來,隨著深度神經網絡的蓬勃發展,特別是全卷積網絡(FCN)[13]的發展,視頻分割取得了顯著的進展。這些基于深度學習的視頻分割算法在準確性和有時甚至效率方面大大超過了其他老方法,并繼續提高技術水平。

隨著這一領域的快速發展,出現了大量的新文獻。然而,現有的綜述大多是過時的(發表在現代深度學習時代之前)[14]、[15],而且往往視野狹窄,即只關注前/背景視頻分割[16]、[17]。該領域的不斷變化和技術發展的快節奏給啟動帶來了困難。因此,由于視頻分割設置的多樣性和概念的模糊性,進行全面深入的綜述是非常困難和費時的,但非常有必要和幫助。

為此,我們首先系統地介紹了視頻分割的最新進展,從任務制定到分類,從算法到數據集,從尚未解決的問題到未來的研究方向。它涵蓋了幾個關鍵方面,包括任務類別(前景/背景分離vs語義分割),處理模式(即自動、半自動和交互式),學習范式(即監督、無監督和弱監督),以及澄清混淆的術語(如背景減法、運動分割,等等)。我們希望這項綜述可以為感興趣的研究者提供一個全面的回顧,并促進對提出的開放問題的研究。

本文主要研究了視頻分割的兩個主要分支,即視頻對象分割(圖1(a-e))和視頻語義分割(圖1(f-h))的最新進展,并進一步劃分為八個子領域。雖然我們將重點局限于基于深度學習的視頻分割解決方案,但在這個快速發展的領域仍有數百篇論文發表,因此不太可能(幸運的是,也沒有必要)對它們全部進行調研。相反,我們選擇在著名期刊和會議上發表的有影響力的論文。因此,我們將引入一些非深度學習的視頻分割模型和其他領域的相關文獻,如視頻對象檢測和視覺跟蹤,以提供必要的背景。

本文的研究進展如下。§2給出了分類學、術語、研究歷史和相關研究領域的簡要背景。§3和§4分別回顧了深度學習算法和視頻分割數據集方面的代表性工作。§5進行性能評估和分析。此外,§6指出了一系列開放式問題和方向。最后,在§7中給出了結論。

付費5元查看完整內容
北京阿比特科技有限公司