亚洲男人的天堂2018av,欧美草比,久久久久久免费视频精选,国色天香在线看免费,久久久久亚洲av成人片仓井空

自回歸模型(Autoregressive Models)在自然語言處理(NLP)領域中展現了卓越的性能,具有令人印象深刻的可擴展性、適應性和泛化能力。受其在NLP領域顯著成功的啟發,自回歸模型近年來在計算機視覺領域得到了廣泛研究。這些模型通過將視覺數據表示為視覺標記并執行下一個標記預測,為圖像生成、視覺理解以及最近將視覺生成與理解統一為單一自回歸模型的多模態生成等多種視覺任務提供了支持。 本文對視覺自回歸模型進行了系統綜述,包括對現有方法的發展分類,并突出了它們的主要貢獻、優勢與局限性,涵蓋了圖像生成、視頻生成、圖像編輯、動作生成、醫學圖像分析、三維生成、機器人操作、統一多模態生成等多種視覺任務。此外,我們調查并分析了自回歸模型的最新進展,包括在各種評估數據集上的方法基準測試和深入討論。最后,我們總結了關鍵挑戰和未來研究的潛在方向,為視覺自回歸模型的進一步發展提供了路線圖。

1 引言

自回歸(AR)模型近年來在人工智能領域取得了顯著進展,尤其是在像GPT系列 [1][2][3][4][5] 及其他大語言模型(LLMs) [6][7][8] 中表現突出,這些模型在解決各種自然語言處理任務上表現出色。它們采用簡單而強大的“下一個詞預測”策略,通過預測序列中的下一個單詞生成連貫且上下文相關的文本。AR模型的成功主要歸因于兩個關鍵特性:(1)可擴展性,擴展法則 [9][10] 使研究人員能夠基于小模型預測大模型的性能,從而優化資源分配并指導模型開發;(2)泛化能力,AR模型無需任務特定的訓練即可適應新任務和未見任務 [1][3]。這些特點使AR模型在語言任務中表現出前所未有的效果,并展現出朝著通用人工智能(AGI)系統發展的潛力。

受AR模型在自然語言處理領域成功的啟發,近年來的研究將AR模型擴展到了視覺生成任務。典型示例包括VQVAE [11]、VQGAN [12]、DALL-E [13] 和Parti [14] 等模型,這些模型通過圖像標記器將連續圖像轉換為離散標記,從而使AR模型能夠像處理語言一樣,通過“下一個標記預測”方法生成圖像。視覺標記化通過將文本和圖像都視為離散標記序列,統一了它們的表示方式,使其適配序列到序列(sequence-to-sequence)建模技術。因此,這些模型能夠利用類似于GPT系列 [1][2][3] 的架構,從大規模文本-圖像對中高效學習。

除了視覺生成,AR模型還推動了視覺理解的發展,尤其是在多模態理解領域 [15][16][17][18][19],它們可以感知并整合多種模態信息。在多模態任務中,AR模型通過訓練解讀視覺輸入并生成連貫的文本序列,成為在視覺和文本信息結合方面極具潛力的工具。例如,多模態大語言模型(MLLM)如LLaVA [15],利用LLMs同時解讀視覺和文本輸入,從而實現對圖像的問答、生成描述性字幕以及在詳細視覺上下文中進行對話。通過這一設計,基于AR的MLLM在推動AI應用中的多樣化視覺理解能力方面表現出色。

鑒于AR模型在視覺生成和理解方面的成就,近期的研究嘗試將這兩種能力整合到一個統一的AR模型中,使其能夠同時處理視覺生成和理解任務。例如,Transfusion [20] 通過結合語言建模中常用的“下一個標記預測”目標與圖像生成中的擴散過程,實現了這一整合。通過對文本和圖像數據進行聯合訓練,Transfusion [20] 在單一Transformer架構中處理離散文本標記和連續圖像數據,從而能夠執行廣泛的多模態任務,并彌合視覺理解與生成之間的差距。此外,AR模型在視頻等其他領域也表現出強大的理解與生成能力 [21],如視頻字幕生成、視頻生成及場景解讀等任務。

盡管AR模型在視覺研究中取得了顯著進展并吸引了越來越多的關注,但目前缺乏系統的綜述來全面概述現有方法、挑戰以及未來可能的研究方向。本文旨在填補這一空白,全面綜述AR模型在各種視覺任務中的應用,并按任務類型進行分類,包括圖像生成、圖像理解及其他領域。我們從多個角度展開綜述,包括AR模型的背景、相關數據集、方法論、基準測試,以及當前的研究挑戰與未解難題。我們的目標是為學術界和工業界提供清晰的現狀概覽,展示已經取得的成果、面臨的挑戰以及未來研究的潛力方向。

主要貢獻

本文的主要貢獻總結如下:

  1. 系統全面地回顧了AR模型在視覺領域的應用,建立了現有方法的分類體系,突出了它們的主要貢獻、優勢和局限性。
  2. 深入分析了AR模型的最新進展,包括跨各種評估數據集的方法性能基準測試和討論。
  3. 闡明了AR模型領域的若干挑戰和未來研究的潛力方向,旨在幫助學術界解決開放性問題并推動該領域的發展。

付費5元查看完整內容

相關內容

生成方法(生成式人工智能,Gen-AI)在解決機器學習和貝葉斯推斷任務中的應用進行了綜述。生成模型需要模擬一個大規模的訓練數據集,并使用深度神經網絡來解決監督學習問題。為了實現這一目標,我們需要高維回歸方法和用于降維的工具(即特征選擇)。生成式人工智能方法的主要優勢在于它們能夠不依賴具體模型,并利用深度神經網絡來估計條件密度或感興趣的后驗分位數。為了說明生成方法的應用,我們分析了著名的埃博拉數據集。最后,我們總結了未來研究的方向。

關鍵詞:生成式人工智能,神經網絡,深度學習,ABC,INN,歸一化流,擴散模型,分位貝葉斯,擬似推斷,埃博拉

1 引言

機器學習中的一個重要任務是:給定輸入-輸出對,其中輸入是高維的,構建一個“查找”表(即字典)來存儲輸入-輸出示例。這是一個編碼(即數據壓縮問題),用于快速搜索和檢索。另一個常見問題是找到一個簡單的預測規則(即算法),即:我們能否找到一個好的預測函數f(x)f(x)f(x),用來在給定xxx 的情況下預測輸出yyy?給定一個訓練數據集(yi,xi)i=1N(y_i, x_i)_{i=1}^{N}(yi,xi)i=1N 的輸入-輸出對,我們能否訓練一個模型,即找到函數fff?從計算角度來看,我們有一個高維的多變量函數f(x)f(x)f(x),其中x=(x1,…,xd)x = (x_1, \dots, x_d)x=(x1,…,xd)。 給定(y,x)(y, x)(y,x)-輸入-輸出對,我們有一個模式匹配(即監督學習)非參數回歸形式:

為了實現良好的泛化能力,我們需要能夠進行非線性降維,并找到一組合適的特征/因素。關鍵問題是:我們如何表示一個多變量函數,以便使訓練過程高效?許多高維統計模型需要數據降維方法。根據 Breiman(2001),我們將數據表示為由一個黑箱生成,其中輸入向量xxx 被黑箱轉化為輸出yyy,或生成一個描述從xxx 預測yyy 的不確定性的預測分布p(Y∣X)p(Y | X)p(Y∣X)。Fisher(1922)和Cook(2007)清楚地描述了降維問題。雖然通過篩選和將預測值與輸出變量繪制來尋找預測器是典型的做法。 統計推斷中的一個核心問題是計算一個感興趣的后驗分布。給定似然函數p(y∣θ)p(y | \theta)p(y∣θ) 或前向模型y=f(θ)y = f(\theta)y=f(θ),以及先驗分布π(θ)\pi(\theta)π(θ),目標是進行逆概率計算,即計算后驗分布p(θ∣y)p(\theta | y)p(θ∣y)。對于高維模型來說,這一任務非常困難。馬爾科夫鏈蒙特卡羅(MCMC)方法通過生成后驗樣本來解決這個問題,使用密度評估。 另一方面,生成式人工智能技術直接學習從均勻分布到目標分布的映射。生成式人工智能的主要優勢是它是無模型的,并且不需要使用迭代密度方法。逆貝葉斯映射被通過深度學習的輸入輸出映射的模式識別所替代。深度分位神經網絡(Deep Quantile NNs)提供了一個用于推斷決策的通用框架。分位神經網絡提供了一種替代不可逆神經網絡(如歸一化流)的方式。 生成方法通過以下方式解決這兩個問題。設Z~PZZ \sim P_ZZ~PZ 是潛變量ZZZ 的基礎度量,通常是標準多變量正態分布或均勻分布的向量。生成方法的目標是從訓練數據(Xi,Yi)i=1N~PX,Y(X_i, Y_i){i=1}^{N} \sim P{X,Y}(Xi,Yi)i=1N~PX,Y 中表征后驗度量PX∣YP_{X|Y}PX∣Y,其中NNN 被選擇為適當的大值。使用深度學習器來估計f^\hat{f}f^,通過非參數回歸X=f(Y,Z)X = f(Y, Z)X=f(Y,Z)。深度學習器通過從三元組(Xi,Yi,Zi)i=1N~PX,Y×PZ(X_i, Y_i, Z_i){i=1}^{N} \sim P{X,Y} \times P_Z(Xi,Yi,Zi)i=1N~PX,Y×PZ 中學習來估計。隨后的估計器H^N\hat{H}NH^N 可以看作是從基礎分布到所需后驗分布的傳輸映射。在ZZZ 為均勻分布的情況下,這相當于逆累積分布函數(CDF)采樣,即X=FX∣Y?1(U)X = F{X|Y}^{-1}(U)X=FX∣Y?1(U)。 設(X,Y)~PX,Y(X, Y) \sim P_{X,Y}(X,Y)~PX,Y 是輸入-輸出對,且PX,YP_{X,Y}PX,Y 是聯合度量,我們可以從中模擬一個訓練數據集(Xi,Yi)i=1N~PX,Y(X_i, Y_i){i=1}^{N} \sim P{X,Y}(Xi,Yi)i=1N~PX,Y。標準的預測技術是條件后驗均值X^(Y)=E(X∣Y)=f(Y)\hat{X}(Y) = E(X|Y) = f(Y)X^(Y)=E(X∣Y)=f(Y),即給定輸出YYY 時預測輸入XXX。為此,考慮多變量非參數回歸X=f(Y)+?X = f(Y) + \epsilonX=f(Y)+?,并提供估計條件均值的方法。通常的估計器f^\hat{f}f^ 包括 KNN 和核方法。最近,提出了深度學習器,并提供了關于仿射函數疊加(即嶺函數)的理論屬性(見 Montanelli 和 Yang(2020),Schmidt-Hieber(2020),Polson 和 Rockova(2018))。一般來說,我們可以為任何輸出YYY 表征后驗映射。只需通過使用傳輸映射:

從新的基礎抽樣ZZZ 中評估網絡。這里,ψ\psiψ 表示余弦嵌入,因此潛變量的架構對應于離散傅里葉近似。另一方面,生成方法通過構建訓練數據的“查找”表,并將深度神經網絡擬合到該表上,來解決監督學習問題。這提供了一種傳輸映射到基礎分布,基礎分布由潛變量zzz 的已知分布p(z)p(z)p(z) 給出。由于我們可以選擇樣本大小NNN,因此理解這些深度學習估計器的貝葉斯風險屬性及其插值屬性(稱為雙重下降)非常重要。 本文的其余部分安排如下:第 1.1 節描述了降維技術;第 2 節介紹了架構設計的多種選擇。例如,自動編碼器(Albert et al. 2022;Akesson et al. 2021)或隱式模型(參見 Diggle 和 Gratton 1984;Baker et al. 2022;Schultz et al. 2022);它還與間接推斷方法相關(參見 Pastorello et al. 2003;Stroud et al. 2003;Drovandi et al. 2011, 2015)。常用的生成方法包括:變分自動編碼器(VAE)、獨立成分分析(ICA)、非線性獨立成分估計(NICE)、歸一化流(NF)、可逆神經網絡(INN)、生成對抗網絡(GAN)、條件生成對抗網絡、近似貝葉斯計算(ABC)和深度擬似推斷(DFI)。第 3 節回顧了使用無密度深度分位 ReLU 網絡的生成貝葉斯計算(GBC);第 4 節提供了經典埃博拉數據集的應用。最后,第 5 節總結了未來研究的方向。 深度學習的民間傳說:淺層深度學習器能夠很好地表示多變量函數,并且在外推時表現良好。因此,我們可以在任何新的輸入上評估網絡并預測輸出,同時我們仍然可以學習感興趣的后驗映射。 雙重下降:關于深度神經網絡的逼近和插值屬性的問題依然存在。最近關于分位神經網絡插值屬性的研究,參見 Padilla 等(2022)和 Shen 等(2021),Schmidt-Hieber(2020)。另見 Bach(2024);Belkin 等(2019)。 **

**

付費5元查看完整內容

近期基礎模型的浪潮在計算機視覺(CV)及其他領域取得了巨大成功,其中“任意分割模型”(SAM)激發了探索任務無關的視覺基礎模型的熱情。憑借其卓越的零樣本泛化能力,SAM 正在挑戰許多傳統的計算機視覺范式,在各種圖像分割和多模態分割任務(如文本到掩碼)中表現出色,同時也在視頻領域取得了卓越的表現。此外,最新發布的 SAM 2 再次點燃了對圖像和視頻可提示視覺分割的研究熱情。然而,現有的綜述主要集中在 SAM 在各種圖像處理任務中的應用,視頻領域的全面深入的綜述明顯缺乏。為彌補這一空白,本文對基礎模型時代的視頻領域 SAM 進行了系統性的綜述。作為首個回顧 SAM 在視頻領域進展的工作,本文重點討論了其在各種任務中的應用,探討了基礎模型在廣泛應用中的最新進展和創新機遇。我們首先簡要介紹了 SAM 和視頻相關研究領域的背景。隨后,我們提出了一個系統的分類法,將現有方法劃分為三個關鍵領域:視頻理解、視頻生成和視頻編輯,并分析總結了它們的優缺點。此外,本文還提供了基于 SAM 的方法與當前最先進方法在代表性基準測試中的對比結果以及深刻的分析。最后,我們討論了當前研究面臨的挑戰,并展望了 SAM 在視頻領域及其他相關領域未來的研究方向。 關鍵詞:綜述、任意分割模型、視頻理解、視頻生成、視頻編輯。

近年來,基礎模型[1]–[3]成為了一個重要的研究領域,革命性地改變了自然語言處理(NLP)、計算機視覺(CV)和機器學習等多個領域。這些模型通常在大規模數據集上進行預訓練,使其能夠學習輸入數據的通用表示,并提取有意義的特征,進一步微調以適應特定的應用。雖然基礎模型主要在NLP領域得到了廣泛關注,但其應用范圍遠不止于此。在計算機視覺領域,研究人員正在探索基礎模型在圖像理解[4]–[6]、目標檢測[7]、[8]、圖像分割[9]、[10]及其他與視覺相關的任務[11]、[12]中的應用。

一個顯著的例子是“任意分割模型”(SAM)[13],它在探索通用且任務無關的基礎模型方面取得了顯著進展。通過在超過11萬張圖像上的10億個掩碼上進行訓練,SAM能夠基于多種提示(例如點、框和文本)生成高質量的分割掩碼。更重要的是,SAM在各種分割任務中表現出強大的零樣本泛化能力(例如交互式分割、語義分割和全景分割),無需像以前那樣進行重新訓練或微調[14]。因此,SAM的出現使得許多研究人員認為這是計算機視覺領域的“GPT-3時刻”,因為SAM已經學會了“物體是什么”的一般概念,即使對于未知的物體、不熟悉的場景(例如水下環境和細胞顯微鏡以及模糊的情況)也是如此[15]。大量研究人員已將SAM擴展到不同的領域[16]–[20]。如圖1(a)所示,自2023年4月以來,關于SAM的研究工作數量顯著增加。

任意分割模型2(SAM 2)[21]通過將Transformer框架與流式存儲器集成,增強了其前身SAM,提供了更強的實時視頻分割能力。SAM 2在大規模且多樣化的任意分割視頻(SA-V)數據集上進行訓練,特別是在視頻任務中,表現出比SAM更高的精度和效率,并為跨不同時空上下文的可提示視覺分割提供了強大的解決方案。 將SAM納入視頻任務。視頻在當今數字時代是一個極其重要的媒介[22]。與靜態圖像和純文本相比,視頻提供了強大的視覺表現力、增強的感知和記憶、強大的敘事能力和豐富的交互性,使其成為一種更有效的交流和娛樂媒介[2],[22]。對SAM在視頻任務中的探索正在迅速成為一個蓬勃發展的研究領域[3],[23]–[25]。盡管SAM在各種圖像任務中顯示出巨大的潛力,但它在視頻任務中仍面臨諸多挑戰,如確保SAM能夠在長視頻幀中始終如一地生成一致的掩碼[16],[19],以及提高其處理大規模視頻數據的可擴展性和效率[26],[27]。目前大多數與視頻相關的工作通常直接應用SAM以實現創新應用的顯著效果。為了全面理解這一前沿研究領域,如圖1(b)所示,我們進行了這次綜述,并將已有的創新應用工作劃分為三個主要類別(即視頻理解、視頻生成和視頻編輯)。

視頻中的獨特挑戰。與其他任務(如圖像和文本處理)相比,視頻任務呈現以下獨特挑戰[3],[22]–[25]。1)時間信息處理:視頻數據不僅包含空間信息,還包含時間動態。因此,處理視頻數據需要考慮時間關系和動態變化。2)高維數據:視頻的每一幀都由大量像素組成的高維數據組成,導致數據量龐大,要求更多的計算資源和存儲空間。3)連續性和穩定性:視頻通常是連續的,處理時需要考慮幀之間的連貫性和穩定性,以在分析和應用中獲得可靠的結果。4)時間成本:由于視頻數據量大,處理視頻任務的時間成本通常更高,對計算資源和算法效率提出了更高的要求。5)動作和事件識別:與靜態圖像相比,視頻任務通常涉及動作和事件識別,要求模型理解和學習時間序列中的動態變化。上述挑戰預示著視頻任務的極端復雜性和巨大的研究機會[16],[22],[27]。

與現有綜述的對比。盡管已有三篇綜述[3],[9],[31]提出了關于SAM的研究,但我們的綜述與現有綜述的區別主要體現在三個方面。1)以往基于SAM的綜述僅聚焦于醫學圖像分割任務[9]或大致覆蓋視頻任務[3],[31],然而,視頻領域的SAM是一個具有許多創新機會和潛在應用的挑戰性和前景廣闊的研究課題[22]。這激勵我們進行一項專門針對這一特定領域(即視頻領域的SAM)的系統性綜述,以惠及相關研究人員和實踐者。2)本綜述提供了一個易于理解且高度結構化的視頻領域SAM分類法,將現有方法分為三個主要類別(即視頻理解、視頻生成和視頻編輯),這與以往的綜述有顯著不同。3)我們提供了全面的性能評估,并深入分析了這些前沿方法的優缺點,以幫助讀者選擇適合其特定應用的基準,并提供改進現有方法的寶貴見解。此外,我們基于系統的文獻綜述和全面的性能評估,提出了一些潛在的未來發展趨勢。

本綜述的主要貢獻有三點我們全面回顧了基礎模型時代的視頻領域SAM的發展,并對該領域的最新進展進行了系統性綜述,歸納為視頻理解、視頻生成和視頻編輯三個主要類別。據我們所知,這是首個專注于這一特定領域的系統性綜述。 我們全面比較了基于SAM的方法與當前代表性數據集上的最先進方法,尤其是對這些前沿方法的優缺點進行了深入分析,幫助讀者為其特定應用選擇合適的基準,并提供了改進現有方法的寶貴見解。 基于系統的文獻綜述和全面的性能評估,我們提出了一些潛在的未來發展趨勢。

本綜述的剩余部分組織如下:第二部分總結了背景知識,包括SAM和SAM 2的工作流程、研究路線及相關研究領域。第三部分主要概述了視頻理解領域的SAM方法。第四部分深入探討了視頻生成領域的主要研究。第五部分闡述了視頻編輯領域的SAM方法。第六部分介紹了基準數據集和評估方法。第七部分總結了本文,并強調了未來研究的潛在方向。

****

使用SAM進行視頻理解

在本節中,我們主要介紹了使用SAM進行的各種視頻理解任務,如圖3所示。

**A. 視頻對象分割

視頻對象分割(VOS)是計算機視覺中的一項關鍵任務,用于分割視頻中的主要對象。通過結合預訓練的分割模型SAM,最近的工作在VOS中表現出巨大潛力。我們將其簡要總結為語義級、實例級、全景級和實體級(見圖4)。

  1. 視頻語義分割:Zhang等人[20]首次采用SAM進行無監督的視頻對象分割(VOS),無需人工注釋即可執行分割。具體來說,他們在IDOL[96]中移除了掩碼預測分支,使其適應為一種新穎的視頻顯著對象跟蹤方法,旨在發現顯著對象及其時空軌跡。然后,他們將生成的軌跡作為提示與SAM結合,以逐幀獲取掩碼結果。

此外,利用SAM出色的分割能力進行的一次性對象分割在圖像分割和視頻分割中也表現良好。Liu等人[14]提出了一種無訓練框架,Matcher,用于一次性對象分割。他們集成了一個通用特征提取模型(例如DINOv2[10]、CLIP[97]和MAE[98])和一個與類別無關的分割模型(即SAM),通過三種操作實現可控的掩碼生成。隨后,Zhang等人[19]介紹了一個無需訓練的個性化SAM,稱為PerSAM,以SAM僅分割用戶提供的對象。具體來說,他們首先通過用戶提供的圖像和掩碼獲得目標對象的位置置信度圖。然后,基于置信度,他們提出了目標引導的注意力和目標語義提示,以幫助SAM的解碼器進行個性化分割。此外,他們還提供了一個微調變體PerSAM-F,僅需10秒鐘的2個參數來緩解掩碼歧義問題。這些方法都可以用于逐幀設置的圖像和視頻對象分割。

除了這些,Chang等人[64]在PVUW2023 VSS軌道中采用SAM作為語義分割的后處理技術。Zhou等人[65]提出了一個新穎的移動對象分割(MOS)數據集,稱為DSEC-MOS,具有高時間分辨率和低延遲的信息變化,以促進MOS的研究。

視頻實例分割:為了解決SAM存在的掩碼邊界粗糙和預測不準確的問題,Ke等人[16]提出了HQ-SAM,為SAM配備了更準確地分割任何對象的能力。具體來說,他們引入了一個輕量級的高質量輸出Token來替換原始SAM的輸出Token,并通過全局-局部特征融合來融合全局語義上下文和局部邊界細節。他們固定預訓練模型參數以保持SAM的原始性能,并僅在他們構建的數據集上訓練了44K精細掩碼的引入組件的少量參數。

視頻全景分割:端到端視頻分割模型在大詞匯表設置中的表現不佳是一個重要挑戰。在大詞匯表數據集VIPSeg[99]中,最近的一項工作[100]在視頻全景質量得分上僅達到26.1。Cheng等人[66]指出,類別和場景數量的增加使得很難通過端到端訓練取得良好表現。因此,他們提出了一種解耦視頻分割方法 (DEVA),通過特定任務的圖像級分割和與類別/任務無關的雙向時間傳播來實現。具體來說,SAM用于圖像級分割,采用包含目標域外數據的通用數據訓練。通過首幀分割,他們在未來幾幀中降噪誤差,以達成共識作為輸出分割。然后,將XMem[101]作為時間傳播模型適配,將分割傳播到后續幀。VIPSeg上的大量實驗驗證了其在大規模視頻全景分割中的有效性。

視頻實體分割:圖像/視頻分割任務的野外設置對現有方法是一個重大挑戰,其中沒有對域、類別、圖像分辨率和質量進行限制[67]。盡管實體分割旨在分割訓練集中未見過的類別,但缺乏實體分割數據集使得在此任務上取得良好進展變得困難。為填補這一空白,Qi等人[67]構建了一個高質量的大規模實體分割數據集,稱為EntitySeg。該數據集包含33,227張圖像,具有多域和多分辨率的高質量標注掩碼,允許評估模型的泛化能力和魯棒性。他們對現有模型進行了基準測試,發現這些模型無法很好地適應所提出的數據集。因此,他們進一步提出了CropFormer[67]框架來解決這個問題。

**B. 視頻對象跟蹤

視頻對象跟蹤(VOT)是計算機視覺中的一項基礎任務。我們將使用SAM的VOT方法分為四組:(1)通用對象跟蹤,(2)開放詞匯跟蹤,(3)點跟蹤和(4)夜間無人機(UAV)跟蹤。(1)最近,SAM強大的分割能力增強了對對象的感知,并促進了通用對象跟蹤的發展。Yang等人[23]提出了基于SAM的無訓練軌跡任意模型(TAM),實現了視頻中的高性能交互式跟蹤和分割。具體來說,他們首先使用SAM獲取對象的初始掩碼,用戶可以通過點擊選擇目標對象或修改掩碼。然后,他們采用XMem對后續幀進行VOS,使用用戶選擇的掩碼。為了避免XMem隨時間推移分割越來越粗糙的問題,他們再次使用SAM進行精細化。Cheng等人[27]提出了SAM-Track,用于分割和跟蹤視頻中的任何對象。他們結合SAM獲取分割,Grounding-DINO理解自然語言,DeAOT[102]進行跟蹤。在VOTS2023挑戰中,Zhu等人[68]提出的HQTrack獲得了第二名,達到了高質量的VOT。他們的框架具體實現了DeAOT和SAM的改進變體(即HQ-SAM[16])用于多對象分割和掩碼精細化。TREK-150對象跟蹤挑戰的第一名解決方案[103]也采用了類似的結合SAM和DeAOT的方法。他們引入了MSDeAOT作為DeAOT的改進變體,通過用參考幀中的掩碼替換邊框并將掩碼和幀輸入VOS模型。(2)Chu等人[69]利用SAM作為分割器,結合開放詞匯對象檢測器和光流估計,構建了一個零樣本開放詞匯視覺跟蹤框架OVTracktor。(3)提出了SAM-PT[70],利用VOS的稀疏點傳播。以帶有第一幀點注釋的視頻作為輸入,SAM-PT可以通過點跟蹤器生成軌跡作為提示,并使用SAM輸出預測掩碼,從而實現強大的零樣本性能。預測的掩碼還用于重新初始化并去除不可靠的點。(4)Yao等人[26]利用SAM進行實時夜間無人機跟蹤,以準確定位潛在對象并從夜間圖像中確定高質量的目標域訓練樣本。

**C. Deepfake檢測

在最近的一項研究中,Lai等人[30]探討了SAM及其變體在Deepfake檢測和定位中的性能評估,這是首次評估這些方法在特定任務中的表現。研究人員指出,現有的方法(使用LoRA[104]、SAM適配器[4]和可學習提示[105]對SAM進行微調以適應下游任務)在面部偽造定位方面的表現往往不理想,特別是在本地和全局上下文的偽造建模能力方面。為了應對這些挑戰,Lai等人[30]提出了一個創新框架,稱為detect any deepfakes(DADF),基于SAM構建。具體來說,他們在SAM中引入了一個多尺度適配器,旨在捕捉短期和長期偽造上下文,促進高效的微調。此外,他們還引入了一個重建引導的注意模塊,以增強偽造痕跡并提高模型對偽造區域的敏感性。所提出的方法在偽造檢測和定位方面表現出了最先進的性能。

**D. 視頻陰影檢測

視頻陰影檢測在各種應用中起著至關重要的作用,包括對象檢測[106]、圖像分割[107]和虛擬現實場景生成[108]。然而,訓練數據的有限性導致現有基于深度神經網絡的方法的泛化能力受到挑戰,這可能導致預測誤差在視頻傳播過程中積累[109]。特別是,當將SAM應用于單幀陰影檢測時,SAM傾向于將陰影分類為背景的一部分[18]。這給使用SAM進行陰影檢測帶來了不小的挑戰,因為它需要彌合自然對象和復雜陰影之間的差距。為了解決這一挑戰,Wang等人[18]引入了ShadowSAM,這是一個簡單但有效的框架,專門用于對SAM進行微調以適應陰影檢測。此外,通過采用長短期注意機制,他們擴展了其在高效視頻陰影檢測中的能力。

**E. 其他

  1. 音頻-視覺分割:最近,SAM被應用于音頻-視覺定位和分割[17],[71]。這兩項研究都集中在克服音頻-視覺定位和分割中的挑戰,特別是解決音頻與視頻中各種對象之間固有的不對齊問題。在[17]中,作者通過引入AV-SAM,提出了一種方法,能夠為視頻中的每個掩碼提示學習音頻對齊的視覺特征。這有助于通過像素級音頻-視覺融合引導SAM生成掩碼。該方法利用了SAM中預訓練的圖像編碼器中的音頻特征和視覺特征,以聚合跨模態表示。相反,Wang等人[71]提出了一種編碼器-提示-解碼器范式,以解決數據稀缺和數據分布不均的問題。他們利用預訓練模型的豐富知識,提出了一種語義感知音頻提示,以幫助視覺基礎模型聚焦于發聲的對象。同時,該方法鼓勵減少視覺和音頻模態之間的語義差距。此外,Bhosale等人[72]提出了CMSF,這是一種利用音頻線索生成音頻標簽并隨后提出分割掩碼的方法。這些最新的進展突顯了SAM在解決與音頻-視覺處理相關的復雜任務中的多功能性。

  2. 視頻對象指代分割:盡管SAM因其在圖像分割中的出色表現而廣受關注,但[73]中討論的一項研究突出了SAM在視頻對象指代分割(RVOS)領域的局限性。這種局限性源于對用戶交互提示的精確性要求,以及對不同模態(如語言和視覺)的有限理解。為了有效地將SAM用于RVOS并充分釋放其在視頻分割和多模態融合中的潛力,Li等人進行了開創性的研究[73]。他們通過集成來自不同模態和不同時刻的多視圖信息,探討了SAM在RVOS中的潛力。作者引入了RefSAM,這是一種新穎的方法,利用輕量級模塊和高效的微調策略,以端到端學習的方式對齊和融合語言和視覺特征。此外,他們設計了一個分層密集注意模塊,以利用多層次的視覺和文本特征,從而實現不同尺寸對象的有效跨模態分割。

**F. 特定領域

  1. 醫學視頻:SAM也為醫學視頻的分析做出了貢獻。針對SAM原始流程的兩個問題(即域間隔和對精確點或框位置的依賴),SurgicalSAM[74]引入了一種新穎的端到端高效微調方法,旨在無縫地將手術特定信息與SAM的預訓練知識結合,以增強整體泛化能力。該工作[110]全面探討了機器人手術的不同場景,并評估了SAM的魯棒性和零樣本泛化能力。SAMSNeRF[75]結合了SAM和神經輻射場(NeRF)技術,使用SAM生成手術工具的精確分割掩碼,然后通過NeRF引導動態手術場景重建的優化。Fillioux等人[111]評估了SAM在處理患者來源的類器官顯微鏡幀中的表現。MediViSTA-SAM[5]是首個將SAM適用于視頻分割的研究。SuPerPM[76]是一種大型變形魯棒的手術感知框架,利用SAM將組織區域從背景中分割出來。

  2. 域適應:最近,研究人員利用SAM增強了模型在目標域中的泛化能力,特別是在目標域數據的質量和數量不理想的情況下。Bonani等人[77]利用SAM為真實數據提供正則化信號,并引入了一個不變性-變異性損失結構。該結構用于對無標注的目標域數據進行自監督學習,促進語義分割網絡的域適應能力的魯棒性。Yao等人[26]提出了SAM-DA,一種基于SAM的域適應框架,旨在用于實時夜間無人機跟蹤。他們引入了一種創新的SAM驅動方法,從每張夜間圖像生成大量高質量的目標域訓練樣本,從而顯著增加了目標域訓練樣本的數量和質量,為域適應提供了更好的數據支持。

  3. 工具軟件:Hsieh等人[78]探討了利用工具文檔而非演示文檔來指導大語言模型(LLMs)使用新工具的可能性。文章[78]表明,使用工具文檔使得LLMs能夠以零樣本的方式使用SAM,而無需進行訓練或微調。同樣重要的是,文章展示了利用工具文檔啟用新應用的潛力。一個這樣的例子是將GroundingDino[7]與SAM結合,創建了Grounded-SAM[112],這是一種能夠在視覺內容中生成與文本相關的模型,展示了從圖像中提取有意義的文本信息的能力。

  4. 更多方向:幾項研究將SAM應用于各種應用,涵蓋了光流估計[79]、機器人學[80],[83],[113]、用于視頻游戲的強化學習(RL)[82]以及語義通信[81]。

為了解決光流估計中的“碎片化”挑戰,Zhou等人[79]使用SAM作為圖像編碼器,為光流估計提供了更豐富和更高層次的上下文特征。這一策略減少了模型專注于局部和低層次線索的傾向。在Yang等人的工作[80]中,SAM用于生成對象的分割掩碼,為模型提供豐富的語義、幾何和形狀先驗。這反過來有助于機器人感知物體姿勢并確定抓取點。類似的想法也見于[83],[113]。在[82]中,作者使用SAM增強了原始像素輸入,旨在提高RL代理在Atari視頻游戲中的表現。盡管觀察到RL代理的游戲表現有所改善,但在性能提升與計算成本之間找到適當的平衡仍然是一個持續探索的問題。此外,Raha等人[81]提出了一種基于SAM的新穎語義通信框架,在保持原始內容不變的情況下高效地傳輸序列圖像或視頻。

VII. 結論與未來方向

**A. 結論

本綜述深入探討了基礎模型時代的最新發展,重點關注了視頻領域的SAM。根據我們的了解,這是第一篇系統且全面的綜述,專注于這個特定且前景廣闊的研究領域。我們首先總結了視頻領域的獨特挑戰,強調了視頻任務的極端復雜性以及對視頻領域SAM模型的系統性綜述的迫切需求。隨后,我們概述了SAM和SAM 2、不同的研究路線以及與視頻相關的研究領域。

在此基礎上,我們詳盡地回顧了現有的研究工作,并將其分為三個關鍵領域:視頻理解、視頻生成和視頻編輯,考慮了它們各自的技術視角和研究目標。此外,我們還提供了基于SAM的方法與當前最先進方法在各種視頻任務中的比較結果,并附有許多有見地的觀察。

**B. 未來方向

通過我們的調查和深入評估,我們發現盡管SAM模型(包括SAM 2)在各種圖像和視頻任務中取得或正在取得重大突破,但仍存在許多機遇和挑戰。我們在以下幾個方面提供了視頻領域及其他領域的SAM未來研究方向: * 構建大規模視頻數據集:視覺基礎模型的顯著成就主要歸因于數十億高質量圖像數據的可用性。然而,考慮到數據收集和標注的巨大成本,目前的視頻任務通常限于相對小規模的數據集。例如,VOT數據集TrackingNet[159]包含30,643個視頻和1443萬幀,但其顯著缺點是注釋稀疏。利用SAM自動生成視頻的密集掩碼注釋是實現數據擴展的潛在解決方案[24]。

構建大規模視頻基礎模型:目前的大多數視覺基礎模型主要集中在圖像級別的預訓練和適應,這顯然在復雜和動態的視頻級別理解任務中受限。由于越來越方便的收集和存儲,視頻正逐漸成為邊緣設備和互聯網中的一個領域力量[22]。因此,為廣泛的視頻應用開發視頻基礎模型,例如醫療視頻基礎模型,成為了一個緊迫的需求。

參數高效的訓練和快速推理:從頭開始訓練具有數十億參數的視頻基礎模型必然面臨高數據維度和高計算開銷的重大挑戰。雖然有些研究嘗試通過利用預訓練模型探索新技術,例如適配器[4]和提示學習[160],以促進高效的遷移學習,但仍迫切需要減輕訓練和推理的開銷。更高效的訓練策略和模型壓縮方法可能會在計算資源有限的邊緣設備(例如汽車和手術機器人)上釋放視頻基礎模型的更多潛力。

結合更多模態:盡管當前的基礎模型在單一模態和雙模態(例如視覺與文本、視覺與音頻)方面取得了顯著進展,但整合更多模態的研究仍遠未深入。一個核心原因是缺乏大規模對齊的多模態數據[2]。一方面,收集多模態數據,例如視覺圖像、文本、音頻、點云、紅外圖像、深度圖像和事件流,對于研究多模態基礎模型至關重要。另一方面,開發一個無需配對多模態數據的統一模型[12]是一個有前景的方向。 * 可信且可解釋的視頻基礎模型:人工智能的安全性在實際應用中引發了重大關注,例如面部識別和自動駕駛中的隱私泄露和安全風險。然而,視頻基礎模型抵御各種攻擊[29]的能力仍遠未得到充分研究。此外,由于視頻基礎模型的高復雜性和快速增長的部署[3],提高其可解釋性并增強人們對決策的信任是未來研究的一個有價值方向。

視頻領域SAM的更多創新機會:由于視頻領域的SAM是一個快速發展的研究領域,我們可能無法涵蓋本綜述中的所有最新進展。實際上,有大量視頻任務尚未被SAM覆蓋或未被充分研究,例如視頻字幕生成、基于視頻的事件檢測、基于視頻的行為/動作識別、視頻摘要生成和視頻幀插值。最后但同樣重要的是,將SAM與大量傳統技術/方法(如知識蒸餾和圖學習)以及前沿技術/方法(如視頻擴散模型、可解釋AI(XAI)和具身AI)結合起來,可能會由于SAM的多功能性和即插即用特性在基礎模型時代激發更多機會。

付費5元查看完整內容

深度強化學習(RL)方法的擴展提出了一個顯著的挑戰。隨著生成模型的發展,基于模型的RL成為一個有力的競爭者。最近在序列建模方面的進展帶來了有效的基于Transformer的世界模型,盡管這些模型由于需要長序列的標記來準確模擬環境而導致計算量巨大。在這項工作中,我們提出了?-IRIS,這是一種具有世界模型架構的新型智能體,該架構由一個離散自動編碼器組成,該編碼器對時間步之間的隨機變化進行編碼,以及一個自回歸Transformer,該Transformer通過用連續標記總結當前世界狀態來預測未來的變化。在Crafter基準測試中,?-IRIS在多個幀預算中設立了新的狀態標準,同時其訓練速度比之前的基于注意力的方法快一個數量級。我們在//github.com/vmicheli/delta-iris上發布了我們的代碼和模型。

付費5元查看完整內容

大模型(LLM)的興起在自然語言處理領域引起了廣泛關注,其涌現能力在各個垂直領域(如金融、醫療、教育等)也取 得一定進展。然而,大模型自身面臨解釋性不足、知識實時性差、生成結果存在虛假信息等諸多挑戰。為了應對這些問題,知 識圖譜與大模型的融合逐漸成為了研究熱點。知識圖譜作為一種結構化的知識模型,其真實性和可靠性,成為提高大模型解 釋和推理能力的有力工具。同時大模型具備語義理解能力,為知識圖譜的構建和更新提供了有力支持。因此,知識圖譜和大 模型是互補的(本文稱為圖模互補)。本文系統性地介紹知識圖譜與大模型融合的方法,分別從 1)大模型增強知識圖譜,2)知 識圖譜增強大模型,兩個角度進行全面的回顧和分析。最后,本文從醫學診斷預測和時間知識圖譜出發,介紹圖模互補的領域 應用,并討論圖模互補未來發展的方向,為知識圖譜與大模型的進一步研究提供幫助。 近年來,自然語言領域出現了一項令人矚目的 技術:大模型。大模型(LLM)是指通過超大規模文 本數據訓練出來的神經網絡模型,由預訓練語言模 型(PLM)發 展 而 來,其 特 點 是 模 型 規 模 較 大,參 數 通 常 在 數 十 億 乃 至 萬 億 級 別。相 較 于 傳 統 的 預 訓 練語言模型,大模型在處理復雜任務時表現出特殊 的 能 力(涌 現 能 力[1] 、推 理 能 力[2] )。相 關 研 究 表 明, 大 模 型 不 僅 能 夠 理 解 和 處 理 大 規 模 的 文 本 數 據[3] , 同時還具備上下文學習能力[4] 和領域泛化能力。這 使得它們成為各種自然語言下游任務的通用選擇, 能夠輕松進行少樣本遷移學習[5] 。如今,AI 領域中 涌現出許多具有代表性的大模型,例如對話式語言 大 模 型 ChatGPT[6] 、增 強 推 理 能 力 的 多 模 態 大 模 型 GPT-4[7] 等等。這些模型不僅在傳統的自然語言處 理領域(如搜索引擎[8] 和機器翻譯[9] )取得一定進展, 還在金融[10] 、醫療[11] 、教育[12] 等各種領域提供有效幫 助。大模型對傳統的自然語言處理領域帶來沖擊, 促使學者重新思考通用人工智能的可能性[13] 。 目 前,雖 然 大 模 型 引 起 了 廣 泛 的 關 注,但 它 仍 然 面 臨 著 諸 多 挑 戰,包 括 模 型 內 部 的 不 可 控 性,缺 乏解釋性[14] 、無法保證知識實時性[5] 、語言數據質量 的 不 確 定 性,以 及 產 生 幻 覺 和 有 毒 信 息 的 潛 在 風 險[15] 。為了應對這些挑戰,學者們開始思考將知識 圖譜與大模型融合[5] 。知識圖譜是一種用于表示和 存 儲 知 識 的 網 絡 圖 形 結 構,其 中 節 點 表 示 實 體,邊 表示實體之間的關系[16] 。知識圖譜以其數據的真實 性而著稱,這一特點可以有效地減輕大模型產生幻 覺 的 問 題 。 例 如 KELM 語 料 庫[17] 、通 用 模 型 KG? PT[18] 為大模型提供基于知識圖譜轉化的真實文本 信 息。大 模 型 作 為 一 個“黑 盒 模 型”其 輸 出 結 果 通 常難以解釋,而知識圖譜內部的結構知識更接近人 類認知。因此,知識圖譜可以提供一種解釋和推理 知識的手段,探究大模型內部復雜的工作步驟和推 理 過 程。例 如 個 性 化 知 識 庫 與 大 模 型 集 成 的 檢 索 框 架 KnowledGPT[19] ,提 高 處 理 復 雜 搜 索 和 歧 義 的 能 力。此 外,知 識 圖 譜 還 可 以 作 為 外 部 檢 索 工 具, 幫助大模型解決公平、隱私和安全等問題[20] 。 如今知識圖譜的規模越來越大,傳統的圖譜構 建、補全技術也面臨許多難題,如數據獲取、實體識 別、知識抽取和實體消歧等[21] 。大規模知識圖譜的 構 建 往 往 需 要 投 入 大 量 的 人 力、物 力 和 時 間 成 本, 且 依 舊 無 法 保 證 知 識 圖 譜 質 量 和 可 用 性。而 大 模 型 能 有 效 解 決 這 些 問 題。大 模 型 內 部 存 在 海 量 的 知 識 信 息,在 處 理 復 雜 的 文 本 數 據 信 息 時,能 夠 迅 速地進行實體識別與抽取,有效應對知識構建和補 全的挑戰[22] 。此外,鏈接預測是知識圖譜推理和問 答 的 關 鍵 步 驟,在 零 樣 本 和 少 樣 本 學 習 中,大 模 型 同 樣 能 夠 有 效 地 挖 掘 實 體 間 的 邏 輯 關 系。根 據 知 識圖譜和大模型的上述特點,本文認為知識圖譜和 大模型是相互補充的,稱為“圖模互補”,圖 1 為知識 圖譜與大模型的優缺點總結。 知 識 圖 譜 與 大 模 型 融 合 是 一 個 熱 門 研 究 領 域[23~25] 。文獻[25]提出了統一大模型與知識圖譜的 前瞻性路線圖,總結了現有的大模型與知識圖譜的 先進技術,并討論大模型與知識圖譜融合的相關挑 戰和發展方向。其整體路線劃分與本文有所差異, 本文從作用功能角度進行劃分,根據知識圖譜和大 模型在領域中的地位,將其融合劃分為兩個不同的 類 別:大 模 型 增 強 知 識 圖 譜 和 知 識 圖 譜 增 強 大 模 型。并從增益的效果出發,將每個大類別細分為不 同的小類別,最后探究圖模互補的領域應用。

付費5元查看完整內容

視覺-語言基礎模型(VLFMs)在圖像字幕生成、圖文檢索、視覺問答和視覺定位等各種多模態任務上取得了顯著進展。然而,大多數方法依賴于使用通用圖像數據集進行訓練,缺乏地理空間數據導致在地球觀測方面表現不佳。最近提出了許多地理空間圖文對數據集和在其上進行微調的VLFMs。這些新方法旨在利用大規模多模態地理空間數據構建具有多樣地理感知能力的多功能智能模型,我們稱之為視覺-語言地理基礎模型(VLGFMs)。本文全面回顧了VLGFMs,匯總并分析了該領域的最新發展。特別是,我們介紹了VLGFMs興起的背景和動機,突出了其獨特的研究意義。然后,我們系統總結了VLGFMs采用的核心技術,包括數據構建、模型架構和各種多模態地理空間任務的應用。最后,我們總結了關于未來研究方向的見解、問題和討論。據我們所知,這是VLGFMs的首次綜合文獻綜述。我們持續追蹤相關工作:

//github.com/zytx121/Awesome-VLGFM。

在過去的十年中,研究人員在幾乎所有地理空間任務上都取得了顯著進展,例如場景分類[1]、目標檢測[2][3]、變化檢測[4]、去噪[5]、土地利用分割[6]、災害管理[7]和地理空間定位[8],這些進步是由深度學習和其他人工智能技術推動的。然而,這些模型是專門為特定任務設計和訓練的,因此難以直接應用于其他任務。即使是相似的任務,這些模型通常也表現出較差的泛化能力。

例如,遙感目標檢測是地球觀測的核心任務之一。它需要手動標注每個目標的位置和類別,這是一個耗時且勞動密集的過程。遙感圖像(RSIs)是由天基或空基傳感器從上方視角拍攝的,與自然圖像相比,這些圖像呈現了獨特的視角,導致了定向目標檢測的發展。由于該任務使用旋轉邊界框來表示目標,因此需要帶有旋轉邊界框標注的遙感數據集,如DOTA[9],來支持其訓練。此外,模型架構[10]、損失函數[11]、后處理函數和加速操作器[12]也必須基于標準目標檢測[13]進行修改。從這個角度來看,特定模型的應用場景似乎相當有限,缺乏跨任務甚至是相似任務之間的泛化能力。

為了減少為每個任務從頭開始訓練特定模型所浪費的資源,基礎模型[14]應運而生。這些模型在大規模圖像上進行預訓練,使它們能夠通過微調小規模的定制數據集來處理各種視覺任務。在遙感領域,先前對純視覺基礎模型的研究揭示了地球觀測通用模型的巨大潛力,稱為視覺地理基礎模型(VGFMs)。VGFMs在從單模態到多模態、從靜態到時態的全面評估中表現出顯著的泛化能力。盡管這些模型表現出強大的感知能力,但它們缺乏像人類一樣進行推理的能力。例如,沒有相應的標注樣本支持VGFM訓練,它無法通過考慮周圍環境和常識來確定遙感圖像中建筑物的具體功能,而人類則可以。類似地,沒有標注樣本,VGFM無法根據航空影像中的特征識別汽車的品牌或型號,而人類可以。

近年來,大型語言模型(LLMs)的發展徹底改變了人機交互。像BERT[16]這樣的LLMs利用大量文本數據來開發推理能力,顯示出在自然語言處理的各種任務中的顯著泛化能力。然而,LLMs只處理離散的文本數據,無法處理圖像,而視覺基礎模型雖然能夠處理圖像數據,但缺乏推理能力。為了彌合這些差距,引入了視覺-語言基礎模型(VLFMs)的概念。這些創新模型旨在進行感知和推理,整合來自文本和圖像的輸入。自從GPT-4 Vision發布以來,VLFMs的研究熱度不斷高漲,受到其強大能力的啟發。VLFMs的研究主要分為對比、對話和生成范式。下面,我們將簡要介紹三個方向中最具影響力的工作。具體而言,CLIP[17]采用對比范式,將視覺和文本信息投射到統一的表示空間,從而促進了下游視覺-語言任務的橋梁。LLaVA[18]體現了對話范式,使LLMs能夠在文本和視覺模態中進行上下文感知對話。Stable Diffusion[19],作為生成范式的代表,利用深度學習從文本描述中生成高質量、詳細的圖像,從而提升了圖像合成和創意視覺應用的能力。 當VLFMs應用于地球觀測時,本文將其稱為視覺-語言地理基礎模型(VLGFMs)。截至目前,VLGFMs也可以分為對比型、對話型和生成型。圖1列出了開發的代表性VLGFM及其發布時間。可以看出,VLGFMs首次出現在2023年第二季度。目前,相關工作的數量正處于快速增長期。值得注意的是,目前VLGFM的創新主要集中在收集訓練數據上,對模型架構的修改相對較少。大多數工作涉及基于LLaVA[18]和MiniGPT-4[20]框架,使用定制的遙感指令跟隨數據集進行微調。

隨著VLGFM的快速發展并展示出令人印象深刻的成果,追蹤和比較VLGFM的最新研究是值得的。它通過自然語言對話實現了人類與計算機的端到端交互,改變了依賴于預定義程序接口的傳統人機交互方式。據我們所知,目前沒有綜述全面總結VLGFMs的最新進展,包括數據管道、架構、基準和能力。我們的工作旨在填補這一空白。

貢獻。鑒于VLGFM的快速進展和令人鼓舞的成果,我們編寫了這篇綜述,旨在使研究人員了解VLGFMs的基本概念、主要方法和當前進展。這篇綜述提取了共同的技術細節,并涵蓋了VLGFMs領域最具代表性的工作。它還對背景和相關概念,包括VGFMs和遙感LLM驅動的代理進行了比較分析。此外,我們將VLGFMs的表現能力分為三個層次。據我們所知,這是關于VLGFMs的首次綜述。

綜述流程。在第2節中,我們提供了背景知識,包括定義、數據集、指標和相關研究領域。在第3節中,我們對基于不同數據收集方法、網絡架構和能力的各種方法進行了全面回顧。在第4節中,我們識別了挑戰和未來方向。

付費5元查看完整內容

近年來,隨著提示學習方法在自然語言處理領域被提出,其日益受到研究人員廣泛關注.它通過將各類下游任務重 構成預訓練任務的形式,以參數高效和數據高效的方式將大規模預訓練模型應用在各類自然語言相關下游任務中.其中以 GPT 系列為代表的模型通過提示學習在對話生成和多模態圖文理解等任務上取得了巨大的成功.然而,這類模型及方法還不 能解決視覺中的稠密任務.受此啟發,一些研究人員逐漸將提示學習廣泛應用到視覺相關的各類任務當中,如圖像識別、目 標檢測、圖像分割、領域適應、持續學習等.由于目前還沒有提示學習應用在視覺相關領域中的綜述,本文將對視覺單模態 領域以及視覺語言多模態領域的提示學習方法展開全面論述和分析.作為回顧,我們首先簡要介紹自然語言處理領域的預訓 練模型,并對提示學習的基本概念、下游應用形式以及提示模版類型進行闡述和分類.其次,我們分別介紹視覺單模態領域 以及視覺語言多模態領域里提示學習方法適配的預訓練模型和任務.再次,我們分別介紹視覺單模態領域以及視覺語言多模 態領域的提示學習方法.在自然語言處理領域,提示學習方法以繼承預訓練形式實現多任務統一為主要目的;與此不同,在 視覺相關領域,提示學習方法側重于面向特定下游任務進行設計.為此,我們將從方法設計上進行簡單分類,然后從應用任 務角度詳細介紹視覺單模態提示學習和視覺語言多模態提示學習方法.最后,我們對比分析了自然語言處理領域和視覺相關 領域提示學習研究的進展,并對未來研究路線給出了展望。

近年來,隨著如 GPT[1],BERT[2],T5[3]等大規 模預訓練語言模型的相繼提出,“預訓練-微調”范 式極大地推動了自然語言處理領域的發展.在這個 范式中,首先對以 Transformer[4]為主干的模型在廣 泛無標注的語料數據集上通過語言建模[1,2,5]等任務 進行自監督預訓練,然后在下游應用中針對不同的 任務設計不同的優化目標和添加新的網絡模塊,通 過對模型和添加網絡模塊的全部參數進行微調來 實現部署和應用.由于預訓練數據體量大、模型參數 多,預訓練模型具有極強的文本綜合表征和理解能 力,使得“預訓練-微調”范式在各類下游任務上都 展現出了卓越的性能.然而,這種范式存在以下幾個 問題:(1)在不同任務上都需要優化和調整模型 的全部參數,造成了巨大的計算開銷以及部署成本 的增加;(2)需要針對不同任務進行不同的優化 目標設計,不可避免地造成了預訓練與下游任務之 間的差異,限制了對預訓練知識的充分利用;(3) 收集專屬各類下游任務的訓練集對模型進行微調 成為此范式必不缺少的一個環節,不適用于數據資 源匱乏的實際應用場景. 為此,LAMA[6]、GPT-3 [7]等大規模語言模型相 繼被提出,這些大規模語言模型采用一種“預訓練 -提示-預測”的新范式,一定程度地解決了“預訓 練-微調”范式中存在的問題,再次推動了自然語言 處理領域的發展,其中的提示學習也成為近幾年的 研究熱點.不同于“預訓練-微調”范式需要將預訓 練模型通過不同的目標設計適配應用到各類下游 任務中,“預訓練-提示-預測”范式通過將下游任 務重構成預訓練任務的形式,使得各類下游任務能 夠以預訓練預測的方式被解決,這些下游任務包括事實 調查[6,8]、文本分類[9,10]、自然語言推理[11]、命名體 識別[12]、常識推理[13,14]、問答[15]等.例如,在根據影 評“這部電影很好看”對電影情感類別判斷的例子 中,不需要專門收集下游數據和額外增加一個需訓 練優化的分類層到預訓練模型,只需要將影評與提 示模版“這部電影的類型是___”串接起來作為模 型的輸入,直接借助于預訓練階段的語言建模任務 就可以在空白處預測出電影的類別.總的來說,“預 訓練-提示-預測”范式展現出了以下優勢:(1)預 訓練模型的全部參數都可以保持不變,極大降低了 下游應用的計算和部署成本;(2)通過任務重構 保證了下游任務與預訓練任務的一致性,可以更加 充分地利用預訓練模型的知識;(3)額外收集下 游訓練集在這種范式下不是必要的,除了可以和微 調的方式一樣應用在數據充足的場景下,提示學習 還可以在零樣本或者少樣本場景下使用.

在視覺單模態以及視覺語言多模態領域,“預 訓練-微調”范式被廣泛采用[16,17],也同樣存在計算 成本高、部署復雜等難題.受提示學習高效利用大規 模預訓練語言模型的啟發,很多學者將提示學習引 入到視覺單模態和視覺語言多模態領域來解決各 類相關下游任務. 目前的視覺單模態提示學習方法包括串接可 優化向量序列[18-20],添加像素級可優化擾動[21-23], 學習提示網絡層[24-26],面向特定成分的組合提示學 習[27,28],建立標簽映射[29-31],任務重構[31],網絡結 構搜索[32]等.這些方法適用的下游任務包括數據均 衡視覺分類[18,21,24,31],持續學習[19,33,34],領域泛化、 適應[20,28,35],細粒度目標檢索[36],對抗魯棒學習[23], 語義分割[37],長尾識別[38],開放集學習[39]等. 在視覺語言多模態領域,提示學習方法包括純 文本提示學習[40-42],視覺信息引導的文本提示學習 [43,44],文本或外部知識引導的文本提示學習[45,46], 文本和視覺聯合提示學習[47,48],面向特定成分的組 合提示學習[49,50],基于分布的提示學習[51,52],多任 務共享的提示學習[53],梯度引導的提示學習[54],無 監督提示學習[55],建立顏色與標簽關系[56],視覺映 射到語言空間[57]等.這些視覺語言多模態提示學習 方法被應用于各類下游任務,包括數據均衡視覺分 類[40,43,47,51,53],基礎到新類別泛化[45,46,48,52],領域泛 化[40,43,48,58],領域適應[59,60],視覺問答[61,62],圖片 描述[63,64],圖文檢索[65],視覺蘊含[61],視覺推理[66], 多標簽分類[67],開放集識別[31,68],去偏差提示學習 [69,70],組合零樣本學習[71,72],圖像分割[73,74]等. 針對自然語言處理領域中的提示學習方法[6,75] 已經有相關綜述[76]展開了全面的介紹.而在視覺相 關領域中,目前只有針對預訓練技術的綜述[77,78], 而缺少視覺領域提示學習方法的綜述.為此,本文對 單模態視覺以及多模態視覺語言領域中的提示學 習方法展開全面介紹.

我們將首先介紹自然語言處理領域的預訓練 模型和提示學習方法[6,75]的基本概念,并且結合大 規模預訓練語言模型的預訓練任務簡要介紹提示 學習的應用形式和模版類型.其次,我們將分別介紹 視覺單模態與視覺語言多模態領域里的預訓練模 型.再次,我們將針對提示學習在各類下游任務上的 廣泛應用,分別詳細介紹視覺單模態以及視覺語言多模態領域中針對各類應用任務提示學習方法的 設計以及特點的分析.最后,我們給出在未來研究中 視覺和多模態提示學習方法發展的方向,并總結全 文.全文組織結構如圖 1 所示.

付費5元查看完整內容

Transformer架構在自然語言處理和計算機視覺等多個領域展現了顯著的成功。當涉及到圖學習時,transformer不僅需要捕捉節點對之間的交互,還需要保持揭示它們之間潛在關系和鄰近性的圖結構,顯示出捕捉不同圖結構的表達能力。因此,已經提出并廣泛應用了各種結構保持圖transformer,用于生物信息學和化學信息學中的圖級任務。然而,與圖結構保持相關的策略在文獻中尚未得到良好的組織和系統化。在本文中,我們提供了結構保持圖transformer的全面概述,并從它們的設計目標的角度對這些方法進行了概括。首先,我們將策略分為四個主要組:節點特征調制、上下文節點采樣、圖重寫以及transformer架構改進。然后,我們根據圖結構保持的覆蓋范圍和目標進一步細分策略。此外,我們還討論了圖transformer模型在保持圖結構和理解圖的本質方面的挑戰和未來方向。

付費5元查看完整內容

多模態(視覺-語言)模型,如CLIP,正逐漸取代傳統的監督預訓練模型(例如,基于ImageNet的預訓練)成為新一代的視覺基礎模型。這些模型通過從數十億個互聯網圖像-文本對中學習,形成了強大且一致的語義表示,并可以在零樣本的情況下應用于各種下游任務。然而,在醫學成像和遙感等一些細粒度領域,多模態基礎模型的性能往往不盡人意。因此,許多研究者開始探索這些模型的少樣本適應方法,逐漸衍生出三種主要技術途徑:1)基于提示的方法;2)基于適配器的方法;3)基于外部知識的方法。盡管如此,這一迅速發展的領域產生了大量結果,但尚無全面的綜述來系統地整理研究進展**。因此,在這篇綜述中,我們介紹并分析了多模態模型少樣本適應方法的研究進展,總結了常用的數據集和實驗設置,并比較了不同方法的結果**。此外,由于現有方法缺乏可靠的理論支持,我們推導了多模態模型的少樣本適應泛化誤差界限。該定理揭示了多模態基礎模型的泛化誤差受三個因素的約束:域間差異、模型容量和樣本大小。基于此,我們從以下幾個方面提出了三種可能的解決方案:1)自適應領域泛化;2)自適應模型選擇;3)自適應知識利用

人工智能正在越來越多地應用于廣泛的關鍵行業,包括語音識別、圖像識別、自動駕駛、智能制造、醫學診斷、金融風險控制等。在用人工智能技術賦能各個領域的過程中,經常會遇到與碎片化和多樣化需求相關的挑戰。過去,模型通常具有較小的參數規模和有限的泛化能力。一個模型只能應對單一場景,導致成本高昂和泛化性能差。近年來,越來越多的研究者開始關注具有更強泛化能力的預訓練基礎模型。

自2018年以來,如BERT [1]、盤古 [2]、PaLM [3]、GPT4 [4]等基礎模型的訓練數據和參數規模呈指數級增長,導致在各種自然語言理解任務中的性能顯著提高。與此同時,基礎模型的發展也逐漸從單一模態(如文本、語音、視覺等)演變為多模態融合。越來越多的研究機構開始關注多模態預訓練基礎模型,如ViLBERT [5]、CLIP [6]、DeCLIP [7]、FILIP [8]、PyramidCLIP [9]、OFA [10]、BEiT-3 [11]、ERNIE-ViL [12]和Data2vec [13]。

2021年初,OpenAI發布了CLIP,這是一個大規模的多模態模型,用于對齊圖像和文本,它使用數十億互聯網數據進行預訓練,通過對比學習獲得豐富的視覺語言知識。雖然預訓練的CLIP模型可以在推理階段通過使用文本特征作為分類權重來實現零樣本預測,但這種方法通常只在諸如ImageNet之類的通用領域中表現出色,在處理某些細粒度領域的數據時表現不佳。這是因為這些模型在預訓練階段主要使用通用領域的數據,而在面對特定的下游任務時,數據分布往往與預訓練數據不同。因此,有必要使用下游任務的特定數據對模型進行微調。為了通過微調提高模型的泛化性能,研究人員首先提出了基于提示的微調適應方法(例如,CoOp [14]),該方法將CLIP文本端的固定文本輸入視為可學習的向量,然后使用少量樣本進行微調,以適應下游任務。另一種常用于增強少樣本適應能力的方法是基于適配器的微調,如CLIP-Adapter [15]。這種方法涉及在預訓練模型中添加簡單的適配器結構,然后使用少量樣本數據微調適配器參數,使基礎模型適應下游任務。此外,引入基礎語言模型或外部知識(如知識圖譜,例如,CuPL [16])的方法可以幫助模型更好地處理未見樣本,增強其語義理解和魯棒性,從而提高其在少樣本適應任務中的性能。上述三種方法已廣泛用于各種下游適應任務,但缺乏一個全面的綜述來系統地整理這些方法。因此,我們詳細闡述并比較這些方法,并探索它們的未來發展方向,以進一步提高預訓練模型的性能和泛化能力。

本文的貢獻如下:

? 我們全面回顧和整理了多模態少樣本適應方法,并將現有方法分類為基于提示的微調適應方法、基于適配器的微調適應方法、基于外部知識的適應方法以及其他方法。在基于提示的微調適應方法中,我們進一步將其細分為文本提示微調、視覺提示微調、多模態提示和多任務提示方法。關于基于適配器的微調適應方法,我們將其分類為單模態適配器微調和多模態適配器微調。在使用外部知識的方法中,我們區分了帶有外部知識的預訓練方法和利用外部知識的下游適應方法。

? 我們回顧了11個常用數據集,用于評估多模態基礎模型的下游泛化性能。我們提供了四種實驗設置的詳細描述,以驗證多模態基礎模型在少樣本條件下的適應性能。展示了四種不同設置的實驗結果,并對這些結果進行了比較分析。我們強調了不同類型方法能有效提高多模態基礎模型泛化性能的原因。

? 我們討論了現有多模態基礎模型的少樣本適應方法的共同缺點,并分析了域適應問題。從統計機器學習理論中跨域泛化的誤差界限出發,我們推導了多模態基礎模型的少樣本適應誤差界限,揭示了現有方法面臨的主要挑戰是上游和下游域分布的無效適應、模型選擇的適應性不足以及數據和知識利用不足。

II. 多模態基礎模型的預訓練

近年來,大規模預訓練模型已受到學術界和工業界的廣泛關注。最初,基礎模型預訓練的相關工作主要集中在自然語言處理領域,在這個領域,如BERT [1]和GPT [17]這樣的自監著學習語言模型展現出比傳統方法更好的自然語言理解和生成能力。在計算機視覺領域,范式也從監督預訓練轉變為自監督預訓練。自監督預訓練的視覺模型性能顯著提高,從最初基于數據增強的模型(如SimCLR [18]和MoCo [19])演變到最近基于隨機掩蔽方法的模型(如MAE [20]和BEiT [21])。然而,預訓練的語言模型無法接收視覺輸入,導致它們無法將語言理解的優勢擴展到多模態下游任務(如視覺問答VQA)。另一方面,用于視覺預訓練的監督信號通常僅限于數據增強和隨機掩蔽,這阻止了它們在開放世界中學習更豐富的語義表征。因此,我們最近見證了大規模預訓練多模態模型的迅速發展,這些模型結合了視覺和語言模態,如表I所示。

III. 多模態基礎模型的少樣本適應方法

為了有效提高模型在特定領域的泛化性能,有必要使用有限的樣本對多模態基礎模型進行微調,使其具有更廣泛的應用。這些方法可以定義為多模態基礎模型的少樣本適應方法。本章將分為四個部分,提供現有多模態基礎模型方法的詳細概述,即:基于提示的微調適應方法、基于適配器的微調適應方法、基于外部知識的適應方法,以及其他方法

A. 基于提示的微調適應方法

  1. 文本提示基微調適應:在自然語言處理領域,基于提示的微調適應[34]–[38]是解決大型語言模型少樣本泛化問題的經典方法。它涉及將文本輸入的一部分作為可學習向量,并使用下游任務數據對其參數進行微調,使模型能夠適應特定的下游任務。這種方法的優勢在于它避免了文本提示的手動設計,有效地通過僅對模型輸入的特定部分進行微調來減輕過擬合風險。受此啟發,一些研究人員也開始為多模態基礎模型設計基于提示的微調適應方法。CoOp [14]首次將提示學習的思想納入多模態預訓練基礎模型的下游任務適應中。它使用可學習的詞嵌入來自動構建上下文提示,而不是為每個任務手動設計提示模板。如圖1所示,單個類別標簽{object}被轉換為綜合文本提示“[V]1, [V]2, ..., [V]m, {object}”。其中,[V]i代表可調整的詞向量。然后計算分類損失以使用下游任務數據微調這些詞向量,使模型能夠自主獲取適應下游任務的文本輸入。隨后,Zhou等人[39]引入了條件性上下文優化(CoCoOp),該方法構建了一個元網絡來學習圖像的特征。這些特征然后與提示向量結合以增強CoOp在新類別數據上的泛化性能。為了有效利用預訓練模型的零樣本能力,Huang等人[40]提出了無監督提示學習(UPL)。它選擇高置信度的零樣本預測結果作為偽標簽來監督提示向量的學習。類似地,Prompt-aligned Gradient(ProGrad)[41]使用零樣本預測結果來約束模型梯度更新的方向,從而避免少樣本模型與泛化知識之間的沖突,并減輕過擬合問題。然而,由于視覺信息的豐富多樣性,學習僅一個文本提示難以匹配復雜的視覺數據。為解決這一問題,Chen等人[42]提出了使用最優傳輸的提示學習(PLOT)。它用于學習多個不同的文本提示,其中不同的文本提示被視為圖像位置的描述,使用最優傳輸理論來匹配文本提示與局部圖像特征。Lu等人[43]引入了提示分布學習(ProDA),以學習提示分布并從這些分布中采樣不同的文本提示。此外,為了充分利用多任務數據之間的相關性,Ding等人[44]提出了用于提示調整的軟上下文共享(SoftCPT),該方法設計了一個任務共享元網絡,將預定義任務名稱和可學習的元提示作為輸入,以借助多任務數據微調提示。

  2. 視覺提示基微調適應:上述所有方法僅微調CLIP的文本部分,而CLIP作為多模態模型,視覺和文本兩方面同等重要。僅微調文本提示無法改善視覺編碼器提取特征的能力,提取的視覺特征可能與下游任務的目標特征不匹配。因此,受到文本提示微調適應的啟發,一系列視覺提示微調適應方法應運而生。現有的視覺提示微調適應方法主要包括令牌級微調適應和像素級微調適應。視覺提示調整(VPT)[45]引入了以令牌形式的可學習視覺提示。類感知視覺提示調整(CAVPT)[46]在此基礎上進一步包括一個交叉注意模塊,使視覺提示更加關注下游任務的目標。與基于令牌的方法相反,Bahng等人[47]建議直接在圖像周圍以填充格式添加像素級視覺提示,以增強視覺提示。Wu等人[48]進一步提出了增強視覺提示(EVP),通過縮放和填充而不是直接在原始圖像周圍填充。

  3. 多模態提示基微調適應:除了單獨學習文本和視覺提示外,還可以同時學習多模態提示,以更好地對齊文本和視覺特征。文本和視覺特征具有固有的差異,為了在學習多模態提示時加強它們之間的聯系,多模態提示學習(MAPLE)[49]使用copula函數將文本提示轉換為視覺提示。統一提示調整(UPT)[50]首先學習一個通用提示,然后將其分解為文本和視覺提示。另一方面,多任務視覺語言提示調整(MVLPT)[51]引入了多任務學習的概念,使用跨任務知識微調文本和視覺提示。

B. 基于適配器的微調適應方法

1. 單模態適配器基微調適應:在自然語言處理(NLP)領域,適配器的概念最初由谷歌團隊于2019年引入,用于微調大型語言模型[52]。在下游任務訓練中,該方法凍結原始語言模型的參數,僅更新作為適配器模塊添加的少量參數。由于其參數效率高、設計靈活性和高魯棒性等優點,這種方法近年來在NLP領域受到了廣泛的研究關注[53]。最近,基于適配器的方法也被應用于計算機視覺領域的視覺變換器(ViTs)中。Jie等人[54]通過引入卷積旁路(Convpass)解決了ViTs中適配器結構缺乏歸納偏置的問題。此外,他們提出了因子調整(FacT,引用為[55]),以進一步提高參數效率的遷移學習效率,以滿足實際應用中的存儲約束。

2. 多模態適配器基微調適應:上述基于適配器的方法都適用于自然語言處理或計算機視覺中的單模態基礎模型。近年來,基于適配器的方法也被擴展到多模態基礎模型中,以增強下游泛化能力。Gao等人[15]引入了CLIP-Adapter,該適配器在凍結骨干網絡后添加了一個全連接層適配器來學習額外知識。然后,它基于殘差連接將這些知識與零樣本預測結果合并,如圖2所示。基于這些發展,張等人引入了Tip-Adapter[56]。該方法基于下游少樣本訓練數據構建分類器,并以線性加權方式將其預測與原始零樣本分類器的結果結合,以增強模型的預測性能。SVL-Adapter[57]在適配器之前融合了一個預訓練的自監督視覺編碼器,以提取更魯棒的視覺特征。然而,上述方法僅使用跨模態對比損失,沒有考慮少樣本數據集的視覺特定對比損失。為解決這一問題,彭等人[58]提出了語義引導的視覺適應(SgVA-CLIP),通過隱式知識蒸餾引導視覺適配器的參數更新,以確保圖像-文本關系的一致性。為了增強適配器的跨模態交互能力,CALIP[59]利用注意力圖融合文本和圖像特征,并在融合前后插入兩個可微調的線性層。此外,跨模態適配器(CMA)[60]和多模態視頻適配器(MV-Adapter)[61]通過在兩種模態之間共享適配器權重實現跨模態交互。這些方法考慮了單模態和多模態場景,但沒有充分整合每種模態的優勢。為解決這一問題,陸等人[62]提出了UniAdapter,以統一單模態和多模態適配器。

C. 基于外部知識的適應方法

1. 基于外部知識的預訓練方法:預訓練基礎模型通過從互聯網上大量數據中挖掘相關信息,具有學習通用表征的能力。然而,在這些數據驅動的模型中,知識通常是隱性的,沒有明確鏈接到人類對世界的理解或常識性知識。近年來,數據和知識驅動的預訓練方法不斷涌現,研究人員開始探索將更全面的外部知識,如知識圖譜,融入基礎模型中。這種整合旨在使這些模型更加魯棒、可靠和可解釋。ERNIE[63]融合了一個知識編碼器,用于實體知識提取和異構信息融合。K-BERT[64]檢索與模型輸入相關的外部知識,并構建具有豐富上下文知識的句子樹作為模型輸入。近年來,一些工作也開始為多模態基礎模型的預訓練注入知識。例如,ERNIE-ViL[65]整合了來自場景圖的知識,KM-BART[66]通過創建額外的預訓練任務來模擬一般視覺知識,K-LITE[67]融合了包括WordNet和維基百科定義在內的各種外部知識源。

2. 基于外部知識的下游適應方法:上述方法在預訓練階段引入外部知識。然而,在數據樣本有限的下游少樣本適應場景中,也有必要增強外部知識以確保模型的性能。最常見的方法之一是通過查詢大型語言模型為每個類別生成更豐富的文本描述。圖3展示了這種方法的示例。通過語言模型定制提示(CuPL)[16]是第一個將外部知識融入多模態基礎模型下游泛化過程的方法。CuPL通過向GPT-3提問生成每個類別的多個描述性陳述,豐富類別的語義,從而提高零樣本分類性能。然而,CuPL使用GPT-3生成的句子可能存在描述性差和可靠性問題。為解決這些問題,Menon等人[68]進一步完善了基于GPT-3的知識增強過程。他們提示GPT-3以短語形式生成語義屬性描述,增強了模型的可解釋性。為了在可解釋性和性能之間取得平衡,語言引導瓶頸(LaBo)[69]使用GPT-3生成大量候選特征描述符空間,同時考慮特征相對于其他類別的區分性和當前類別的覆蓋率。它篩選出最佳子描述符空間以進行分類決策,從而揭示模型的決策邏輯。ELEVATER[70]還融合了來自GPT-3、WordNet和維基詞典等來源的定義。實驗結果表明,外部知識可以增強多模態基礎模型的下游泛化性能。然而,不同知識來源有不同的側重點和特性。例如,WordNet具有相對豐富和準確的知識,但覆蓋率較低,而GPT-3具有更廣泛的知識覆蓋范圍,但可能缺乏可靠性。此外,與上述使用外部知識增強文本語義的方法不同,SuS-X[71]專注于增強多模態模型的視覺樣本。

付費5元查看完整內容

擴散模型(DMs)在不需要對抗訓練的情況下展示了最先進的內容生成性能。這些模型使用兩步過程進行訓練。首先,前向擴散過程逐漸向數據(通常是圖像)添加噪聲。然后,反向擴散過程逐步去除噪聲,將其轉化為被建模目標分布的樣本。DMs的靈感來源于非平衡態熱力學,具有固有的高計算復雜度。由于在高維空間中頻繁的函數計算和梯度計算,這些模型在訓練和推理階段都會產生大量的計算開銷。這不僅阻礙了擴散模型的民主化,而且阻礙了擴散模型在實際應用中的適應性。更不用說,由于過度的能源消耗和對環境的擔憂,計算模型的效率正在迅速成為一個重要的問題。這些因素導致了文獻中對設計計算高效的DM的多項貢獻。在這篇綜述中,我們介紹了視覺擴散模型的最新進展,特別關注影響DMs計算效率的重要設計方面。我們特別強調最近提出的設計選擇,這些設計選擇導致了更高效的DM。不像最近的其他評論,從廣泛的角度討論擴散模型,本綜述旨在通過強調文獻中的設計策略,推動這一研究方向向前發展,為更廣泛的研究社區帶來了可實施的模型。從計算效率的角度展望了視覺中擴散模型的發展前景。深度生成模型(DGMs)——已經成為人工智能中最令人興奮的模型之一,它挑戰了人類的創造力[1]。變分自編碼器、生成對抗神經網絡、歸一化流和擴散模型的發展在人工創造力方面引起了轟動,特別是在圖像嵌入任務方面。圖像合成和文本到圖像的生成。由于生成對抗網絡(GANs)輸出的高質量,近年來受到了廣泛關注。然而,擴散模型最近成為最強大的生成模型,在生成質量[2]、[3]、[4]方面挑戰了GANs的統治地位。擴散模型正變得越來越受歡迎,因為它們提供訓練穩定性以及高質量的圖像和音頻生成結果。這些模型試圖解決GANs的固有局限性,如由于梯度消失而導致的生成器訓練可能失敗、對抗性學習的開銷以及其收斂失敗[5]。另一方面,擴散模型使用了一種不同的策略,它涉及到用高斯噪聲污染訓練數據,然后學習通過反轉這個噪聲過程來恢復數據。擴散模型提供了額外的可伸縮性和并行性的特性,這增加了它們的吸引力。此外,隨著討論模型經過去噪的迭代和迭代,偏離現實太遠的可能性也就更小。生成步驟經過每個檢查點,在每個步驟中,可以向圖像添加越來越多的細節。因此,最近所有超級強大的圖像模型,如DALLE、Imagen或Midjourney和stable Diffusion都是基于擴散模型[6]、[7]的。

擴散模型有各種各樣的應用,包括圖像去噪、圖像生成、時間序列生成、語義分割、圖像超分辨率、大工作臺機器學習、圖像嵌入、決策和圖像間翻譯[4]。因此,自降噪擴散概率模型[8]引入以來,關于該主題的研究論文數量持續上升,每天都有新的模型被提出。然而,最近的熱潮是在穩定擴散(Diffusion)引入后興起的,這是一種機器學習、文本到圖像模型,可以從自然語言描述生成數字圖像。圖1提供了關于擴散模型的文獻的統計數據和時間軸概述,以顯示它們最近在視覺界的流行程度。DMs屬于概率模型的范疇,需要過多的計算資源來建模未觀察到的數據細節。他們訓練和評估模型,需要迭代估計(和梯度計算)的RGB圖像在高維空間[9]。例如,最強大的DM訓練通常需要數百個GPU天(例如150-1000 V100天),重新估計輸入空間的噪聲版本可能導致昂貴的推斷,因此每個模型生成50,000個樣本大約需要5天A100 GPU。這對研究界和一般用戶有兩個影響:第一,訓練這樣的模型需要大量的計算資源,只適用于領域的一小部分,并留下巨大的碳足跡。其次,評估一個已經訓練好的模型在時間和內存方面也很昂貴,因為相同的模型架構需要連續運行大量的步驟(例如25 - 1000步)[10]。早期關于擴散模型的工作只關注于高質量的樣本生成,而不考慮計算成本[8],[11],[12]。然而,在達到這一里程碑后,最近的工作集中在效率上。因此,為了解決生成過程緩慢的真正缺點,新的趨勢是許多增強的工作集中于效率的提高。我們稱這些模型的增強類別為有效擴散模型。在這篇綜述文章中,我們基于效率的標準來評價現有的方法,而不犧牲樣本的高質量。此外,我們討論了模型速度和采樣質量之間的權衡。擴散模型依賴于擴散步驟的長馬爾可夫鏈來生成樣本,因此在時間和計算方面可能相當昂貴。已經提出了新的方法,使該過程大大加快,但采樣速度仍慢于GAN[13],[14]。

為什么模型效率如此重要?人工智能是能量密集型的,對人工智能的需求越高,我們使用的能源就越多。訓練一個復雜的AI模型需要時間、金錢和高質量的數據[15],[16]。它也消耗能量。當我們使用能源時,它會產生二氧化碳。二氧化碳等溫室氣體將地球表面附近的熱量困在大氣中,導致全球氣溫升高,破壞脆弱的生態系統。OpenAI在45 tb的數據上訓練了GPT-3模型[17]。英偉達使用512 V100 gpu對MegatronLM的最終版本進行了9天的訓練,MegatronLM是一種與GPT-3相當但小于GPT-3的語言模型。單個V100 GPU的功耗可能高達300瓦。如果我們估計功耗為250瓦,512 V100 gpu使用128000瓦或128千瓦[18]。對MegatronLM來說,9天的跑步訓練是27648千瓦時。根據美國能源情報署(US Energy Information Administration)的數據,普通家庭每年的耗電量為10649千瓦時。因此,訓練最終版本的MegatronLM所需的能源幾乎相當于三個房子一年的消耗。數據中心對環境的影響是最大的。

這篇綜述的動機是深入探索擴散方法的設計,并強調設計選擇可以提供對修正模型效率的洞察。與以往對擴散模型進行一般分類的工作不同,本文將對導致有效擴散模型和無效擴散模型的設計選擇進行精確分類。這將指導未來計算機視覺任務計算效率擴散模型的研究。論文的其余部分組織如下:第二節提供了擴散模型的概述,簡要說明了三個代表性的架構,第三節提供了設計選擇的描述,并討論了這些選擇如何導致計算效率的設計,第四節比較了代表性的作品w.r.t質量和效率權衡。第五部分討論了未來的工作方向,然后是結論和參考文獻。

**擴散模型概述 **概率擴散模型的原始思想是從隨機噪聲中模擬特定的分布。因此,生成的樣本的分布應該接近原始樣本的分布。它包括一個正向過程(或擴散過程),其中復雜數據(通常是圖像)被逐步噪聲化,和一個反向過程(或反向擴散過程),其中噪聲從目標分布轉換回樣本。在這里,由于它們對有效擴散體系結構的影響,我們特別描述了三個模型。它包括去噪擴散概率模型(DDPM)[8]、潛在擴散模型(LDM)[10]和特征金字塔潛在擴散模型[19]。

有效擴散模型的有效策略

擴散模型需要重構需要采樣的數據分布。有效擴散模型的主要障礙是采樣過程的低效,因為從DDPM生成樣本非常慢。擴散模型依賴于擴散步驟的長馬爾可夫鏈來生成樣本,因此在時間和計算方面可能相當昂貴。近年來,為加快抽樣程序作出了重大努力。我們將這些影響策略分為兩類:有效設計策略(EDS)和有效過程策略(EPS),前者建議對基線擴散模型的設計進行修改,后者建議如何提高擴散模型的效率或加快采樣過程。然而,這些策略是通過修改文獻推斷出來的,未來的工作可能會包括一些下文未提及的新策略。

付費5元查看完整內容

Attention模型目前已經成為神經網絡中的一個重要概念,注意力模型(AM)自機器翻譯任務【Bahdanau et al 2014】首次引入進來,現在已經成為主流的神經網絡概念。這一模型在研究社區中非常受歡迎,適用領域非常廣泛,包括自然語言處理、統計學習、語音和計算機視覺方面的應用。本篇綜述提供了關于注意力模型的全面概述,并且提供了一種將現有注意力模型進行有效分類的分類法,調查了用于不同網絡結構的注意力模型,并顯示了注意力機制如何提高模型的可解釋性,最后,討論了一些受到注意力模型較大影響的應用問題。

付費5元查看完整內容
北京阿比特科技有限公司