亚洲男人的天堂2018av,欧美草比,久久久久久免费视频精选,国色天香在线看免费,久久久久亚洲av成人片仓井空

近期基礎模型的浪潮在計算機視覺(CV)及其他領域取得了巨大成功,其中“任意分割模型”(SAM)激發了探索任務無關的視覺基礎模型的熱情。憑借其卓越的零樣本泛化能力,SAM 正在挑戰許多傳統的計算機視覺范式,在各種圖像分割和多模態分割任務(如文本到掩碼)中表現出色,同時也在視頻領域取得了卓越的表現。此外,最新發布的 SAM 2 再次點燃了對圖像和視頻可提示視覺分割的研究熱情。然而,現有的綜述主要集中在 SAM 在各種圖像處理任務中的應用,視頻領域的全面深入的綜述明顯缺乏。為彌補這一空白,本文對基礎模型時代的視頻領域 SAM 進行了系統性的綜述。作為首個回顧 SAM 在視頻領域進展的工作,本文重點討論了其在各種任務中的應用,探討了基礎模型在廣泛應用中的最新進展和創新機遇。我們首先簡要介紹了 SAM 和視頻相關研究領域的背景。隨后,我們提出了一個系統的分類法,將現有方法劃分為三個關鍵領域:視頻理解、視頻生成和視頻編輯,并分析總結了它們的優缺點。此外,本文還提供了基于 SAM 的方法與當前最先進方法在代表性基準測試中的對比結果以及深刻的分析。最后,我們討論了當前研究面臨的挑戰,并展望了 SAM 在視頻領域及其他相關領域未來的研究方向。 關鍵詞:綜述、任意分割模型、視頻理解、視頻生成、視頻編輯。

近年來,基礎模型[1]–[3]成為了一個重要的研究領域,革命性地改變了自然語言處理(NLP)、計算機視覺(CV)和機器學習等多個領域。這些模型通常在大規模數據集上進行預訓練,使其能夠學習輸入數據的通用表示,并提取有意義的特征,進一步微調以適應特定的應用。雖然基礎模型主要在NLP領域得到了廣泛關注,但其應用范圍遠不止于此。在計算機視覺領域,研究人員正在探索基礎模型在圖像理解[4]–[6]、目標檢測[7]、[8]、圖像分割[9]、[10]及其他與視覺相關的任務[11]、[12]中的應用。

一個顯著的例子是“任意分割模型”(SAM)[13],它在探索通用且任務無關的基礎模型方面取得了顯著進展。通過在超過11萬張圖像上的10億個掩碼上進行訓練,SAM能夠基于多種提示(例如點、框和文本)生成高質量的分割掩碼。更重要的是,SAM在各種分割任務中表現出強大的零樣本泛化能力(例如交互式分割、語義分割和全景分割),無需像以前那樣進行重新訓練或微調[14]。因此,SAM的出現使得許多研究人員認為這是計算機視覺領域的“GPT-3時刻”,因為SAM已經學會了“物體是什么”的一般概念,即使對于未知的物體、不熟悉的場景(例如水下環境和細胞顯微鏡以及模糊的情況)也是如此[15]。大量研究人員已將SAM擴展到不同的領域[16]–[20]。如圖1(a)所示,自2023年4月以來,關于SAM的研究工作數量顯著增加。

任意分割模型2(SAM 2)[21]通過將Transformer框架與流式存儲器集成,增強了其前身SAM,提供了更強的實時視頻分割能力。SAM 2在大規模且多樣化的任意分割視頻(SA-V)數據集上進行訓練,特別是在視頻任務中,表現出比SAM更高的精度和效率,并為跨不同時空上下文的可提示視覺分割提供了強大的解決方案。 將SAM納入視頻任務。視頻在當今數字時代是一個極其重要的媒介[22]。與靜態圖像和純文本相比,視頻提供了強大的視覺表現力、增強的感知和記憶、強大的敘事能力和豐富的交互性,使其成為一種更有效的交流和娛樂媒介[2],[22]。對SAM在視頻任務中的探索正在迅速成為一個蓬勃發展的研究領域[3],[23]–[25]。盡管SAM在各種圖像任務中顯示出巨大的潛力,但它在視頻任務中仍面臨諸多挑戰,如確保SAM能夠在長視頻幀中始終如一地生成一致的掩碼[16],[19],以及提高其處理大規模視頻數據的可擴展性和效率[26],[27]。目前大多數與視頻相關的工作通常直接應用SAM以實現創新應用的顯著效果。為了全面理解這一前沿研究領域,如圖1(b)所示,我們進行了這次綜述,并將已有的創新應用工作劃分為三個主要類別(即視頻理解、視頻生成和視頻編輯)。

視頻中的獨特挑戰。與其他任務(如圖像和文本處理)相比,視頻任務呈現以下獨特挑戰[3],[22]–[25]。1)時間信息處理:視頻數據不僅包含空間信息,還包含時間動態。因此,處理視頻數據需要考慮時間關系和動態變化。2)高維數據:視頻的每一幀都由大量像素組成的高維數據組成,導致數據量龐大,要求更多的計算資源和存儲空間。3)連續性和穩定性:視頻通常是連續的,處理時需要考慮幀之間的連貫性和穩定性,以在分析和應用中獲得可靠的結果。4)時間成本:由于視頻數據量大,處理視頻任務的時間成本通常更高,對計算資源和算法效率提出了更高的要求。5)動作和事件識別:與靜態圖像相比,視頻任務通常涉及動作和事件識別,要求模型理解和學習時間序列中的動態變化。上述挑戰預示著視頻任務的極端復雜性和巨大的研究機會[16],[22],[27]。

與現有綜述的對比。盡管已有三篇綜述[3],[9],[31]提出了關于SAM的研究,但我們的綜述與現有綜述的區別主要體現在三個方面。1)以往基于SAM的綜述僅聚焦于醫學圖像分割任務[9]或大致覆蓋視頻任務[3],[31],然而,視頻領域的SAM是一個具有許多創新機會和潛在應用的挑戰性和前景廣闊的研究課題[22]。這激勵我們進行一項專門針對這一特定領域(即視頻領域的SAM)的系統性綜述,以惠及相關研究人員和實踐者。2)本綜述提供了一個易于理解且高度結構化的視頻領域SAM分類法,將現有方法分為三個主要類別(即視頻理解、視頻生成和視頻編輯),這與以往的綜述有顯著不同。3)我們提供了全面的性能評估,并深入分析了這些前沿方法的優缺點,以幫助讀者選擇適合其特定應用的基準,并提供改進現有方法的寶貴見解。此外,我們基于系統的文獻綜述和全面的性能評估,提出了一些潛在的未來發展趨勢。

本綜述的主要貢獻有三點我們全面回顧了基礎模型時代的視頻領域SAM的發展,并對該領域的最新進展進行了系統性綜述,歸納為視頻理解、視頻生成和視頻編輯三個主要類別。據我們所知,這是首個專注于這一特定領域的系統性綜述。 我們全面比較了基于SAM的方法與當前代表性數據集上的最先進方法,尤其是對這些前沿方法的優缺點進行了深入分析,幫助讀者為其特定應用選擇合適的基準,并提供了改進現有方法的寶貴見解。 基于系統的文獻綜述和全面的性能評估,我們提出了一些潛在的未來發展趨勢。

本綜述的剩余部分組織如下:第二部分總結了背景知識,包括SAM和SAM 2的工作流程、研究路線及相關研究領域。第三部分主要概述了視頻理解領域的SAM方法。第四部分深入探討了視頻生成領域的主要研究。第五部分闡述了視頻編輯領域的SAM方法。第六部分介紹了基準數據集和評估方法。第七部分總結了本文,并強調了未來研究的潛在方向。

****

使用SAM進行視頻理解

在本節中,我們主要介紹了使用SAM進行的各種視頻理解任務,如圖3所示。

**A. 視頻對象分割

視頻對象分割(VOS)是計算機視覺中的一項關鍵任務,用于分割視頻中的主要對象。通過結合預訓練的分割模型SAM,最近的工作在VOS中表現出巨大潛力。我們將其簡要總結為語義級、實例級、全景級和實體級(見圖4)。

  1. 視頻語義分割:Zhang等人[20]首次采用SAM進行無監督的視頻對象分割(VOS),無需人工注釋即可執行分割。具體來說,他們在IDOL[96]中移除了掩碼預測分支,使其適應為一種新穎的視頻顯著對象跟蹤方法,旨在發現顯著對象及其時空軌跡。然后,他們將生成的軌跡作為提示與SAM結合,以逐幀獲取掩碼結果。

此外,利用SAM出色的分割能力進行的一次性對象分割在圖像分割和視頻分割中也表現良好。Liu等人[14]提出了一種無訓練框架,Matcher,用于一次性對象分割。他們集成了一個通用特征提取模型(例如DINOv2[10]、CLIP[97]和MAE[98])和一個與類別無關的分割模型(即SAM),通過三種操作實現可控的掩碼生成。隨后,Zhang等人[19]介紹了一個無需訓練的個性化SAM,稱為PerSAM,以SAM僅分割用戶提供的對象。具體來說,他們首先通過用戶提供的圖像和掩碼獲得目標對象的位置置信度圖。然后,基于置信度,他們提出了目標引導的注意力和目標語義提示,以幫助SAM的解碼器進行個性化分割。此外,他們還提供了一個微調變體PerSAM-F,僅需10秒鐘的2個參數來緩解掩碼歧義問題。這些方法都可以用于逐幀設置的圖像和視頻對象分割。

除了這些,Chang等人[64]在PVUW2023 VSS軌道中采用SAM作為語義分割的后處理技術。Zhou等人[65]提出了一個新穎的移動對象分割(MOS)數據集,稱為DSEC-MOS,具有高時間分辨率和低延遲的信息變化,以促進MOS的研究。

視頻實例分割:為了解決SAM存在的掩碼邊界粗糙和預測不準確的問題,Ke等人[16]提出了HQ-SAM,為SAM配備了更準確地分割任何對象的能力。具體來說,他們引入了一個輕量級的高質量輸出Token來替換原始SAM的輸出Token,并通過全局-局部特征融合來融合全局語義上下文和局部邊界細節。他們固定預訓練模型參數以保持SAM的原始性能,并僅在他們構建的數據集上訓練了44K精細掩碼的引入組件的少量參數。

視頻全景分割:端到端視頻分割模型在大詞匯表設置中的表現不佳是一個重要挑戰。在大詞匯表數據集VIPSeg[99]中,最近的一項工作[100]在視頻全景質量得分上僅達到26.1。Cheng等人[66]指出,類別和場景數量的增加使得很難通過端到端訓練取得良好表現。因此,他們提出了一種解耦視頻分割方法 (DEVA),通過特定任務的圖像級分割和與類別/任務無關的雙向時間傳播來實現。具體來說,SAM用于圖像級分割,采用包含目標域外數據的通用數據訓練。通過首幀分割,他們在未來幾幀中降噪誤差,以達成共識作為輸出分割。然后,將XMem[101]作為時間傳播模型適配,將分割傳播到后續幀。VIPSeg上的大量實驗驗證了其在大規模視頻全景分割中的有效性。

視頻實體分割:圖像/視頻分割任務的野外設置對現有方法是一個重大挑戰,其中沒有對域、類別、圖像分辨率和質量進行限制[67]。盡管實體分割旨在分割訓練集中未見過的類別,但缺乏實體分割數據集使得在此任務上取得良好進展變得困難。為填補這一空白,Qi等人[67]構建了一個高質量的大規模實體分割數據集,稱為EntitySeg。該數據集包含33,227張圖像,具有多域和多分辨率的高質量標注掩碼,允許評估模型的泛化能力和魯棒性。他們對現有模型進行了基準測試,發現這些模型無法很好地適應所提出的數據集。因此,他們進一步提出了CropFormer[67]框架來解決這個問題。

**B. 視頻對象跟蹤

視頻對象跟蹤(VOT)是計算機視覺中的一項基礎任務。我們將使用SAM的VOT方法分為四組:(1)通用對象跟蹤,(2)開放詞匯跟蹤,(3)點跟蹤和(4)夜間無人機(UAV)跟蹤。(1)最近,SAM強大的分割能力增強了對對象的感知,并促進了通用對象跟蹤的發展。Yang等人[23]提出了基于SAM的無訓練軌跡任意模型(TAM),實現了視頻中的高性能交互式跟蹤和分割。具體來說,他們首先使用SAM獲取對象的初始掩碼,用戶可以通過點擊選擇目標對象或修改掩碼。然后,他們采用XMem對后續幀進行VOS,使用用戶選擇的掩碼。為了避免XMem隨時間推移分割越來越粗糙的問題,他們再次使用SAM進行精細化。Cheng等人[27]提出了SAM-Track,用于分割和跟蹤視頻中的任何對象。他們結合SAM獲取分割,Grounding-DINO理解自然語言,DeAOT[102]進行跟蹤。在VOTS2023挑戰中,Zhu等人[68]提出的HQTrack獲得了第二名,達到了高質量的VOT。他們的框架具體實現了DeAOT和SAM的改進變體(即HQ-SAM[16])用于多對象分割和掩碼精細化。TREK-150對象跟蹤挑戰的第一名解決方案[103]也采用了類似的結合SAM和DeAOT的方法。他們引入了MSDeAOT作為DeAOT的改進變體,通過用參考幀中的掩碼替換邊框并將掩碼和幀輸入VOS模型。(2)Chu等人[69]利用SAM作為分割器,結合開放詞匯對象檢測器和光流估計,構建了一個零樣本開放詞匯視覺跟蹤框架OVTracktor。(3)提出了SAM-PT[70],利用VOS的稀疏點傳播。以帶有第一幀點注釋的視頻作為輸入,SAM-PT可以通過點跟蹤器生成軌跡作為提示,并使用SAM輸出預測掩碼,從而實現強大的零樣本性能。預測的掩碼還用于重新初始化并去除不可靠的點。(4)Yao等人[26]利用SAM進行實時夜間無人機跟蹤,以準確定位潛在對象并從夜間圖像中確定高質量的目標域訓練樣本。

**C. Deepfake檢測

在最近的一項研究中,Lai等人[30]探討了SAM及其變體在Deepfake檢測和定位中的性能評估,這是首次評估這些方法在特定任務中的表現。研究人員指出,現有的方法(使用LoRA[104]、SAM適配器[4]和可學習提示[105]對SAM進行微調以適應下游任務)在面部偽造定位方面的表現往往不理想,特別是在本地和全局上下文的偽造建模能力方面。為了應對這些挑戰,Lai等人[30]提出了一個創新框架,稱為detect any deepfakes(DADF),基于SAM構建。具體來說,他們在SAM中引入了一個多尺度適配器,旨在捕捉短期和長期偽造上下文,促進高效的微調。此外,他們還引入了一個重建引導的注意模塊,以增強偽造痕跡并提高模型對偽造區域的敏感性。所提出的方法在偽造檢測和定位方面表現出了最先進的性能。

**D. 視頻陰影檢測

視頻陰影檢測在各種應用中起著至關重要的作用,包括對象檢測[106]、圖像分割[107]和虛擬現實場景生成[108]。然而,訓練數據的有限性導致現有基于深度神經網絡的方法的泛化能力受到挑戰,這可能導致預測誤差在視頻傳播過程中積累[109]。特別是,當將SAM應用于單幀陰影檢測時,SAM傾向于將陰影分類為背景的一部分[18]。這給使用SAM進行陰影檢測帶來了不小的挑戰,因為它需要彌合自然對象和復雜陰影之間的差距。為了解決這一挑戰,Wang等人[18]引入了ShadowSAM,這是一個簡單但有效的框架,專門用于對SAM進行微調以適應陰影檢測。此外,通過采用長短期注意機制,他們擴展了其在高效視頻陰影檢測中的能力。

**E. 其他

  1. 音頻-視覺分割:最近,SAM被應用于音頻-視覺定位和分割[17],[71]。這兩項研究都集中在克服音頻-視覺定位和分割中的挑戰,特別是解決音頻與視頻中各種對象之間固有的不對齊問題。在[17]中,作者通過引入AV-SAM,提出了一種方法,能夠為視頻中的每個掩碼提示學習音頻對齊的視覺特征。這有助于通過像素級音頻-視覺融合引導SAM生成掩碼。該方法利用了SAM中預訓練的圖像編碼器中的音頻特征和視覺特征,以聚合跨模態表示。相反,Wang等人[71]提出了一種編碼器-提示-解碼器范式,以解決數據稀缺和數據分布不均的問題。他們利用預訓練模型的豐富知識,提出了一種語義感知音頻提示,以幫助視覺基礎模型聚焦于發聲的對象。同時,該方法鼓勵減少視覺和音頻模態之間的語義差距。此外,Bhosale等人[72]提出了CMSF,這是一種利用音頻線索生成音頻標簽并隨后提出分割掩碼的方法。這些最新的進展突顯了SAM在解決與音頻-視覺處理相關的復雜任務中的多功能性。

  2. 視頻對象指代分割:盡管SAM因其在圖像分割中的出色表現而廣受關注,但[73]中討論的一項研究突出了SAM在視頻對象指代分割(RVOS)領域的局限性。這種局限性源于對用戶交互提示的精確性要求,以及對不同模態(如語言和視覺)的有限理解。為了有效地將SAM用于RVOS并充分釋放其在視頻分割和多模態融合中的潛力,Li等人進行了開創性的研究[73]。他們通過集成來自不同模態和不同時刻的多視圖信息,探討了SAM在RVOS中的潛力。作者引入了RefSAM,這是一種新穎的方法,利用輕量級模塊和高效的微調策略,以端到端學習的方式對齊和融合語言和視覺特征。此外,他們設計了一個分層密集注意模塊,以利用多層次的視覺和文本特征,從而實現不同尺寸對象的有效跨模態分割。

**F. 特定領域

  1. 醫學視頻:SAM也為醫學視頻的分析做出了貢獻。針對SAM原始流程的兩個問題(即域間隔和對精確點或框位置的依賴),SurgicalSAM[74]引入了一種新穎的端到端高效微調方法,旨在無縫地將手術特定信息與SAM的預訓練知識結合,以增強整體泛化能力。該工作[110]全面探討了機器人手術的不同場景,并評估了SAM的魯棒性和零樣本泛化能力。SAMSNeRF[75]結合了SAM和神經輻射場(NeRF)技術,使用SAM生成手術工具的精確分割掩碼,然后通過NeRF引導動態手術場景重建的優化。Fillioux等人[111]評估了SAM在處理患者來源的類器官顯微鏡幀中的表現。MediViSTA-SAM[5]是首個將SAM適用于視頻分割的研究。SuPerPM[76]是一種大型變形魯棒的手術感知框架,利用SAM將組織區域從背景中分割出來。

  2. 域適應:最近,研究人員利用SAM增強了模型在目標域中的泛化能力,特別是在目標域數據的質量和數量不理想的情況下。Bonani等人[77]利用SAM為真實數據提供正則化信號,并引入了一個不變性-變異性損失結構。該結構用于對無標注的目標域數據進行自監督學習,促進語義分割網絡的域適應能力的魯棒性。Yao等人[26]提出了SAM-DA,一種基于SAM的域適應框架,旨在用于實時夜間無人機跟蹤。他們引入了一種創新的SAM驅動方法,從每張夜間圖像生成大量高質量的目標域訓練樣本,從而顯著增加了目標域訓練樣本的數量和質量,為域適應提供了更好的數據支持。

  3. 工具軟件:Hsieh等人[78]探討了利用工具文檔而非演示文檔來指導大語言模型(LLMs)使用新工具的可能性。文章[78]表明,使用工具文檔使得LLMs能夠以零樣本的方式使用SAM,而無需進行訓練或微調。同樣重要的是,文章展示了利用工具文檔啟用新應用的潛力。一個這樣的例子是將GroundingDino[7]與SAM結合,創建了Grounded-SAM[112],這是一種能夠在視覺內容中生成與文本相關的模型,展示了從圖像中提取有意義的文本信息的能力。

  4. 更多方向:幾項研究將SAM應用于各種應用,涵蓋了光流估計[79]、機器人學[80],[83],[113]、用于視頻游戲的強化學習(RL)[82]以及語義通信[81]。

為了解決光流估計中的“碎片化”挑戰,Zhou等人[79]使用SAM作為圖像編碼器,為光流估計提供了更豐富和更高層次的上下文特征。這一策略減少了模型專注于局部和低層次線索的傾向。在Yang等人的工作[80]中,SAM用于生成對象的分割掩碼,為模型提供豐富的語義、幾何和形狀先驗。這反過來有助于機器人感知物體姿勢并確定抓取點。類似的想法也見于[83],[113]。在[82]中,作者使用SAM增強了原始像素輸入,旨在提高RL代理在Atari視頻游戲中的表現。盡管觀察到RL代理的游戲表現有所改善,但在性能提升與計算成本之間找到適當的平衡仍然是一個持續探索的問題。此外,Raha等人[81]提出了一種基于SAM的新穎語義通信框架,在保持原始內容不變的情況下高效地傳輸序列圖像或視頻。

VII. 結論與未來方向

**A. 結論

本綜述深入探討了基礎模型時代的最新發展,重點關注了視頻領域的SAM。根據我們的了解,這是第一篇系統且全面的綜述,專注于這個特定且前景廣闊的研究領域。我們首先總結了視頻領域的獨特挑戰,強調了視頻任務的極端復雜性以及對視頻領域SAM模型的系統性綜述的迫切需求。隨后,我們概述了SAM和SAM 2、不同的研究路線以及與視頻相關的研究領域。

在此基礎上,我們詳盡地回顧了現有的研究工作,并將其分為三個關鍵領域:視頻理解、視頻生成和視頻編輯,考慮了它們各自的技術視角和研究目標。此外,我們還提供了基于SAM的方法與當前最先進方法在各種視頻任務中的比較結果,并附有許多有見地的觀察。

**B. 未來方向

通過我們的調查和深入評估,我們發現盡管SAM模型(包括SAM 2)在各種圖像和視頻任務中取得或正在取得重大突破,但仍存在許多機遇和挑戰。我們在以下幾個方面提供了視頻領域及其他領域的SAM未來研究方向: * 構建大規模視頻數據集:視覺基礎模型的顯著成就主要歸因于數十億高質量圖像數據的可用性。然而,考慮到數據收集和標注的巨大成本,目前的視頻任務通常限于相對小規模的數據集。例如,VOT數據集TrackingNet[159]包含30,643個視頻和1443萬幀,但其顯著缺點是注釋稀疏。利用SAM自動生成視頻的密集掩碼注釋是實現數據擴展的潛在解決方案[24]。

構建大規模視頻基礎模型:目前的大多數視覺基礎模型主要集中在圖像級別的預訓練和適應,這顯然在復雜和動態的視頻級別理解任務中受限。由于越來越方便的收集和存儲,視頻正逐漸成為邊緣設備和互聯網中的一個領域力量[22]。因此,為廣泛的視頻應用開發視頻基礎模型,例如醫療視頻基礎模型,成為了一個緊迫的需求。

參數高效的訓練和快速推理:從頭開始訓練具有數十億參數的視頻基礎模型必然面臨高數據維度和高計算開銷的重大挑戰。雖然有些研究嘗試通過利用預訓練模型探索新技術,例如適配器[4]和提示學習[160],以促進高效的遷移學習,但仍迫切需要減輕訓練和推理的開銷。更高效的訓練策略和模型壓縮方法可能會在計算資源有限的邊緣設備(例如汽車和手術機器人)上釋放視頻基礎模型的更多潛力。

結合更多模態:盡管當前的基礎模型在單一模態和雙模態(例如視覺與文本、視覺與音頻)方面取得了顯著進展,但整合更多模態的研究仍遠未深入。一個核心原因是缺乏大規模對齊的多模態數據[2]。一方面,收集多模態數據,例如視覺圖像、文本、音頻、點云、紅外圖像、深度圖像和事件流,對于研究多模態基礎模型至關重要。另一方面,開發一個無需配對多模態數據的統一模型[12]是一個有前景的方向。 * 可信且可解釋的視頻基礎模型:人工智能的安全性在實際應用中引發了重大關注,例如面部識別和自動駕駛中的隱私泄露和安全風險。然而,視頻基礎模型抵御各種攻擊[29]的能力仍遠未得到充分研究。此外,由于視頻基礎模型的高復雜性和快速增長的部署[3],提高其可解釋性并增強人們對決策的信任是未來研究的一個有價值方向。

視頻領域SAM的更多創新機會:由于視頻領域的SAM是一個快速發展的研究領域,我們可能無法涵蓋本綜述中的所有最新進展。實際上,有大量視頻任務尚未被SAM覆蓋或未被充分研究,例如視頻字幕生成、基于視頻的事件檢測、基于視頻的行為/動作識別、視頻摘要生成和視頻幀插值。最后但同樣重要的是,將SAM與大量傳統技術/方法(如知識蒸餾和圖學習)以及前沿技術/方法(如視頻擴散模型、可解釋AI(XAI)和具身AI)結合起來,可能會由于SAM的多功能性和即插即用特性在基礎模型時代激發更多機會。

付費5元查看完整內容

相關內容

圖像編輯旨在編輯給定的合成或真實圖像以滿足用戶的特定需求。近年來,圖像編輯作為一個前景廣闊且充滿挑戰的人工智能生成內容(AIGC)領域被廣泛研究。該領域最近的顯著進展基于文本到圖像(T2I)擴散模型的發展,這些模型根據文本提示生成圖像。T2I模型展現了非凡的生成能力,已成為圖像編輯的廣泛使用工具。基于T2I的圖像編輯方法顯著提升了編輯性能,并提供了一個用戶友好的界面,通過多模態輸入引導內容修改。在本綜述中,我們對利用T2I擴散模型的多模態引導圖像編輯技術進行了全面回顧。首先,我們從整體角度定義了圖像編輯的范圍,并詳細說明了各種控制信號和編輯場景。然后,我們提出了一個統一的框架來形式化編輯過程,將其分類為兩大主要算法家族。該框架為用戶提供了一個設計空間以實現特定目標。隨后,我們對該框架內的每個組件進行了深入分析,考察了不同組合的特征及其適用場景。鑒于基于訓練的方法在用戶引導下學習直接將源圖像映射到目標圖像,我們將其單獨討論,并介紹了在不同場景中源圖像的注入方案。此外,我們回顧了2D技術在視頻編輯中的應用,重點解決幀間不一致的問題。最后,我們討論了該領域的開放挑戰,并提出了潛在的未來研究方向。我們在//github.com/xinchengshuai/Awesome-Image-Editing持續追蹤相關工作。

隨著跨模態數據集[1], [2], [3], [4], [5], [6], [7]和生成框架[8], [9], [10], [11], [12]的發展,新興的大規模文本到圖像(T2I)模型[13], [14], [15]使人們能夠創建所需的圖像,開啟了計算機視覺中的人工智能生成內容(AIGC)時代。大多數這些工作基于擴散模型[12],這是一個廣泛研究的流行生成框架。最近,許多工作探索了這些基于擴散的模型在其他領域的應用,如圖像編輯[16], [17], [18], [19], [20], [21],3D生成/編輯[22], [23], [24],視頻生成/編輯[25], [26], [27], [28]等。與圖像生成不同,編輯旨在進行二次創作,即修改源圖像中的所需元素并保留與語義無關的內容。質量和適用性方面仍有進一步改進的空間,使得編輯仍然是一個有前景且充滿挑戰的任務。在這項工作中,我們對利用T2I擴散模型的多模態引導圖像編輯技術進行了全面綜述。

已有一些綜述[174], [175], [176], [177], [178]從不同角度回顧了最先進的基于擴散的方法,如圖像修復[179],超分辨率[176],醫學圖像分析[177]等。與這些綜述相比,我們專注于圖像編輯領域的技術。有兩個相關的并行工作[175], [178]與我們的綜述相關。其中,[178]介紹了擴散模型在圖像編輯中的應用,并根據其學習策略對相關論文進行了分類。與之相比,我們從一個新穎而全面的角度討論了這一主題,并提出了一個統一的框架來形式化編輯過程。我們發現,之前文獻[16], [32], [66], [178]對編輯的解釋是有限和不完整的。這些工作限制了保留概念的范圍,并傾向于從源圖像中重建最大量的細節。然而,這種常見設置排除了某些高層語義(如身份、風格等)的維護。為了解決這個問題,我們首先提供了嚴格而全面的編輯定義,并在本綜述中納入了更多相關研究,如[37], [38], [61], [146]。圖1展示了符合我們定義的各種場景。值得注意的是,一些生成任務如定制化[41], [54]和帶圖像引導的條件生成[37], [134]都符合我們的討論范圍。這些任務在另一項關注可控生成的并行工作[175]中有所討論。其次,我們將審查的方法整合到一個統一的框架中,將編輯過程分為兩大算法家族,即反演和編輯算法。在[178]中,引入了一個類似的框架來統一那些不需要訓練或測試時微調的方法。不同的是,我們的框架在討論的廣義編輯場景中更為多樣化。同時,該框架為用戶提供了一個設計空間,以根據其具體目的結合適當的技術。綜述中的實驗展示了不同組合的特征及其適用場景。此外,我們還調查了2D方法[32], [180]在視頻編輯[165], [173]中的擴展,并集中討論了它們解決時間一致性問題的方法,補充了研究領域的缺失部分。

我們對三百多篇論文進行了廣泛的綜述,審查了現有方法的本質和內部邏輯。本綜述主要關注基于T2I擴散模型的研究[13], [14], [181]。在第二部分中,介紹了擴散模型和T2I生成中的技術,提供了基本的理論背景。在第三部分中,我們給出了圖像編輯的定義,并討論了幾個重要方面,如不同模態的用戶引導、編輯場景以及一些定性和定量評估指標。同時,我們形式化了提出的統一框架以整合現有方法。接下來,在第四和第五部分中分別討論了我們框架的主要組成部分。反演算法從源圖像中捕捉要保留的概念,而編輯算法則旨在在用戶引導下再現視覺元素,實現內容一致性和語義保真度。在第六部分中,我們檢查了反演和編輯算法的不同組合,并探討了它們的特征和適用場景,從而指導用戶為不同目標選擇適當的方法。由于基于訓練的方法[20], [119], [122], [182]學習直接將源圖像轉化為目標圖像,我們在第七部分中討論了這些工作,并詳細介紹了源圖像在不同任務中的注入方案。第八部分介紹了圖像編輯在視頻領域的擴展。由于視頻數據的稀缺,直接應用圖像域方法通常會導致幀間不一致。該部分討論了現有工作[158], [164], [166], [171]中的幾種解決方案。最后,在第九部分中,我們討論了未解決的挑戰,并提出了潛在的未來研究方向。圖2展示了我們工作的組織,并分類了每部分中審查的論文。

付費5元查看完整內容

視覺-語言基礎模型(VLFMs)在圖像字幕生成、圖文檢索、視覺問答和視覺定位等各種多模態任務上取得了顯著進展。然而,大多數方法依賴于使用通用圖像數據集進行訓練,缺乏地理空間數據導致在地球觀測方面表現不佳。最近提出了許多地理空間圖文對數據集和在其上進行微調的VLFMs。這些新方法旨在利用大規模多模態地理空間數據構建具有多樣地理感知能力的多功能智能模型,我們稱之為視覺-語言地理基礎模型(VLGFMs)。本文全面回顧了VLGFMs,匯總并分析了該領域的最新發展。特別是,我們介紹了VLGFMs興起的背景和動機,突出了其獨特的研究意義。然后,我們系統總結了VLGFMs采用的核心技術,包括數據構建、模型架構和各種多模態地理空間任務的應用。最后,我們總結了關于未來研究方向的見解、問題和討論。據我們所知,這是VLGFMs的首次綜合文獻綜述。我們持續追蹤相關工作:

//github.com/zytx121/Awesome-VLGFM。

在過去的十年中,研究人員在幾乎所有地理空間任務上都取得了顯著進展,例如場景分類[1]、目標檢測[2][3]、變化檢測[4]、去噪[5]、土地利用分割[6]、災害管理[7]和地理空間定位[8],這些進步是由深度學習和其他人工智能技術推動的。然而,這些模型是專門為特定任務設計和訓練的,因此難以直接應用于其他任務。即使是相似的任務,這些模型通常也表現出較差的泛化能力。

例如,遙感目標檢測是地球觀測的核心任務之一。它需要手動標注每個目標的位置和類別,這是一個耗時且勞動密集的過程。遙感圖像(RSIs)是由天基或空基傳感器從上方視角拍攝的,與自然圖像相比,這些圖像呈現了獨特的視角,導致了定向目標檢測的發展。由于該任務使用旋轉邊界框來表示目標,因此需要帶有旋轉邊界框標注的遙感數據集,如DOTA[9],來支持其訓練。此外,模型架構[10]、損失函數[11]、后處理函數和加速操作器[12]也必須基于標準目標檢測[13]進行修改。從這個角度來看,特定模型的應用場景似乎相當有限,缺乏跨任務甚至是相似任務之間的泛化能力。

為了減少為每個任務從頭開始訓練特定模型所浪費的資源,基礎模型[14]應運而生。這些模型在大規模圖像上進行預訓練,使它們能夠通過微調小規模的定制數據集來處理各種視覺任務。在遙感領域,先前對純視覺基礎模型的研究揭示了地球觀測通用模型的巨大潛力,稱為視覺地理基礎模型(VGFMs)。VGFMs在從單模態到多模態、從靜態到時態的全面評估中表現出顯著的泛化能力。盡管這些模型表現出強大的感知能力,但它們缺乏像人類一樣進行推理的能力。例如,沒有相應的標注樣本支持VGFM訓練,它無法通過考慮周圍環境和常識來確定遙感圖像中建筑物的具體功能,而人類則可以。類似地,沒有標注樣本,VGFM無法根據航空影像中的特征識別汽車的品牌或型號,而人類可以。

近年來,大型語言模型(LLMs)的發展徹底改變了人機交互。像BERT[16]這樣的LLMs利用大量文本數據來開發推理能力,顯示出在自然語言處理的各種任務中的顯著泛化能力。然而,LLMs只處理離散的文本數據,無法處理圖像,而視覺基礎模型雖然能夠處理圖像數據,但缺乏推理能力。為了彌合這些差距,引入了視覺-語言基礎模型(VLFMs)的概念。這些創新模型旨在進行感知和推理,整合來自文本和圖像的輸入。自從GPT-4 Vision發布以來,VLFMs的研究熱度不斷高漲,受到其強大能力的啟發。VLFMs的研究主要分為對比、對話和生成范式。下面,我們將簡要介紹三個方向中最具影響力的工作。具體而言,CLIP[17]采用對比范式,將視覺和文本信息投射到統一的表示空間,從而促進了下游視覺-語言任務的橋梁。LLaVA[18]體現了對話范式,使LLMs能夠在文本和視覺模態中進行上下文感知對話。Stable Diffusion[19],作為生成范式的代表,利用深度學習從文本描述中生成高質量、詳細的圖像,從而提升了圖像合成和創意視覺應用的能力。 當VLFMs應用于地球觀測時,本文將其稱為視覺-語言地理基礎模型(VLGFMs)。截至目前,VLGFMs也可以分為對比型、對話型和生成型。圖1列出了開發的代表性VLGFM及其發布時間。可以看出,VLGFMs首次出現在2023年第二季度。目前,相關工作的數量正處于快速增長期。值得注意的是,目前VLGFM的創新主要集中在收集訓練數據上,對模型架構的修改相對較少。大多數工作涉及基于LLaVA[18]和MiniGPT-4[20]框架,使用定制的遙感指令跟隨數據集進行微調。

隨著VLGFM的快速發展并展示出令人印象深刻的成果,追蹤和比較VLGFM的最新研究是值得的。它通過自然語言對話實現了人類與計算機的端到端交互,改變了依賴于預定義程序接口的傳統人機交互方式。據我們所知,目前沒有綜述全面總結VLGFMs的最新進展,包括數據管道、架構、基準和能力。我們的工作旨在填補這一空白。

貢獻。鑒于VLGFM的快速進展和令人鼓舞的成果,我們編寫了這篇綜述,旨在使研究人員了解VLGFMs的基本概念、主要方法和當前進展。這篇綜述提取了共同的技術細節,并涵蓋了VLGFMs領域最具代表性的工作。它還對背景和相關概念,包括VGFMs和遙感LLM驅動的代理進行了比較分析。此外,我們將VLGFMs的表現能力分為三個層次。據我們所知,這是關于VLGFMs的首次綜述。

綜述流程。在第2節中,我們提供了背景知識,包括定義、數據集、指標和相關研究領域。在第3節中,我們對基于不同數據收集方法、網絡架構和能力的各種方法進行了全面回顧。在第4節中,我們識別了挑戰和未來方向。

付費5元查看完整內容

大型語言模型(LLMs)在各種與代碼相關的任務中取得了顯著進展,特別是在從自然語言描述生成源代碼的代碼生成任務中,這些模型被稱為代碼LLMs。由于其在軟件開發中的實際意義(例如GitHub Copilot),這個新興領域吸引了學術研究人員和行業專業人士的廣泛關注。盡管從自然語言處理(NLP)或軟件工程(SE)或兩者的角度,研究人員對各種代碼任務的LLMs進行了積極探索,但目前缺乏一篇專門針對代碼生成LLM的全面且最新的文獻綜述。在本綜述中,我們旨在彌補這一空白,通過提供一篇系統的文獻綜述,為研究人員調查代碼生成LLM的最新進展提供有價值的參考。我們引入了一個分類法,對代碼生成LLM的最新發展進行分類和討論,涵蓋數據整理、最新進展、性能評估和實際應用等方面。此外,我們還提供了代碼生成LLM發展的歷史概覽,并使用廣泛認可的HumanEval和MBPP基準進行經驗比較,以突出代碼生成LLM能力的逐步提升。我們識別了學術界與實際開發之間的關鍵挑戰和有前景的機會。此外,我們建立了一個專門的資源網站(//codellm.github.io),以持續記錄和傳播該領域的最新進展。

引言

大型語言模型(LLMs),例如ChatGPT[171]的出現,深刻改變了自動化代碼相關任務的格局[45],包括代碼補全[78, 152, 233, 244]、代碼翻譯[48, 121, 211]和代碼修復[109, 170, 176]。LLMs一個特別有趣的應用是代碼生成,這項任務涉及從自然語言描述中生成源代碼。盡管各研究對其定義有所不同[47, 191, 204, 232],但在本綜述中,我們采用一致的定義,將代碼生成定義為自然語言到代碼(NL2Code)任務[15, 16, 264]。這一領域因其在學術界和工業界都引起了廣泛興趣,開發了如GitHub Copilot[45]、CodeGeeX[275]和Amazon CodeWhisperer等工具,這些工具利用先進的代碼LLMs來促進軟件開發。 最初對代碼生成的研究主要利用啟發式規則或專家系統,例如基于概率文法的框架[9, 57, 113]和專門的語言模型[59, 74, 106]。這些早期技術通常較為僵化且難以擴展。然而,基于Transformer的大型語言模型的引入改變了這一范式,使其成為首選方法,因其具備更高的能力和靈活性。LLMs的一個顯著特點是其跟隨指令的能力[51, 164, 173, 238, 250],即使是新手程序員也可以通過簡單表達需求來編寫代碼。這一新興能力使編程變得更加大眾化,使更廣泛的受眾能夠接觸編程[264]。在代碼生成任務中的LLMs表現出顯著改進,如HumanEval排行榜所示,從PaLM 8B[49]的3.6%到LDB[279]的95.1%在Pass@1指標上的提升。由此可見,HumanEval基準[45]已成為評估LLMs代碼能力的事實標準[45]。

為了提供全面的時間演變概覽,我們展示了LLMs用于代碼生成的發展概覽,如圖1所示。代碼生成LLMs的格局由一系列模型組成,其中一些模型如ChatGPT[173]、GPT4[5]、LLaMA[217, 218]和Claude 3[13]用于通用應用,而其他如StarCoder[132, 151]、Code LLaMA[196]、DeepSeek-Coder[79]和Code Gemma[54]則專門針對代碼任務。代碼生成與最新LLM進展的融合尤為關鍵,特別是當編程語言可以被視為多語言自然語言的不同方言時[15, 275]。這些模型不僅符合軟件工程(SE)的要求,還推動了LLMs向實際生產的進步[271]。

盡管近期的綜述從自然語言處理(NLP)、軟件工程(SE)或兩者結合的視角對代碼LLMs進行了探討[91, 264, 271, 278],它們通常涵蓋了廣泛的代碼相關任務。仍然缺乏專門回顧代碼生成高級主題的文獻,如精細數據整理、指令調優、與反饋對齊、提示技術、自主編碼代理的發展、檢索增強代碼生成、LLM作為代碼生成的評審等。一個相關的重要研究[15, 264]也集中在文本到代碼生成(NL2Code)的LLMs上,但主要考察了2020年至2022年發布的模型。因此,這一顯著的時間差距導致了缺乏考慮最新進展的最新文獻綜述,包括如CodeQwen[215]、WizardCoder[154]和PPOCoder[204]等模型,以及前述高級主題的全面探索。

鑒于需要一個專門且最新的文獻綜述,本綜述旨在填補這一空白。我們提供了一篇系統綜述,為研究人員快速探索代碼生成LLMs的最新進展提供了基礎性參考。我們引入了一個分類法,對最近的進展進行分類和審視,涵蓋數據整理[154, 231, 240]、高級主題[42, 47, 94, 125, 146, 152, 164, 166, 177, 205, 266]、評估方法[45, 85, 111, 284]和實際應用[45, 275]。這一分類法與代碼生成LLM的完整生命周期相一致。此外,我們指出了關鍵挑戰并識別了橋接研究與實際應用之間的有前景機會。因此,本綜述使NLP和SE研究人員能夠全面了解代碼生成LLM,突出前沿方向和當前的障礙與前景。 綜述的其余部分按照我們在圖3中概述的分類法結構組織。在第2節中,我們介紹了LLM與Transformer架構的基礎知識,并制定了代碼生成LLM的任務。接下來在第3節中,我們提出了一種分類法,對代碼生成LLMs的完整過程進行分類。在第4節中,我們在該分類框架內深入探討代碼生成LLMs的具體細節。在第5節中,我們強調了橋接研究與實際應用差距的關鍵挑戰和有前景的機會,并在第6節總結本工作。

分類

近期大型語言模型(LLMs)開發的激增導致大量這些模型通過持續預訓練或微調被重新用于代碼生成任務。這一趨勢在開源模型領域尤為明顯。例如,Meta AI最初公開了LLaMA [217]模型,隨后發布了專為代碼生成設計的Code LLaMA [196]。類似地,DeepSeeker開發并發布了DeepSeek LLM [25],隨后擴展為專門用于代碼生成的變體DeepSeek Coder [79]。Qwen團隊基于其原始的Qwen [19]模型開發并發布了Code Qwen [215]。微軟則推出了WizardLM [250],并正在探索其面向編程的對應模型WizardCoder [154]。谷歌也加入了這一行列,發布了Gemma [214],隨后發布了Code Gemma [54]。除了簡單地將通用LLMs適用于代碼相關任務外,還出現了大量專門為代碼生成設計的模型。值得注意的例子包括StarCoder [132]、OctoCoder [164]和CodeGen [169]。這些模型強調了以代碼生成為重點開發的LLMs的趨勢。 認識到這些發展的重要性,我們提出了一種分類法,對代碼生成LLMs的最新進展進行分類和評估。此分類法如圖3所示,作為研究人員快速熟悉該動態領域最新技術的全面參考。 在接下來的章節中,我們將對與代碼生成相關的每個類別進行深入分析。這將包括問題的定義、要解決的挑戰以及對最突出的模型及其性能評估的比較。

大型語言模型(LLMs)與Transformer架構在多個領域引發了革命性變革,其在代碼生成中的應用尤為顯著。這些模型遵循一個全面的過程,從代碼數據的整理和合成開始,然后是包括預訓練和微調在內的結構化訓練方法,并使用復雜的提示工程技術。最近的進展包括集成了庫級和檢索增強的代碼生成,以及自主編碼代理的發展。此外,評估LLMs的編碼能力已成為該研究領域的重要組成部分。 在接下來的章節中,我們將詳細探討這些與代碼生成相關的LLMs各個方面。第4.1節將介紹在LLMs開發的各個階段中使用的數據整理和處理策略。第4.2節將討論旨在緩解高質量數據稀缺性的數據合成方法。第4.3節將概述用于代碼生成的LLMs的流行模型架構。第4.4節將探討全參數微調和參數高效微調的技術,這些技術對于將LLMs調整為代碼生成任務至關重要。第4.5節將通過強化學習和利用反饋的力量,闡述提升代碼質量的方法。第4.6節將深入研究通過策略性使用提示來最大化LLMs的編碼能力。第4.7和4.8節將分別詳細說明庫級和檢索增強代碼生成的創新方法。此外,第4.9節將討論自主編碼代理這一令人興奮的領域。最后,第4.11節將提供一些利用LLMs進行代碼生成的實際應用見解,展示這些復雜模型的現實世界影響。通過這一全面探索,我們旨在強調LLMs在自動化代碼生成領域的意義和潛力。 結論

在本綜述中,我們提供了一篇系統的文獻綜述,為研究代碼生成LLMs最新進展的研究人員提供了寶貴的參考。我們詳細介紹和分析了數據整理、最新進展、性能評估和實際應用。此外,我們還展示了近年來代碼生成LLMs演變的歷史概覽,并使用廣泛認可的HumanEval和MBPP基準進行經驗比較,以突出代碼生成LLMs能力的漸進提升。我們還識別了學術界與實際開發之間的關鍵挑戰和有前景的機會,以供未來研究。此外,我們建立了一個專門的資源網站,以持續記錄和傳播該領域的最新進展。我們希望本綜述能夠為代碼生成LLMs提供一個全面而系統的概覽,促進其蓬勃發展。我們樂觀地相信,LLMs最終將改變編碼的各個方面,自動編寫安全、有用、準確、可信且可控的代碼,如同專業程序員一樣,甚至解決當前人類無法解決的編碼問題。

付費5元查看完整內容

視覺變換器(Vision Transformers,ViTs)最近引起了相當大的關注,作為卷積神經網絡(CNNs)的有希望替代品,在幾個與視覺相關的應用中顯現出來。然而,它們龐大的模型尺寸以及高計算和內存需求阻礙了部署,特別是在資源受限的設備上。這強調了針對ViTs的算法-硬件協同設計的必要性,旨在通過定制算法結構和底層硬件加速器來優化它們的性能,以彼此的優勢為依托。模型量化通過將高精度數值轉換為低精度,減少了ViTs的計算需求和內存需求,允許創建專門為這些量化算法優化的硬件,提高效率。本文提供了ViTs量化及其硬件加速的全面綜述。我們首先深入探討ViTs的獨特架構屬性及其運行特性。隨后,我們檢查模型量化的基本原理,接著是對ViTs最先進量化技術的比較分析。此外,我們探索了量化ViTs的硬件加速,強調了硬件友好算法設計的重要性。最后,本文將討論持續的挑戰和未來研究方向。我們在

//github.com/DD-DuDa/awesome-vit-quantization-acceleration 上持續維護相關的開源材料。

在計算機視覺領域,卷積神經網絡(CNNs)歷來是基石,已在眾多任務中展示出顯著的效果。然而,隨著變換器(Transformer)架構的出現,情況開始發生變化。變換器在自然語言處理(NLP)中取得了巨大成功之后,被適配用于計算機視覺,形成了視覺變換器(Vision Transformers,ViTs)。ViTs的關鍵特性是自注意力(self-attention),它允許模型通過學習圖像標記序列中元素之間的復雜關系,從而在上下文中分析視覺數據。這種把握更廣泛上下文及圖像內部依賴關系的能力,推動了基于變換器的視覺模型的迅速發展,并隨后將它們確立為多種任務的新基礎,包括圖像分類、對象檢測、圖像生成、自動駕駛和視覺問題回答,展示了它們在計算機視覺中的多功能性和變革性影響。 盡管ViTs具備卓越的能力,但由于其本質上龐大的模型尺寸以及自注意力機制導致的計算和內存需求呈二次方增長,特別是在圖像分辨率提高時,這些因素顯著阻礙了其在計算和內存資源受限的設備上的部署,尤其是在如自動駕駛和虛擬現實等實時應用中,滿足低延遲需求和提供高質量用戶體驗至關重要。這強調了對模型壓縮技術如剪枝、量化、知識蒸餾和低秩分解等進步的迫切需要。此外,ViTs的迅速采用不僅歸功于算法創新和數據可用性,還歸功于處理器性能的提升。雖然CPU和GPU提供廣泛的計算多樣性,但它們固有的靈活性可能導致效率低下。鑒于ViTs的重復性但又獨特的操作特性,利用專門設計的硬件來優化數據重用,從而提高ViT部署的效率,存在明顯的機會。 量化是一種將高精度映射為低精度的技術,已成功地促進了輕量級和計算效率高的模型的創建,增強了算法與硬件的交互。在算法方面,有多種專門為ViTs設計的技術,旨在在數據壓縮至較低位寬后保持應用的準確性。其中一些技術被設計得更符合硬件友好,考慮到現有的架構,如GPU的INT8/FP8 Tensorcore。在硬件方面,高級量化算法的優化推動了更高效處理器的設計,可能包括更有效的數據重用模塊,用于并行處理低位數據。算法和硬件的共同設計是現代硬件加速器開發中的常見方法,顯著提高了它們的性能。 然而,近年來發布的大量相關工作使得初學者難以獲得全面的概述和清晰的比較結果。此外,一些在不考慮實際硬件的情況下模擬算法設計的方法,在部署時可能導致意外的精度低下。迫切需要一項全面的綜述,總結、分析并比較這些方法。本文力求填補這一空白,提供了關于ViTs量化及其硬件加速的廣泛回顧。具體而言,我們深入探討了ViTs量化的細微挑戰,從算法和硬件兩個角度出發,提供了不同量化方法的縱向比較,并在圖1中進行了說明。此外,我們展示了先進的硬件設計解決方案,并推測未來的趨勢和潛在機會。與近期的綜述相比——有些專注于各種高效技術但不考慮硬件,有些僅限于推理優化且算法細節有限,還有些提供了主要針對大型語言模型的模型壓縮的廣泛概覽——本文提供了詳細的描述和比較,以協同的方式處理算法與硬件的相互作用,從而提供了對ViTs量化領域更清晰、更有結構的洞見。 本文的組織結構如下所述。第二部分深入探討了視覺變換器的架構,介紹了其變體,并通過分析其運行特性和瓶頸進行了剖析。第三部分闡述了模型量化的基本原理。隨后,第四部分檢查了與ViTs量化相關的迫切挑戰,并提供了先前方法性能的比較回顧。第五部分探索了可用于硬件加速的方法范圍。最后,第六部分總結了本文,突出了潛在的機會和挑戰。

付費5元查看完整內容

在迅速發展的視覺生成領域中,擴散模型革命性地改變了景觀,以其令人印象深刻的文本引導生成功能標志著能力的重大轉變。然而,僅依賴文本來條件化這些模型并不能完全滿足不同應用和場景的多樣化和復雜需求。認識到這一不足,多項研究旨在控制預訓練的文本到圖像(T2I)模型以支持新穎的條件。在這個綜述中,我們對可控生成與T2I擴散模型的文獻進行了全面調研,涵蓋了這一領域的理論基礎和實踐進展我們的綜述從去噪擴散概率模型(DDPMs)和廣泛使用的T2I擴散模型的基礎知識簡介開始。然后,我們揭示了擴散模型的控制機制,從理論上分析了如何在去噪過程中引入新穎條件進行條件生成。此外,我們提供了這一領域研究的詳細概述,從條件視角將其組織成不同的類別:具有特定條件的生成、具有多重條件的生成和通用可控生成。對于所調研的可控生成文獻的詳盡列表,請參考我們在//github.com/PRIV-Creation/Awesome-Controllable-T2I-Diffusion-Models上的整理倉庫。

擴散模型,作為視覺生成領域的一個范式轉變,已經大幅超越了像生成對抗網絡(GANs)這樣的傳統框架【1】-【8】。作為參數化的馬爾科夫鏈,擴散模型展現出了將隨機噪聲轉化為復雜圖像的卓越能力,逐步從噪聲過渡到高保真的視覺表征。隨著技術的進步,擴散模型在圖像生成及相關下游任務中展示了巨大的潛力。 隨著這些模型生成的圖像質量的提升,一個關鍵挑戰變得越來越明顯:實現對這些生成模型的精確控制,以滿足復雜多樣的人類需求。這個任務超越了簡單提高圖像分辨率或現實感;它涉及到細致地使生成的輸出與用戶的特定和細膩的需求以及他們的創造性愿景相匹配。得益于大量多模態文本-圖像數據集【9】-【17】的出現和引導機制的發展【18】-【21】,文本到圖像(T2I)擴散模型已經成為可控視覺生成領域的一個基石【21】-【26】。這些模型能夠生成真實、高質量的圖像,準確反映自然語言中提供的描述。

雖然基于文本的條件在推動可控生成領域向前發展方面起到了重要作用,但它們本質上缺乏完全滿足所有用戶需求的能力。這一限制在一些場景中尤為明顯,比如通過文本提示單獨無法有效傳達的條件,如未見過的人物或獨特的藝術風格的描述。這些場景在T2I生成過程中提出了重大挑戰,因為這種視覺表征的細微之處和復雜性難以用文本形式封裝。認識到這一差距,大量的研究開始轉向整合超越文本描述界限的新穎條件到T2I擴散模型中。這一轉變進一步得到了強大且開源的T2I擴散模型的出現的促進,如圖1a所示。這些進步導致了對多樣條件的探索,從而豐富了條件生成的可能性范圍,并解決了用戶在各種應用中更為復雜和細膩的需求。 盡管有許多調查文章探討了由AI生成的內容(AIGC)領域,包括擴散模型理論和架構【28】、高效擴散模型【29】、多模態圖像合成與編輯【30】、視覺擴散模型【31】-【34】,以及文本到3D應用【35】,但它們通常只簡要介紹了控制文本到圖像擴散模型或主要關注于其他模態。這種缺乏對T2I模型中新穎條件整合和影響的深入分析凸顯了未來研究和探索的一個關鍵領域。本綜述提供了使用文本到圖像擴散模型的可控生成的全面回顧,涵蓋了理論基礎和實際應用。起初,我們提供了T2I擴散模型背景的簡要概述,并深入探討了這些方法的理論基礎,闡明了如何將新穎條件整合到T2I擴散模型中。這一探索闡明了先前研究的基本原理,有助于更深入地理解該領域。隨后,我們提供了對先前研究的全面概述,強調它們的獨特貢獻和區別特征。此外,我們探索了這些方法的多樣化應用,展示了它們在不同背景和相關任務中的實際效用和影響。

總結來說,我們的貢獻包括

我們從條件角度引入了一個結構良好的可控生成方法的分類法,揭示了這一研究領域固有的挑戰和復雜性。

我們對引入新穎條件到T2I擴散模型中的兩個核心理論機制進行了深入分析:條件評分預測和條件引導評分估計,提供了對這些機制如何在細粒度級別上運作的細致理解。

我們的回顧是全面的,根據我們提出的分類覆蓋了廣泛的條件生成研究。我們細致地強調了每種方法的顯著特征和獨特特點。

我們展示了使用T2I擴散模型的條件生成在各種生成任務中的多樣化應用,證明了它作為AIGC時代一個基本和有影響力的方面的出現。

本文的其余部分如下組織。第2節提供了去噪擴散概率模型(DDPMs)的簡要介紹,展示了廣泛使用的文本到圖像擴散模型,并呈現了一個結構良好的分類法。在第3節,我們分析了控制機制并揭示了如何在文本到圖像擴散模型中引入新穎條件。第4節總結了根據我們提出的分類控制文本到圖像擴散模型的現有方法。最后,第7節展示了可控文本到圖像生成的應用。

分類法

利用文本到擴散模型進行條件生成的任務代表了一個多方面且復雜的領域。從條件視角來看,我們將這個任務劃分為三個子任務(參見圖2)。大多數工作研究如何在特定條件下生成圖像,例如圖像引導的生成和草圖到圖像的生成。為了揭示這些方法的機械理論和特點,我們根據它們的條件類型進一步對它們進行分類。這項任務的主要挑戰在于如何使預訓練的文本到圖像(T2I)擴散模型學會模擬新類型的條件,并與文本條件一起生成,同時確保產生的圖像質量高。此外,一些方法探索如何使用多個條件生成圖像,例如給定角色的身份和姿態。這些任務的主要挑戰在于多個條件的整合,需要能力同時在生成結果中表達幾個條件。此外,一些工作嘗試開發一種條件不可知的生成方法,可以利用這些條件產生結果。 可控文本到圖像生成與特定條件

在文本到圖像擴散模型的基礎上,引入新穎條件來指導生成過程代表了一個復雜和多方面的任務。在接下來的章節中,我們將根據條件視角回顧現有的條件生成方法,對它們的方法論提供全面的評述。

在多條件生成的任務中,目標是在多個條件下生成圖像,例如在用戶定義的姿態下生成特定人物,或生成具有三種個性化身份的人物。在本節中,我們從技術角度對這些方法進行全面概述,將它們分類為聯合訓練(第5.1節)、權重融合(第5.3節)、基于注意力的整合(第5.4節)、引導融合(第5.5節)和持續學習(第5.2節)。注意,一些其他的可控生成方法也展示了多條件合成的能力,而無需專門的設計【41】、【42】、【215】。

通用可控文本到圖像生成

除了針對特定類型條件的方法外,還存在旨在適應圖像生成中任意條件的通用方法。這些方法根據它們的理論基礎被廣泛分類為兩組:通用條件評分預測框架和通用條件引導評分估計。 應用 在本節中,我們關注那些在生成過程中利用新穎條件來解決特定任務的創新方法。通過強調這些開創性的方法,我們旨在突出條件生成不僅在改變內容創作的格局,還在各個領域擴大創造力和功能性的視野。后續的討論將提供這些模型的變革性影響及其在多樣化應用中的潛力的見解。 結論

在這篇全面的綜述中,我們深入探討了使用文本到圖像擴散模型的條件生成領域,揭示了在文本引導生成過程中融入的新穎條件。起初,我們為讀者提供了基礎知識,介紹了去噪擴散概率模型、著名的文本到圖像擴散模型以及一個結構良好的分類法。隨后,我們揭示了將新穎條件引入T2I擴散模型的機制。然后,我們總結了以前的條件生成方法,并從理論基礎、技術進步和解決策略的角度對它們進行了分析。此外,我們探索了可控生成的實際應用,強調了其在AI生成內容時代的重要作用和巨大潛力。這篇綜述旨在提供對當前可控T2I生成格局的全面理解,從而為這一動態研究領域的持續發展和擴展做出貢獻。

付費5元查看完整內容

多模態(視覺-語言)模型,如CLIP,正逐漸取代傳統的監督預訓練模型(例如,基于ImageNet的預訓練)成為新一代的視覺基礎模型。這些模型通過從數十億個互聯網圖像-文本對中學習,形成了強大且一致的語義表示,并可以在零樣本的情況下應用于各種下游任務。然而,在醫學成像和遙感等一些細粒度領域,多模態基礎模型的性能往往不盡人意。因此,許多研究者開始探索這些模型的少樣本適應方法,逐漸衍生出三種主要技術途徑:1)基于提示的方法;2)基于適配器的方法;3)基于外部知識的方法。盡管如此,這一迅速發展的領域產生了大量結果,但尚無全面的綜述來系統地整理研究進展**。因此,在這篇綜述中,我們介紹并分析了多模態模型少樣本適應方法的研究進展,總結了常用的數據集和實驗設置,并比較了不同方法的結果**。此外,由于現有方法缺乏可靠的理論支持,我們推導了多模態模型的少樣本適應泛化誤差界限。該定理揭示了多模態基礎模型的泛化誤差受三個因素的約束:域間差異、模型容量和樣本大小。基于此,我們從以下幾個方面提出了三種可能的解決方案:1)自適應領域泛化;2)自適應模型選擇;3)自適應知識利用

人工智能正在越來越多地應用于廣泛的關鍵行業,包括語音識別、圖像識別、自動駕駛、智能制造、醫學診斷、金融風險控制等。在用人工智能技術賦能各個領域的過程中,經常會遇到與碎片化和多樣化需求相關的挑戰。過去,模型通常具有較小的參數規模和有限的泛化能力。一個模型只能應對單一場景,導致成本高昂和泛化性能差。近年來,越來越多的研究者開始關注具有更強泛化能力的預訓練基礎模型。

自2018年以來,如BERT [1]、盤古 [2]、PaLM [3]、GPT4 [4]等基礎模型的訓練數據和參數規模呈指數級增長,導致在各種自然語言理解任務中的性能顯著提高。與此同時,基礎模型的發展也逐漸從單一模態(如文本、語音、視覺等)演變為多模態融合。越來越多的研究機構開始關注多模態預訓練基礎模型,如ViLBERT [5]、CLIP [6]、DeCLIP [7]、FILIP [8]、PyramidCLIP [9]、OFA [10]、BEiT-3 [11]、ERNIE-ViL [12]和Data2vec [13]。

2021年初,OpenAI發布了CLIP,這是一個大規模的多模態模型,用于對齊圖像和文本,它使用數十億互聯網數據進行預訓練,通過對比學習獲得豐富的視覺語言知識。雖然預訓練的CLIP模型可以在推理階段通過使用文本特征作為分類權重來實現零樣本預測,但這種方法通常只在諸如ImageNet之類的通用領域中表現出色,在處理某些細粒度領域的數據時表現不佳。這是因為這些模型在預訓練階段主要使用通用領域的數據,而在面對特定的下游任務時,數據分布往往與預訓練數據不同。因此,有必要使用下游任務的特定數據對模型進行微調。為了通過微調提高模型的泛化性能,研究人員首先提出了基于提示的微調適應方法(例如,CoOp [14]),該方法將CLIP文本端的固定文本輸入視為可學習的向量,然后使用少量樣本進行微調,以適應下游任務。另一種常用于增強少樣本適應能力的方法是基于適配器的微調,如CLIP-Adapter [15]。這種方法涉及在預訓練模型中添加簡單的適配器結構,然后使用少量樣本數據微調適配器參數,使基礎模型適應下游任務。此外,引入基礎語言模型或外部知識(如知識圖譜,例如,CuPL [16])的方法可以幫助模型更好地處理未見樣本,增強其語義理解和魯棒性,從而提高其在少樣本適應任務中的性能。上述三種方法已廣泛用于各種下游適應任務,但缺乏一個全面的綜述來系統地整理這些方法。因此,我們詳細闡述并比較這些方法,并探索它們的未來發展方向,以進一步提高預訓練模型的性能和泛化能力。

本文的貢獻如下:

? 我們全面回顧和整理了多模態少樣本適應方法,并將現有方法分類為基于提示的微調適應方法、基于適配器的微調適應方法、基于外部知識的適應方法以及其他方法。在基于提示的微調適應方法中,我們進一步將其細分為文本提示微調、視覺提示微調、多模態提示和多任務提示方法。關于基于適配器的微調適應方法,我們將其分類為單模態適配器微調和多模態適配器微調。在使用外部知識的方法中,我們區分了帶有外部知識的預訓練方法和利用外部知識的下游適應方法。

? 我們回顧了11個常用數據集,用于評估多模態基礎模型的下游泛化性能。我們提供了四種實驗設置的詳細描述,以驗證多模態基礎模型在少樣本條件下的適應性能。展示了四種不同設置的實驗結果,并對這些結果進行了比較分析。我們強調了不同類型方法能有效提高多模態基礎模型泛化性能的原因。

? 我們討論了現有多模態基礎模型的少樣本適應方法的共同缺點,并分析了域適應問題。從統計機器學習理論中跨域泛化的誤差界限出發,我們推導了多模態基礎模型的少樣本適應誤差界限,揭示了現有方法面臨的主要挑戰是上游和下游域分布的無效適應、模型選擇的適應性不足以及數據和知識利用不足。

II. 多模態基礎模型的預訓練

近年來,大規模預訓練模型已受到學術界和工業界的廣泛關注。最初,基礎模型預訓練的相關工作主要集中在自然語言處理領域,在這個領域,如BERT [1]和GPT [17]這樣的自監著學習語言模型展現出比傳統方法更好的自然語言理解和生成能力。在計算機視覺領域,范式也從監督預訓練轉變為自監督預訓練。自監督預訓練的視覺模型性能顯著提高,從最初基于數據增強的模型(如SimCLR [18]和MoCo [19])演變到最近基于隨機掩蔽方法的模型(如MAE [20]和BEiT [21])。然而,預訓練的語言模型無法接收視覺輸入,導致它們無法將語言理解的優勢擴展到多模態下游任務(如視覺問答VQA)。另一方面,用于視覺預訓練的監督信號通常僅限于數據增強和隨機掩蔽,這阻止了它們在開放世界中學習更豐富的語義表征。因此,我們最近見證了大規模預訓練多模態模型的迅速發展,這些模型結合了視覺和語言模態,如表I所示。

III. 多模態基礎模型的少樣本適應方法

為了有效提高模型在特定領域的泛化性能,有必要使用有限的樣本對多模態基礎模型進行微調,使其具有更廣泛的應用。這些方法可以定義為多模態基礎模型的少樣本適應方法。本章將分為四個部分,提供現有多模態基礎模型方法的詳細概述,即:基于提示的微調適應方法、基于適配器的微調適應方法、基于外部知識的適應方法,以及其他方法

A. 基于提示的微調適應方法

  1. 文本提示基微調適應:在自然語言處理領域,基于提示的微調適應[34]–[38]是解決大型語言模型少樣本泛化問題的經典方法。它涉及將文本輸入的一部分作為可學習向量,并使用下游任務數據對其參數進行微調,使模型能夠適應特定的下游任務。這種方法的優勢在于它避免了文本提示的手動設計,有效地通過僅對模型輸入的特定部分進行微調來減輕過擬合風險。受此啟發,一些研究人員也開始為多模態基礎模型設計基于提示的微調適應方法。CoOp [14]首次將提示學習的思想納入多模態預訓練基礎模型的下游任務適應中。它使用可學習的詞嵌入來自動構建上下文提示,而不是為每個任務手動設計提示模板。如圖1所示,單個類別標簽{object}被轉換為綜合文本提示“[V]1, [V]2, ..., [V]m, {object}”。其中,[V]i代表可調整的詞向量。然后計算分類損失以使用下游任務數據微調這些詞向量,使模型能夠自主獲取適應下游任務的文本輸入。隨后,Zhou等人[39]引入了條件性上下文優化(CoCoOp),該方法構建了一個元網絡來學習圖像的特征。這些特征然后與提示向量結合以增強CoOp在新類別數據上的泛化性能。為了有效利用預訓練模型的零樣本能力,Huang等人[40]提出了無監督提示學習(UPL)。它選擇高置信度的零樣本預測結果作為偽標簽來監督提示向量的學習。類似地,Prompt-aligned Gradient(ProGrad)[41]使用零樣本預測結果來約束模型梯度更新的方向,從而避免少樣本模型與泛化知識之間的沖突,并減輕過擬合問題。然而,由于視覺信息的豐富多樣性,學習僅一個文本提示難以匹配復雜的視覺數據。為解決這一問題,Chen等人[42]提出了使用最優傳輸的提示學習(PLOT)。它用于學習多個不同的文本提示,其中不同的文本提示被視為圖像位置的描述,使用最優傳輸理論來匹配文本提示與局部圖像特征。Lu等人[43]引入了提示分布學習(ProDA),以學習提示分布并從這些分布中采樣不同的文本提示。此外,為了充分利用多任務數據之間的相關性,Ding等人[44]提出了用于提示調整的軟上下文共享(SoftCPT),該方法設計了一個任務共享元網絡,將預定義任務名稱和可學習的元提示作為輸入,以借助多任務數據微調提示。

  2. 視覺提示基微調適應:上述所有方法僅微調CLIP的文本部分,而CLIP作為多模態模型,視覺和文本兩方面同等重要。僅微調文本提示無法改善視覺編碼器提取特征的能力,提取的視覺特征可能與下游任務的目標特征不匹配。因此,受到文本提示微調適應的啟發,一系列視覺提示微調適應方法應運而生。現有的視覺提示微調適應方法主要包括令牌級微調適應和像素級微調適應。視覺提示調整(VPT)[45]引入了以令牌形式的可學習視覺提示。類感知視覺提示調整(CAVPT)[46]在此基礎上進一步包括一個交叉注意模塊,使視覺提示更加關注下游任務的目標。與基于令牌的方法相反,Bahng等人[47]建議直接在圖像周圍以填充格式添加像素級視覺提示,以增強視覺提示。Wu等人[48]進一步提出了增強視覺提示(EVP),通過縮放和填充而不是直接在原始圖像周圍填充。

  3. 多模態提示基微調適應:除了單獨學習文本和視覺提示外,還可以同時學習多模態提示,以更好地對齊文本和視覺特征。文本和視覺特征具有固有的差異,為了在學習多模態提示時加強它們之間的聯系,多模態提示學習(MAPLE)[49]使用copula函數將文本提示轉換為視覺提示。統一提示調整(UPT)[50]首先學習一個通用提示,然后將其分解為文本和視覺提示。另一方面,多任務視覺語言提示調整(MVLPT)[51]引入了多任務學習的概念,使用跨任務知識微調文本和視覺提示。

B. 基于適配器的微調適應方法

1. 單模態適配器基微調適應:在自然語言處理(NLP)領域,適配器的概念最初由谷歌團隊于2019年引入,用于微調大型語言模型[52]。在下游任務訓練中,該方法凍結原始語言模型的參數,僅更新作為適配器模塊添加的少量參數。由于其參數效率高、設計靈活性和高魯棒性等優點,這種方法近年來在NLP領域受到了廣泛的研究關注[53]。最近,基于適配器的方法也被應用于計算機視覺領域的視覺變換器(ViTs)中。Jie等人[54]通過引入卷積旁路(Convpass)解決了ViTs中適配器結構缺乏歸納偏置的問題。此外,他們提出了因子調整(FacT,引用為[55]),以進一步提高參數效率的遷移學習效率,以滿足實際應用中的存儲約束。

2. 多模態適配器基微調適應:上述基于適配器的方法都適用于自然語言處理或計算機視覺中的單模態基礎模型。近年來,基于適配器的方法也被擴展到多模態基礎模型中,以增強下游泛化能力。Gao等人[15]引入了CLIP-Adapter,該適配器在凍結骨干網絡后添加了一個全連接層適配器來學習額外知識。然后,它基于殘差連接將這些知識與零樣本預測結果合并,如圖2所示。基于這些發展,張等人引入了Tip-Adapter[56]。該方法基于下游少樣本訓練數據構建分類器,并以線性加權方式將其預測與原始零樣本分類器的結果結合,以增強模型的預測性能。SVL-Adapter[57]在適配器之前融合了一個預訓練的自監督視覺編碼器,以提取更魯棒的視覺特征。然而,上述方法僅使用跨模態對比損失,沒有考慮少樣本數據集的視覺特定對比損失。為解決這一問題,彭等人[58]提出了語義引導的視覺適應(SgVA-CLIP),通過隱式知識蒸餾引導視覺適配器的參數更新,以確保圖像-文本關系的一致性。為了增強適配器的跨模態交互能力,CALIP[59]利用注意力圖融合文本和圖像特征,并在融合前后插入兩個可微調的線性層。此外,跨模態適配器(CMA)[60]和多模態視頻適配器(MV-Adapter)[61]通過在兩種模態之間共享適配器權重實現跨模態交互。這些方法考慮了單模態和多模態場景,但沒有充分整合每種模態的優勢。為解決這一問題,陸等人[62]提出了UniAdapter,以統一單模態和多模態適配器。

C. 基于外部知識的適應方法

1. 基于外部知識的預訓練方法:預訓練基礎模型通過從互聯網上大量數據中挖掘相關信息,具有學習通用表征的能力。然而,在這些數據驅動的模型中,知識通常是隱性的,沒有明確鏈接到人類對世界的理解或常識性知識。近年來,數據和知識驅動的預訓練方法不斷涌現,研究人員開始探索將更全面的外部知識,如知識圖譜,融入基礎模型中。這種整合旨在使這些模型更加魯棒、可靠和可解釋。ERNIE[63]融合了一個知識編碼器,用于實體知識提取和異構信息融合。K-BERT[64]檢索與模型輸入相關的外部知識,并構建具有豐富上下文知識的句子樹作為模型輸入。近年來,一些工作也開始為多模態基礎模型的預訓練注入知識。例如,ERNIE-ViL[65]整合了來自場景圖的知識,KM-BART[66]通過創建額外的預訓練任務來模擬一般視覺知識,K-LITE[67]融合了包括WordNet和維基百科定義在內的各種外部知識源。

2. 基于外部知識的下游適應方法:上述方法在預訓練階段引入外部知識。然而,在數據樣本有限的下游少樣本適應場景中,也有必要增強外部知識以確保模型的性能。最常見的方法之一是通過查詢大型語言模型為每個類別生成更豐富的文本描述。圖3展示了這種方法的示例。通過語言模型定制提示(CuPL)[16]是第一個將外部知識融入多模態基礎模型下游泛化過程的方法。CuPL通過向GPT-3提問生成每個類別的多個描述性陳述,豐富類別的語義,從而提高零樣本分類性能。然而,CuPL使用GPT-3生成的句子可能存在描述性差和可靠性問題。為解決這些問題,Menon等人[68]進一步完善了基于GPT-3的知識增強過程。他們提示GPT-3以短語形式生成語義屬性描述,增強了模型的可解釋性。為了在可解釋性和性能之間取得平衡,語言引導瓶頸(LaBo)[69]使用GPT-3生成大量候選特征描述符空間,同時考慮特征相對于其他類別的區分性和當前類別的覆蓋率。它篩選出最佳子描述符空間以進行分類決策,從而揭示模型的決策邏輯。ELEVATER[70]還融合了來自GPT-3、WordNet和維基詞典等來源的定義。實驗結果表明,外部知識可以增強多模態基礎模型的下游泛化性能。然而,不同知識來源有不同的側重點和特性。例如,WordNet具有相對豐富和準確的知識,但覆蓋率較低,而GPT-3具有更廣泛的知識覆蓋范圍,但可能缺乏可靠性。此外,與上述使用外部知識增強文本語義的方法不同,SuS-X[71]專注于增強多模態模型的視覺樣本。

付費5元查看完整內容

近期的AI生成內容(AIGC)在計算機視覺中取得了顯著的成功,其中擴散模型在這一成就中扮演了至關重要的角色。由于其出色的生成能力,擴散模型正逐漸取代基于GANs和自回歸Transformers的方法,在圖像生成和編輯方面展現出卓越的性能,而且在視頻相關研究領域也是如此。然而,現有的綜述主要集中在圖像生成的擴散模型背景下,對于它們在視頻領域的應用很少有最新的評述。為了解決這一缺陷,本文呈現了AIGC時代視頻擴散模型的全面綜述。具體來說,我們從擴散模型的基礎和演變進行簡要介紹。隨后,我們對視頻領域的擴散模型研究進行了概述,將工作劃分為三個關鍵領域:視頻生成、視頻編輯和其他視頻理解任務。我們對這三個關鍵領域的文獻進行了徹底的綜述,包括進一步的分類和領域內的實際貢獻。最后,我們討論了這個領域研究所面臨的挑戰,并概述了潛在的未來發展趨勢。本次綜述中研究的視頻擴散模型的全面列表可以在//github.com/ChenHsing/Awesome-Video-Diffusion-Models 找到。

AI生成內容(AIGC)目前是計算機視覺和人工智能中最為突出的研究領域之一。它不僅引起了廣泛的關注和學術研究,而且在多個行業和其他應用中產生了深遠的影響,如計算機圖形學、藝術和設計、醫學成像等。在這些努力中,由擴散模型 [1–7] 代表的一系列方法特別成功,迅速取代了基于生成對抗網絡(GANs)[8–12] 和自回歸Transformers [13–16] 的方法,成為圖像生成的主要方法。由于它們強大的可控性、逼真的生成和令人印象深刻的多樣性,基于擴散的方法也在計算機視覺任務的廣泛范圍內蓬勃發展,包括圖像編輯 [17–20]、密集預測 [21–25] 以及如視頻合成 [26–31] 和3D生成 [32–34] 等多樣化領域。作為最重要的媒介之一,視頻在互聯網上嶄露頭角。與純文本和靜態圖像相比,視頻提供了豐富的動態信息,為用戶提供了更為全面和沉浸式的視覺體驗。基于擴散模型的視頻任務研究逐漸受到關注。如圖1所示,自2022年以來,視頻擴散模型的研究出版物數量顯著增加,可以劃分為三大類:視頻生成 [26, 27, 29–31, 35, 36]、視頻編輯 [37–41] 和視頻理解 [42–45]。

隨著視頻擴散模型[27]的快速進步及其展示的令人印象深刻的結果,跟蹤和比較這一主題上的最新研究變得非常重要。已有幾篇綜述文章涵蓋了AIGC時代的基礎模型[46, 47],包括擴散模型本身[48, 49]和多模態學習[50–52]。還有一些特定聚焦于文本到圖像[53]研究和文本到3D[54]應用的綜述。然而,這些綜述要么只粗略地涵蓋視頻擴散模型,要么更多地強調圖像模型[49, 50, 53]。因此,在這項工作中,我們旨在填補這一空白,對擴散模型的方法論、實驗設置、基準數據集和其他視頻應用進行全面回顧。 貢獻:在本綜述中,我們系統地跟蹤和總結了關于視頻擴散模型的最近文獻,涵蓋了如視頻生成、編輯以及其他視頻理解方面的領域。通過提取共享的技術細節,本綜述涵蓋了該領域最具代表性的作品。我們還介紹了關于視頻擴散模型的背景和相關的初步知識。此外,我們對視頻生成的基準和設置進行了全面的分析和比較。據我們所知,我們是首個專注于這個特定領域的團隊。更重要的是,鑒于視頻擴散的快速發展,我們可能沒有涵蓋本綜述中的所有最新進展。因此,我們鼓勵研究者與我們聯系,與我們分享這一領域的新發現,使我們能夠保持最新。這些新的貢獻將被納入修訂版進行討論。

綜述流程:在第2節中,我們將介紹背景知識,包括問題定義、數據集、評估指標和相關研究領域。隨后,在第3節中,我們主要介紹視頻生成領域的方法概覽。在第4節中,我們深入探討關于視頻編輯任務的主要研究。在第5節中,我們闡述了利用擴散模型進行視頻理解的各種方向。在第6節中,我們突出了現有的研究挑戰和潛在的未來發展方向,并在第7節中總結我們的結論性觀點。

視頻生成

在這一部分,我們將視頻生成劃分為四個類別,并為每個類別提供詳細的評論:通用文本到視頻(T2V)生成(第3.1節)、帶其他條件的視頻生成(第3.2節)、無條件視頻生成(第3.3節)以及視頻完成(第3.4節)。最后,我們總結了設置和評估指標,并在第3.5節中對各種模型進行了全面比較。視頻生成的分類細節在圖2中展示。

帶文本條件的視頻生成

如近期研究[1, 2, 171] 所證明的,生成型AI與自然語言之間的互動至關重要。盡管在從文本生成圖像[1–3, 16] 方面取得了重大進展,但文本到視頻(T2V)方法的發展仍處于初級階段。在這個背景下,我們首先簡要概述了一些非擴散方法[172, 173],然后深入介紹了基于訓練和無需訓練的擴散技術的T2V模型。

帶其他條件的視頻生成

之前介紹的大多數方法都與文本到視頻生成有關。在這個小節中,我們關注于基于其他模態(例如姿態、聲音和深度)的視頻生成。我們在圖3中展示了受條件控制的視頻生成示例。

視頻編輯

隨著擴散模型的發展,視頻編輯研究的數量呈指數增長。許多研究[74, 233, 236, 239]的共識是,視頻編輯任務應滿足以下標準:(1) 保真度:每幀的內容應與原視頻的對應幀內容保持一致;(2) 對齊度:輸出視頻應與輸入控制信息對齊;(3) 質量:生成的視頻應在時間上保持一致并且質量高。雖然可以利用預訓練的圖像擴散模型通過逐幀處理進行視頻編輯,但幀與幀之間缺乏語義一致性,使得逐幀編輯視頻變得不可行,使視頻編輯成為一個具有挑戰性的任務。在本節中,我們將視頻編輯分為三類:文本引導的視頻編輯(第4.1節)、模態引導的視頻編輯(第4.2節)和特定領域的視頻編輯(第4.3節)。視頻編輯的分類細節在圖4中總結。

文本引導的視頻編輯在文本引導的視頻編輯中,用戶提供一個輸入視頻和一個描述所需視頻屬性的文本提示。然而,與圖像編輯不同,文本引導的視頻編輯帶來了幀一致性和時間建模的新挑戰。一般來說,文本基視頻編輯有兩種主要方式:(1) 在大規模文本-視頻對數據集上訓練T2V擴散模型;(2) 擴展預訓練的T2I擴散模型進行視頻編輯。后者更受關注,因為大規模文本-視頻數據集很難獲取,且訓練T2V模型在計算上昂貴。為了捕捉視頻中的運動,各種時間模塊被引入到T2I模型中。然而,擴展T2I模型的方法面臨兩個關鍵問題:時間不一致性,其中編輯過的視頻在幀與幀之間的視覺上出現閃爍;以及語義差異,即視頻沒有根據給定文本提示的語義進行更改。幾項研究從不同的角度解決了這些問題。

視頻理解

除了在生成任務中的應用,例如視頻生成和編輯,擴散模型也在基本的視頻理解任務中得到了探索,例如視頻時間段分割[42, 253]、視頻異常檢測[254, 255]、文本-視頻檢索[44, 257]等,這些將在本節中介紹。視頻理解的分類細節在圖5中總結。

結論

本綜述深入探討了AIGC(AI-生成的內容)時代的最新發展,重點關注視頻擴散模型。據我們所知,這是此類工作的首次嘗試。我們提供了對擴散過程的基本概念、熱門基準數據集以及常用評估指標的全面概述。在此基礎上,我們全面地回顧了超過100種不同的工作,這些工作專注于視頻生成、編輯和理解的任務,并根據其技術觀點和研究目標對它們進行了分類。此外,在實驗部分,我們詳細描述了實驗設置,并對多個基準數據集進行了公正的比較分析。最后,我們提出了關于視頻擴散模型未來的幾個研究方向。

付費5元查看完整內容

深度模型融合/合并是一種新興的技術,它將多個深度學習模型的參數或預測合并成一個。它結合了不同模型的能力,以補償單一模型的偏差和錯誤,以實現更好的性能。然而,對于大規模深度學習模型(例如,LLMs 和基礎模型)的深度模型融合面臨著幾個挑戰,包括高計算成本、高維參數空間、不同異構模型之間的干擾等。盡管模型融合由于其解決復雜實際任務的潛力而引起了廣泛關注,但關于這種技術的完整和詳細的調查研究仍然缺乏。因此,為了更好地理解模型融合方法并推動其發展,我們提出了一項全面的調查以總結最近的進展。具體來說,我們將現有的深度模型融合方法分類為四種:(1)“模式連接”,通過非遞增損失的路徑連接權重空間中的解,以獲得模型融合的更好初始化;(2)“對齊”匹配神經網絡之間的單元以為融合創造更好的條件;(3)“權重平均”,一種經典的模型融合方法,對多個模型的權重進行平均,以獲得更接近最優解的精確結果。 (4)**“集成學習”**結合了多種模型的輸出,這是一種改善最終模型的準確性和魯棒性的基礎技術。另外,我們分析了深度模型融合面臨的挑戰,并提出了未來模型融合的可能研究方向。我們的評論對于深入理解不同模型融合方法之間的關系和實際應用方法是有幫助的,這可以啟發深度模型融合領域的研究。

//www.zhuanzhi.ai/paper/43bab5b376b2213134e1f99b305d4deb

近年來,深度神經網絡(DNNs)[129] 取得了顯著的發展,廣泛應用于計算機視覺(CV)[175]、自然語言處理(NLP)[30] 等領域。一般來說,單一深度學習模型通常具有一定的局限性,不能完全捕獲復雜網絡背后的所有潛在信息[195]。因此,經典的集成學習[15, 193, 198] 合并多個模型的輸出,以改善深度學習(DL)中模型的最終性能。但在測試時存儲和運行多個模型的成本很高[65, 204],尤其是模型的復雜性和大小增加時。例如,GPT-3[172] 有數十億參數,PaLM[31] 甚至達到5400億參數和7800億令牌。此外,從深度神經網絡[134, 196] 的損失景觀的角度來看,梯度優化的解通常聚集在寬平區域的邊界附近的點,而不是中心點[99]。這意味著經過訓練的網絡并不完全接近具有最小測試錯誤的最優解。需要融合相對最優點附近的解,以得到更好的結果。這激發了研究人員不僅將融合范圍限制于預測(例如,logits等),而且還包括模型參數的融合,而無需訪問訓練數據或保持所有單獨模型[110]。因此,深度模型融合[111, 159] 旨在將多個DNNs融合成一個網絡,保留其原始功能,甚至超越多任務訓練[3, 135]。此外,深度模型融合可以減少單一模型過度擬合特定樣本或噪聲的傾向,從而提高預測的準確性、多樣性和穩健性[207, 223]。由于數據隱私和實際節約資源的問題,深度模型融合引起了越來越多的關注。盡管深度模型融合的發展帶來了許多技術突破,但它也產生了一系列的挑戰,例如高計算負荷、模型異構性和通過組合優化對齊的速度慢[133, 204]等

有些方法僅限于特定場景[227, 254],這激發了研究人員研究不同案例中模型融合的原理。然而,目前缺乏綜合評論來總結方法,以指示深度模型融合的內部機制。一些工作只關注從單一視角(例如,特征融合等)[45, 195] 和特定場景[213] 的模型融合,或者不同方式的信息融合(多模態融合[1, 103])而不是參數的融合。為了給開發者深入了解深度模型融合,我們分析了深度模型融合的原理和方法。此外,我們回顧了最近的進展和代表性應用,例如聯邦學習(FL)[160] 和微調[29] 等。我們的調查旨在說明深度模型融合的最新趨勢和潛在方向,并為研究人員提供指南,以提高性能和降低成本。因此,我們根據內部機制和目的將方法分為四類,如圖1所示。對于相互之間不在附近的獨立訓練的模型,“模式連接”和“對齊”使解更加接近,以獲得更好的平均原始條件。對于權重空間中存在某些差異的類似模型,“權重平均(WA)”傾向于直接平均模型,并在損失函數值較低的參數空間區域獲得更接近最優點的解[118]。此外,對于現有模型的預測,“集成學習”集成了模型的不同形式的預測,以獲得更好的結果。具體來說,這四個類別如下

模式連接性

模式連接性指的是通過基于梯度的優化得到的解可以在權重空間中通過一條無障礙的路徑(連接器)進行連接。我們可以沿著低損失路徑獲得更適合模型融合的其他模型。根據路徑的數學形式和連接器所在的空間,我們將此部分劃分為“線性模式連接性”,“非線性模式連接性”和“子空間中的模式連接性”。模式連接性可以在訓練過程中解決局部優化問題。模式連接性的路徑的幾何關系也可以用來加速優化過程,如隨機梯度下降(SGD)的收斂、穩定性和準確性。簡而言之,模式連接性為解釋和理解模型融合的行為提供了一個新的視角。但是,特別是在大數據集上訓練模型時,應解決計算復雜性和參數調整的困難。

對齊

對齊是將多個模型的單元進行匹配,并對模型進行平均以獲得最終模型。對齊后,不同模型之間的特定數學度量(例如,歐幾里得距離)可以更為接近,從而減小模型之間的差異,進而增強深度模型融合的效果。對齊可分為“激活匹配”和“權重匹配”,取決于是否需要考慮數據分布。此外,Re-basin基于對齊引入,探討解決方案可以通過排列不變性被傳輸到一個單一的盆地(即,參數空間中相對低損失的區域)。然而,對齊通常面臨著計算量大、組合優化速度慢和架構差異的障礙,使得它不易擴展到具有不同目標的其他場景。例如,伴隨圖匹配而來的記憶負擔限制了深度模型融合的應用。

權重平均

權重平均是將幾個母網絡融合成一個單一網絡的最直接和高效的方式。與模式連接性和對齊相比,權重平均不需要額外的計算復雜性或訓練來找到一個優越的起點,在模型包含一定程度的相似性時表現良好。根據聚合空間,權重平均可分為“權重平均”和“子空間中的平均”。此外,典型的方法“模型湯”,“模型算術”和“隨機權重平均”也對現有方法進行了顯著改進。然而,當參數被規范化和合并時,可能會在模型結構或參數數量存在較大差異的情況下引入一些偏差。盡管如此,權重平均仍然是深度模型融合的主流方法,因為它簡單且高效。

集成學習

集成學習結合了幾種不同模型的輸出,以改善預測性能和魯棒性。我們專注于深度學習中的集成學習。基于集成學習,“模型重用”為每個模型提供了規格,這樣在給定新的學習任務時,有用的模型可以從模型池中被識別和合并。集成學習具有各種框架和便捷的界面,經常用于實際領域,例如物體檢測等。盡管集成學習需要維護多個訓練過的模型并在測試時運行每個模型,但它仍然是在深度學習中被廣泛采用的強大技術之一。

模型融合的應用

作為一項提高深度模型的準確性和魯棒性的技術,模型融合促進了許多應用領域的改進。聯邦學習,一種在中央服務器上聚合客戶端模型的應用,使得各方可以貢獻數據到功能的計算中(例如,各種統計、分類器),而無需泄露隱私。微調對預訓練模型進行小的調整,結合模型融合以減少訓練成本并適應特定任務或領域的需求。模型融合還涉及到“蒸餾”。即,將來自多個復雜模型的軟目標知識結合起來,為特定要求訓練一個小模型。模型融合在foundation/LLMs上的應用包括在大型基礎模型或大型語言模型(LLMs)上的工作,例如視覺變壓器(ViT)和GPT等。模型融合的應用幫助開發人員適應各種任務和領域的需求,并促進深度學習的發展。簡而言之,我們的調查回顧了深度模型融合技術。在前三節“模式連接性”,“對齊”和“權重平均”中,我們主要從模型參數融合的角度進行全面研究。在“集成學習”中,我們主要從模型輸出聚合的角度探討了這個問題。

本工作的主要貢獻總結如下

? 我們從“模式連接性”,“對齊”,“權重平均”和“集成學習”的角度提出了一種新的深度模型融合分類方法,該方法涵蓋了模型融合的理論綜合方法,并為實現DNNs的高泛化和準確訓練提供了指導。

? 我們比較了融合方法的優缺點,并解釋了它們之間的機制和關系,為未來設計先進的模型融合方法提供了靈感。

? 我們總結了深度模型融合的廣泛應用。我們還討論了當前的研究趨勢,以便在未來引起更多的關注和反思。此外,本文的其余部分組織如下:在第2節到第5節,我們根據“模式連接性”、“對齊”、“權重平均”和“集成學習”的四個角度介紹深度模型融合的方法。第6節介紹了深度模型融合的應用:“聯邦學習”、“微調”、“蒸餾”和“在foundation/LLMs上的模型融合”。最后,在第7節中,我們總結了深度模型融合,并討論了未來的挑戰和潛在方向。另外,我們在全文中說明了符號及其相應的定義。Wi是第i個具有權重Wi ∈ R^d(i = 1, 2, ...k)和偏置項b的神經網絡。λ表示加權參數。σ表示非線性神經元激活函數。L是損失函數,用于量化預測值和實際值之間的差異。

付費5元查看完整內容

Transformer在計算機視覺領域迅速普及,特別是在目標識別和檢測領域。在檢查了最先進的目標檢測方法的結果后,我們注意到Transformer在幾乎每個視頻或圖像數據集上的表現都優于成熟的基于CNN的檢測器。雖然基于Transformer的方法仍然處于小目標檢測(SOD)技術的前沿,但本文旨在探索這種廣泛的網絡提供的性能優勢,并確定其SOD優勢的潛在原因。由于小目標的低可見性,小目標已被確定為檢測框架中最具挑戰性的對象類型之一。我們旨在研究可能提高Transformer在SOD中性能的潛在策略。這項綜述提出了一個關于已開發的Transformer的SOD任務的60多項研究的分類,跨越2020年至2023年。這些研究涵蓋了各種檢測應用,包括通用圖像、航拍圖像、醫學圖像、主動毫米圖像、水下圖像和視頻中的小目標檢測。我們還編譯并列出了12個適合SOD的大規模數據集的列表,這些數據集在以前的研究中被忽視了,并使用流行的度量標準(如平均平均精度(mAP)、每秒幀數(FPS)、參數數量等)比較了所評述的研究的性能。

小目標檢測(SOD)已被認為是當前最先進的目標檢測方法(SOTA)面臨的一個重大挑戰[1]。“小目標”指的是占據輸入圖像一小部分的物體。例如,在廣泛使用的MS COCO數據集[2]中,它定義了在典型的480 × 640圖像中邊框為32 × 32像素或更小的物體(圖1)。其他數據集也有自己的定義,例如占據圖像10%的物體。小目標經常被遺漏或檢測到錯誤的邊框,有時還有錯誤的標簽。SOD中定位不足的主要原因是輸入圖像或視頻幀中提供的信息有限,加劇了它們在深度網絡中通過多個層時所經歷的空間退化。由于小目標經常出現在各種應用領域,如行人檢測[3]、醫學圖像分析[4]、人臉識別[5]、交通標志檢測[6]、交通燈檢測[7]、船舶檢測[8]、基于合成孔徑雷達(SAR)的目標檢測[9],因此值得研究現代深度學習SOD技術的性能。本文比較了基于Transformer的檢測器和基于卷積神經網絡(CNN)的檢測器在小目標檢測方面的性能。在明顯優于CNN的情況下,我們試圖揭示Transformer強大性能背后的原因。一個直接的解釋可能是Transformer對輸入圖像中成對位置之間的相互作用進行了建模。這是一種有效的上下文編碼方式。而且,眾所周知,上下文是人類和計算模型檢測和識別小目標的主要信息來源[10]。然而,這可能不是解釋Transformer成功的唯一因素。具體而言,我們的目標是沿著幾個維度分析這種成功,包括對象表示、高分辨率或多尺度特征圖的快速注意力、完全基于Transformer的檢測、架構和塊修改、輔助技術、改進的特征表示和時空信息。此外,我們指出了可能增強Transformer在SOD中性能的方法。

在我們之前的工作中,我們調查了許多在深度學習中使用的策略,以提高光學圖像和視頻中小目標檢測的性能,直至2022年[11]。我們表明,除了適應新的深度學習結構(如Transformer)外,流行的方法包括數據增強、超分辨率、多尺度特征學習、上下文學習、基于注意力的學習、區域建議、損失函數正則化、利用輔助任務和時空特征聚合。此外,我們觀察到Transformer是大多數數據集中定位小目標的主要方法之一。然而,鑒于[11]主要評估了超過160篇專注于基于CNN的網絡的論文,沒有對以Transformer為中心的方法進行深入探索。認識到該領域的增長和探索步伐,現在有一個及時的窗口來深入研究當前面向小目標檢測的Transformer模型。本文的目標是全面了解在應用于小目標檢測時,變換器令人印象深刻的性能的貢獻因素,以及它們與用于通用目標檢測的策略的區別。為了奠定基礎,我們首先強調了著名的基于Transformer的SOD目標檢測器,并將其與基于CNN的方法的進步進行比較。

自2017年以來,該領域已經發表了許多綜述文章。在我們之前的調查中[11],對這些綜述進行了廣泛的討論和列表。最近的另一篇調查文章[12]也主要關注基于CNN的技術。當前調查的敘述與前人截然不同。本文的重點是將焦點具體縮小到Transformer上——這是以前沒有探討過的一個方面——將Transformer定位為圖像和視頻SOD的主要網絡架構。這需要為這種創新架構量身定制一個獨特的分類法,有意識地將基于CNN的方法邊緣化。鑒于這個主題的新穎性和復雜性,我們的綜述主要將2022年后的工作優先考慮。此外,我們還闡明了在更廣泛的應用領域中用于小目標定位和檢測的新數據集。本調查中研究的主要方法是為小目標定位和分類量身定制的方法,或間接解決了SOD的挑戰。驅動我們分析的是這些論文中針對小目標的檢測結果。然而,早期的研究指出了SOD的結果,但要么證明了低于標準的性能,要么忽略了開發方法中特定的SOD參數,因此沒有考慮納入本綜述。在本調查中,我們假設讀者已經熟悉通用對象檢測技術、它們的架構和相關的性能指標。如果讀者需要對這些領域有基礎的了解,我們建議讀者參考我們以前的工作[11]。

本文的結構如下:第2節概述了基于CNN的物體檢測器、Transformer及其組件,包括編碼器和解碼器。本節還涉及了基于Transformer的物體檢測器的兩個初始迭代:DETR和ViT-FRCNN。在第3節中,我們對基于Transformer的SOD技術進行了分類,并全面深入研究了每類技術。第4節展示了用于SOD的不同數據集,并在一系列應用中對它們進行了評估。在第5節中,我們分析并比較了這些結果與早期從CNN網絡得出的結果。本文在第6節中總結了結論。

付費5元查看完整內容

圖像恢復(IR)一直是低級視覺領域中不可或缺且具有挑戰性的任務,旨在提高由各種形式的退化所扭曲的圖像的主觀質量。近期,擴散模型在AIGC的視覺生成方面取得了顯著進展,從而引起了一個直觀的問題,“擴散模型是否可以提升圖像恢復”。為了回答這個問題,一些開創性的研究試圖將擴散模型整合到圖像恢復任務中,從而取得了比先前基于GAN的方法更好的表現。盡管如此,關于基于擴散模型的圖像恢復的全面而有啟發性的綜述仍然很少。在本文中,我們是第一個全面回顧近期基于擴散模型的圖像恢復方法的,涵蓋了學習范例、條件策略、框架設計、建模策略和評估。具體來說,我們首先簡要介紹擴散模型的背景,然后介紹兩種在圖像恢復中利用擴散模型的流行工作流。隨后,我們分類并強調使用擴散模型進行IR和盲/實際世界IR的創新設計,旨在激發未來的發展。為了徹底評估現有的方法,我們總結了常用的數據集、實施細節和評估指標。此外,我們為開源方法在三個任務中提供了客觀的比較,包括圖像超分辨率、去模糊和修復。最后,受到現有工作中的限制的啟發,我們為基于擴散模型的IR提出了五個潛在的并且具有挑戰性的未來研究方向,包括采樣效率、模型壓縮、扭曲模擬和估計、扭曲不變學習和框架設計。

資源庫將在 //github.com/lixinustc/Awesome-diffusion-model-for-image-processing/ 上發布。

圖像恢復(IR)一直是低層次視覺任務中的長期研究主題,在提高圖像的主觀質量方面發揮著不可替代的作用。流行的IR任務包括圖像超分辨率(SR)[1-10]、去模糊[11-17]、去噪[18-25]、修復[26-31]和壓縮偽影去除[32-38]等。一些IR任務的視覺示例顯示在圖1中。為了恢復扭曲的圖像,傳統的IR方法將恢復視為信號處理,并從空間或頻率的角度使用手工制作的算法減少偽影[18, 39-44]。隨著深度學習的發展,眾多IR工作為各種IR任務定制了一系列數據集,例如,用于SR的DIV2K [45]、Set5 [46]和Set14 [47],用于去雨的Rain800 [48]、Rain200 [?]、Raindrop [49]和DID-MDN [50],以及用于運動去模糊的REDS [51]和Gopro [52]等。利用這些數據集,大多數近期的工作[1-3, 7-11, 13, 16, 19, 21-23, 32-34, 53-55]專注于通過基于卷積神經網絡(CNNs)[56]或Transformer [57]的精心設計的骨干網絡來提高IR網絡針對復雜退化的表示能力。盡管這些工作在客觀質量(例如,PSNR和SSIM)上取得了卓越的進展,但恢復的圖像仍然受到不滿意的紋理生成的困擾,這阻礙了IR方法在實際場景中的應用。

得益于生成模型的發展[58-66],尤其是生成對抗網絡(GAN)[64],一些開創性的IR研究[5, 6, 67-70]指出,先前的像素級損失,例如MSE損失和L1損失容易受到模糊紋理的影響,并將GAN的對抗損失引入到IR網絡的優化中,從而增強其紋理生成能力。例如,SRGAN [5] 和DeblurGAN [12]分別使用像素級損失和對抗損失的組合來實現以感知為導向的SR網絡和去模糊網絡。在他們之后,改進基于GAN的IR的兩個主要方向是增強生成器(即恢復網絡)[5, 6, 71-73]和鑒別器[74-77]。特別是,ESRGAN [6]引入了強大的RRDB [6]作為基于GAN的SR任務的生成器。三種流行的鑒別器,包括像素級鑒別器(U-Net形狀)[74]、塊級鑒別器[75, 78-80]和圖像級鑒別器[76, 77](即VGG類似的架構)被設計來關注不同粒度級別的主觀質量(即從局部到全局)。盡管有上述進展,但大多數基于GAN的IR研究仍然面臨兩個不可避免但至關重要的問題:1) 基于GAN的IR的訓練容易受到模式腐敗和不穩定優化的影響;2) 大多數生成的圖像的紋理似乎是假的和與事實不符的。

近年來,擴散模型作為生成模型的一個新分支浮現出來,為視覺生成任務帶來了一系列的突破。擴散模型的原型可以追溯到工作[81],并由DDPM [82]、NCSN [83]和SDE [84]進一步發展。一般來說,擴散模型由前向/擴散過程和反向過程組成,其中前向過程逐漸增加像素級噪聲到圖像,直到它滿足高斯噪聲,而反向過程旨在通過估算得分的去噪[83]或噪聲預測[82]來重建圖像。與GANs相比,擴散模型產生高保真度和多樣化的生成結果,從而成功地替代了在一系列領域中的GANs,如視覺生成[82-86]和條件視覺生成[86-97]。隨著視覺-語言模型的進步,擴散模型已被擴展到跨模態生成,如StableDiffusion [98]和DALLE-2 [99]。這極大地推動了人工智能生成內容(AIGC)的發展。我們已經在圖2中根據時間線列出了基于擴散模型的代表性作品。

受到擴散模型優越的生成能力的啟發,許多研究探索了它們在圖像恢復任務中的應用,目標是促進紋理的恢復。根據訓練策略,這些工作大致可以分為兩類:1) 第一類[100–109]致力于通過有監督學習從零開始優化用于IR的擴散模型;2) 第二類(即零樣本類)[110–117]努力利用預訓練擴散模型中的生成先驗用于IR。典型地,基于有監督學習的方法需要收集大規模的扭曲/清晰的圖像對,而基于零樣本的方法主要依賴已知的退化模式。這些局限性阻礙了這些基于擴散模型的方法在真實世界場景中的應用,其中的扭曲通常是多種多樣和未知的。為了進一步解決上述問題,一些研究[118–123]已經擴展了擴散模型,通過結合真實世界的扭曲模擬、核估計、領域轉換和扭曲不變學習來處理盲目/真實世界的圖像恢復。

盡管擴散模型在圖像恢復方面已經顯示出顯著的效果,但相關的技術和基準測試顯示出相當的多樣性和復雜性,這使它們難以被追蹤和改進。此外,缺乏一個基于擴散模型的IR的綜合性審查進一步限制了其發展。在本文中,我們首次回顧并總結了基于擴散模型的圖像恢復方法的工作,旨在為圖像恢復社區提供一個結構良好且深入的知識庫,并促進其在該社區內的演變。

在這次綜述中,我們首先在第2部分介紹擴散模型的背景,重點介紹三種基本的建模方法,即NCSN [83]、DDPM [82]和SDE [84],并從優化策略、采樣效率、模型架構和條件策略的角度對擴散模型進行進一步的改進。基于這些初步信息,我們在第3部分從兩個不同的方向闡明了擴散模型在圖像恢復中的進展:1) 基于監督的擴散模型IR,和2) 基于零樣本的擴散模型IR。在第4部分,我們總結了在更實用和具有挑戰性的場景下基于擴散模型的IR,即盲目/真實世界的退化。這旨在進一步增強基于擴散模型的IR方法滿足實際應用需求的能力。為了促進合理和詳盡的比較,在第5部分,我們闡明了在不同的基于擴散模型的IR任務中常用的數據集和實驗設置。此外,還提供了不同任務之間基準的綜合比較。在第6部分,我們深入分析了基于擴散模型的IR的主要挑戰和潛在方向。本次審查的最終結論總結在第7部分。

基于擴散模型的圖像恢復方法

根據擴散模型(DMs)是否針對IR進行無需訓練,我們初步將基于DM的IR方法分類為兩大類,即監督型DM-based方法 [100, 105, 107, 108, 121, 191-194] 和零樣本型DM-based方法 [112, 114, 115, 195-200]。特別地,監督型DM-based IR方法需要從頭開始使用IR數據集的成對的扭曲/干凈圖像來訓練擴散模型。與之前直接將扭曲圖像作為輸入的基于GAN的方法 [201–209] 不同,基于DM的IR采用精心設計的條件機制在反向過程中將扭曲的圖像作為指導。盡管這種方法產生了有希望的紋理生成結果,但它遇到了兩個顯著的限制:1) 從零開始訓練擴散模型依賴于大量的成對訓練數據。2) 在現實世界中收集成對的扭曲/干凈圖像是具有挑戰性的。相反,零樣本型DM-based方法只需扭曲的圖像,無需重新訓練擴散模型,從而提供了一個吸引人的選擇。它不是從IR的訓練數據集中獲得恢復能力,而是從預訓練的擴散模型中挖掘并利用圖像恢復的結構和紋理先驗知識。這一核心思想源于直覺:預訓練的生成模型可以被視為使用大量真實世界數據集(如ImageNet [210] 和FFHQ [211])構建的結構和紋理倉庫。因此,零樣本型DM-based IR方法面臨的一個關鍵挑戰是:如何在保持數據結構的同時提取相應的感知先驗。在接下來的小節中,我們首先簡要回顧代表性的監督型DM-based IR方法:SR3 [100],以及零樣本型DM-based IR方法:ILVR [195]。然后,我們從條件策略、擴散建模和框架的角度對這兩種方法進行進一步分類,這些總結在表1和表2中。此外,擴散模型的整體分類在圖4中進行了說明。

擴散模型用于盲/真實世界的圖像恢復

盡管第3節中的方法在圖像恢復方面取得了巨大的突破,但其中大多數方法 [100, 101, 104, 112–114, 197, 218, 219] 都集中在解決合成扭曲問題上,它們通常在分布外(OOD)的真實世界/盲目退化條件下表現不佳。原因在于真實世界IR的固有挑戰:1) 未知的退化模式很難被識別。2) 在現實世界中收集扭曲/干凈的圖像對是微不足道的,甚至是不可用的。為了克服這一點,先前的工作 [241–248] 嘗試通過模擬真實世界的退化 [72, 241–244, 246] 和無監督學習 [245, 247, 248] 等方法來解決它。受此啟發,一些開創性的工作 [117, 118, 120, 123, 221] 開始探索如何利用擴散模型解決真實世界的退化問題。在本文中,我們將基于DM的盲/真實世界IR [108, 109, 118–121, 123, 220–222, 226] 分為四類,即扭曲模擬 [118, 226],核估計 [119, 120],域轉換 [122, 226],以及扭曲不變的擴散模型 [123, 222, 237]。

結論

本文為圖像恢復 (IR) 的最近受歡迎的擴散模型提供了一個全面的評述,深入探討了其顯著的生成能力以增強結構和紋理恢復。首先,我們闡述了擴散模型的定義和演變。隨后,我們從培訓策略和退化場景的角度提供了現有作品的系統分類。具體來說,我們將現有的工作分為三個主要流程:有監督的 DM-based IR、零鏡頭的 DM-based IR 和基于盲/真實世界的 DM-based IR。對于每一個流程,我們基于技術提供了細粒度的分類,并詳細描述了它們的優點和缺點。對于評估,我們總結了 DM-based IR 常用的數據集和評估指標。我們還在三個典型任務上,包括圖像SR、去模糊和修復,使用扭曲和感知度量比較了開源的 SOTA 方法。為了克服 DMbased IR 中的潛在挑戰,我們強調了未來有望探索的五個潛在方向。

付費5元查看完整內容
北京阿比特科技有限公司