亚洲男人的天堂2018av,欧美草比,久久久久久免费视频精选,国色天香在线看免费,久久久久亚洲av成人片仓井空

**本文回顧了在擴散模型在廣泛的生成任務中流行的背景下的文本到圖像的擴散模型。作為一項獨立的工作,本綜述首先簡要介紹基本擴散模型如何用于圖像合成,然后介紹條件或指導如何改善學習。**在此基礎上,綜述了文本條件圖像合成(即文本到圖像)的最新方法。本文進一步總結了文本到圖像生成之外的應用:文本指導的創意生成和文本指導的圖像編輯。除了迄今取得的進展,本文還討論了現有的挑戰和有希望的未來方向。

//www.zhuanzhi.ai/paper/8a64d962c13c8857d5c06bcdc0c43c0a

1. 引言

一幅畫勝過千言萬語。正如一句老話所說,圖像比純文本更能講述故事。當人們閱讀文本故事時,他們可以通過想象在腦海中畫出相關的圖像,這有助于他們理解和享受更多。因此,設計一個從紋理描述生成視覺逼真圖像的自動系統,即文本到圖像任務,是一項非平凡任務,因此可以被視為類人或通用人工智能的一個重要里程碑[1],[2],[3],[4]。隨著深度學習[5]的發展,文本到圖像任務已經成為計算機視覺中最令人印象深刻的應用之一[6]、[7]、[8]、[9]、[10]、[11]、[12]、[13]、[14]、[15]、[16]、[17]、[18]。我們在圖1中總結了文本到圖像生成的代表性工作的時間軸。如圖1所示,AlignDRAW[6]是一項從自然語言生成圖像的開創性工作,但受到了不現實的結果的影響。文本條件GAN[7]是第一個從字符級到像素級的端到端差分架構。不同于基于GAN的方法[7]、[8]、[9]、[10]主要在小規模數據環境下進行,自回歸方法[11]、[12]、[13]、[14]利用大規模數據進行文本到圖像生成,代表性方法包括OpenAI的DALL-E[11]和谷歌的Parti[14]。然而,自回歸特性使得這些方法[11],[12],[13],[14]存在較高的計算成本和序列誤差累積。

最近,擴散模型(DM)出現了成為文本到圖像生成中最先進的新模型的趨勢[15],[16],[17],[18]。基于擴散的文本到圖像合成也在社交媒體上引起了廣泛關注。在過去的一年里,大量關于文本到圖像擴散模型的工作已經出現,但更多的工作預計將在不久的將來出現。相關著作的數量使讀者在沒有全面調研的情況下,了解文本-圖像擴散模型的最新發展越來越具有挑戰性。然而,據我們所知,目前還沒有關于基于擴散的文本到圖像生成的最新進展的綜述工作。相關綜述的一個分支[19],[20],[21],[22]綜述了擴散模型在所有領域的進展,使其局限于對測試到圖像合成任務的有限覆蓋。另一個綜述流[21],[23],[24]專注于文本到圖像任務,但僅限于基于GAN的方法,考慮到擴散模型取代GAN的最近趨勢,這些方法有些過時。本文通過全面介紹基于擴散模型的文本到圖像任務的最新進展,并對其未來方向進行了展望,填補了上述兩個流之間的空白。 **該綜述首先回顧了基于擴散模型的文本到圖像任務的最新進展,因此處于擴散模型和文本到圖像合成的交叉點。**因此,我們將本文的其余部分組織如下。第二節介紹了擴散模型的背景,包括對文本到圖像合成很重要的指導方法。第三部分討論了基于擴散模型的文本生成圖像任務的開創性工作,包括GLIDE[15]、Imagen[16]、Stable diffusion[17]和DALL-E2[18]。第四部分從各個方面進一步論述了后續研究對第三部分開拓性工作的完善。通過總結最近的基準和分析,在第5節中從技術和道德角度進一步評估這些文本到圖像的方法。除了文本到圖像的生成外,還介紹了第六節中的相關任務,包括文本指導的創意生成(如文本到視頻)和文本指導的圖像編輯。回顧了文本到圖像生成之外的各種應用,并討論了挑戰和未來的機會。 2. 開創性的文本到圖像擴散模型

本節介紹基于擴散模型的文本到圖像的前沿框架,根據擴散先驗在哪里進行,可以大致分類,即像素空間或潛空間。第一類方法直接從高維像素級生成圖像,包括GLIDE[15]和Imagen[16]。另一組工作建議首先將圖像壓縮到一個低維空間,然后在這個潛空間上訓練擴散模型。潛空間類的代表性方法有Stable Diffusion[17]、VQ-diffusion[39]和DALL-E 2[18]。 像素空間中的框架

GLIDE:關于DM的第一個T2I工作。本質上,文本到圖像是以文本為條件的圖像合成。因此,將類條件DM中的標簽替換為文本,使采樣生成以文本為條件是很直觀的。正如在2.3節中討論的,引導擴散提高了條件DM中樣本[37]的真實感,其無分類器變體[38]有助于處理自由形式的提示。受此啟發,GLIDE[15]在T2I中采用無分類器指導,將原始類別標簽替換為文本。GLIDE[15]還調查了剪輯指導,但與無分類器指導相比,人類評估人員不太喜歡樣本的照片真實感和標題相似性。作為其框架中的一個重要組件,文本編碼器被設置為一個transformer[40],具有24個殘差塊,寬度為2048(大約1.2B參數)。實驗結果表明,GLIDE[15]在FID和人工評價指標上均優于DALL-E [11]。

Imagen:用預訓練語言模型編碼文本。

繼GLIDE[15]之后,Imagen[16]采用無分類器指導的圖像生成。GLIDE和Imagen的核心區別在于它們對文本編碼器的選擇。具體來說,GLIDE使用成對的圖像-文本數據與擴散先驗一起訓練文本編碼器,而Imagen[16]采用預訓練和凍結的大型語言模型作為文本編碼器。凍結預訓練編碼器的權重有助于離線文本嵌入,這為文本到圖像擴散先驗的在線訓練減少了可忽略不計的計算負擔。此外,文本編碼器可以在圖像-文本數據(如CLIP[41])或純文本語料庫(如BERT [42], GPT[43],[44],[45]和T5[46])上進行預訓練。純文本語料庫明顯大于成對的圖像-文本數據,使這些大型語言模型接觸到分布豐富而廣泛的文本。例如,BERT[42]中使用的純文本語料庫約為20GB, T5[46]中使用的純文本語料庫約為800GB。以不同的T5[46]變體作為文本編碼器,[16]揭示了在Imagen中增加語言模型的大小比擴大擴散模型的大小更能提高圖像保真度和圖文對齊。

隱空間框架

穩定擴散:潛空間的里程碑式研究。在隱空間上訓練擴散模型的代表性框架是穩定擴散,它是隱擴散模型(LDM)[17]的擴展版本。繼Dall-E[11]采用VQ-VAE學習視覺碼本之后,穩定擴散在第一階段使用VQ-GAN[47]進行潛表示。值得注意的是,VQ-GAN通過添加對抗性目標來改進VQ-VAE,以增加合成圖像的自然度。使用預訓練的VAE,穩定擴散逆轉了用噪聲擾動潛空間的前向擴散過程。穩定擴散還引入了交叉注意力,作為各種條件信號(如文本)的通用調節。在[17]上的實驗結果表明,在隱空間上進行擴散建模在降低復雜度和保持細節方面明顯優于在像素空間上進行擴散建模。在VQ-diffusion[39]中,采用先掩碼再替換的擴散策略,也實現了類似的擴散算法。與像素空間方法的發現類似,無分類器指導也顯著改善了隱空間[17]、[48]中的文本到圖像擴散模型。

3. 文本到圖像擴散模型的改進

3.1改進模型架構

關于指導的選擇。在無分類器指導的基礎上,[15]、[57]、[58]等工作也利用CLIP[41]探索了跨模態指導。具體來說,GLIDE[15]發現CLIP-guidance的表現低于無分類器指導的變體。相比之下,另一項修復[59]的工作指出,缺乏大規模的transformer語言模型,使得這些具有CLIP指導的模型難以編碼文本提示和生成具有細節的復雜場景。通過結合大型語言模型和跨模態匹配模型,修復[59]顯著提高了生成圖像的樣本保真度和圖像-文本對齊。通用的圖像合成能力使修復[59]可以在簡單和復雜的場景中生成圖像。 3.2 空間控制示意圖

盡管它們具有前所未有的高圖像保真度和標題相似性,但大多數文本到圖像的DMs,如Imagen[16]和DALL-E2[18],并不提供對空間布局的細粒度控制。為此,SpaText[62]引入了空間文本(ST)表示,可以通過調整SOTA DM的解碼器對其進行微調。具體來說,新的編碼器同時滿足局部ST和現有的全局文本。因此,SpaText[62]的核心在于ST,其中的擴散先驗單獨訓練,以將CLIP中的圖像嵌入轉換為其文本嵌入。在訓練過程中,通過使用CLIP圖像編碼器將分割后的圖像對象作為輸入直接生成ST。并發工作[63]提出通過簡單的草圖圖像實現細粒度的局部控制。他們的方法的核心是一個潛在引導預測器(LGP),這是一個像素級MLP,將噪聲圖像的潛在特征映射到相應的草圖輸入。經過訓練后(請參閱[63]了解更多訓練細節),LGP可以部署到預訓練的文本到圖像DM,而不需要進行微調。

3.3 面向概念控制的文本反轉

文本到圖像生成的先驅工作[15],[16],[17],[18]依靠自然語言來描述生成圖像的內容和風格。然而,在某些情況下,文本不能準確地描述用戶想要的語義,例如生成一個新的主題。為了合成具有特定概念或主題的新場景,[64],[65]引入了一些具有所需概念的參考圖像,然后將參考圖像翻轉為文本描述。具體來說,[64]將幾個參考圖像中的共享概念翻轉到文本(嵌入)空間,即“偽詞”。生成的“偽詞”可用于個性化生成。DreamBooth[65]采用了類似的技術,主要區別在于對預訓練DM模型進行微調(而不是凍結),以保留主題身份的關鍵視覺特征。

3.4 分布外檢索

SOTA文本到圖像模型令人印象深刻的性能是基于這樣的假設:該模型很好地暴露了以訓練風格描述公共實體的文本。然而,當實體很少見,或者期望的風格與訓練風格有很大不同時,這種假設就不成立了。為了緩解分布外性能的顯著下降,多個工作[66]、[67]、[68]、[69]都使用了將外部數據庫作為內存進行檢索的技術。這種技術首先在NLP[70],[71],[72],[73],[74]和最近在基于GAN的圖像合成[75]中獲得了關注,通過將全參數模型轉換為半參數模型。受此啟發,[66]增強了具有檢索的擴散模型。檢索增強擴散模型(RDM)[66]由條件DM和圖像數據庫組成,圖像數據庫被解釋為模型的顯式部分。通過在CLIP中測量距離,為每個查詢查詢k近鄰,即訓練樣本,在外部數據庫中,擴散先驗由具有固定CLIP圖像編碼器的KNN近鄰的更有信息的嵌入來指導,而不是文本嵌入。KNN-diffusion[67]采用了一種基本相似的方法,主要不同之處在于使擴散先驗地附加在文本嵌入上,以提高生成的樣本質量。后續的Re-Imagen[69]也采用了這種做法。與兩階段框架的RDM[66]和KNN-diffusion[67]相比,Re-Imagen[69]采用單階段框架,選擇與潛空間距離不相關的K-NN近鄰。此外,Re-Imagen還允許檢索到的鄰居既是圖像又是文本。如[69]所述,Re-Imagen在基準COCO數據集上的性能比KNN-diffusion有很大的優勢。

付費5元查看完整內容

相關內容

擴散模型是近年來快速發展并得到廣泛關注的生成模型。它通過一系列的加噪和去噪過程,在復雜的圖像分布和高斯分布之間建立聯系,使得模型最終能將隨機采樣的高斯噪聲逐步去噪得到一張圖像。

隨著ChatGPT的病毒式傳播,生成式AI (AIGC,又名AI生成內容)已經成為各地的頭條新聞,因為它具有分析和創建文本、圖像等的能力。在如此鋪天蓋地的媒體報道下,我們幾乎不可能錯過從某個角度一瞥AIGC的機會。在人工智能從純分析過渡到創造的時代,值得注意的是,ChatGPT及其最新的語言模型GPT-4,只是眾多AIGC任務中的一個工具。ChatGPT的能力給許多人留下了深刻的印象,他們想知道它的局限性: GPT-5(或其他未來的GPT變體)能否幫助ChatGPT統一所有AIGC任務,以進行多樣化的內容創建?為了回答這個問題,需要對現有的AIGC任務進行全面的回顧。**因此,我們的工作來填補這一空白,通過提供AIGC的第一眼,從它的技術到應用。現代生成式人工智能依賴于各種技術基礎,從模型架構和自監督預訓練到生成式建模方法(如GAN和擴散模型)。**在介紹基本技術的基礎上,根據AIGC任務的輸出類型,包括文本、圖像、視頻、3D內容等,重點介紹了AIGC任務的技術發展情況,展現了ChatGPT未來的潛力。此外,總結了它們在一些主流行業的重要應用,如教育和創意內容。討論了目前面臨的挑戰,并對生成式人工智能在不久的將來可能如何發展提出了展望。 //www.zhuanzhi.ai/paper/6deb3face466ae70f7fdf2978b47cb7b

1. 引言

生成式人工智能(AIGC,又稱人工智能生成內容)已經通過ChatGPT或DALLE[343]等有趣的工具成為頭條新聞,這表明人工智能的新時代正在到來。在鋪天蓋地的媒體報道下,普通大眾有很多機會一睹AIGC的風采。然而,媒體報道的內容往往是有偏見的,有時是誤導性的。此外,ChatGPT的強大功能給許多人留下了深刻的印象,他們想知道它的局限性。最近,OpenAI發布了GPT-4[307],與之前的變體GPT-3相比,性能有了顯著的提高,以及多模態生成能力,如理解圖像。AIGC支持的GPT-4的強大功能給許多人留下了深刻的印象,許多人想知道它的局限性:GPT-5(或其他GPT變體)能否幫助下一代ChatGPT統一所有的AIGC任務?因此,對生成式人工智能的全面回顧是應對人工智能驅動的內容創作這一必然趨勢的基礎。更重要的是,我們的工作及時填補了這一空白。 **傳統人工智能的目標主要是進行分類[263]或回歸[227]。這種判別性方法主要用于分析現有數據。**因此,傳統人工智能也經常被稱為分析人工智能。相比之下,生成式AI通過創建新內容來區分。然而,生成式人工智能通常也要求模型在生成新內容之前首先理解一些現有數據(如文本指令)[40,342]。從這個角度來看,分析型AI可以被視為現代生成型AI的基礎,它們之間的邊界往往是模糊的。請注意,分析性AI任務也會生成內容。例如,在圖像分類中生成標簽內容[216]。然而,圖像識別往往不被考慮在生成式人工智能的范疇內,因為標簽內容的維數較低。生成式人工智能的典型任務涉及生成高維數據,如文本或圖像。這些生成的內容也可以用作合成數據,以緩解深度學習對更多數據的需求[144]。第2節概述了生成式人工智能的流行及其背后的原因。 **如上所述,生成式AI與傳統AI的區別在于其生成的內容。也就是說,生成式AI在概念上類似于AIGC(又稱AI生成內容)[304]。**在描述基于AI的內容生成的背景下,這兩個術語通常可以互換。本文為簡單起見,將內容生成任務稱為AIGC。例如,ChatGPT是用于AIGC任務的工具,稱為聊天機器人[43],考慮到AIGC任務的多樣性,這只是冰山一角。盡管生成式AI和AIGC非常相似,但這兩個術語有細微的區別。AIGC專注于內容生成的任務,而生成AI還考慮了支持各種AIGC任務開發的基本技術基礎。本文將這些基礎技術分為兩類。第一類指的是生成式建模技術,如GAN[124]和擴散模型[156],它們與內容創作的生成式AI直接相關。第二類人工智能技術主要由骨干架構(如Transformer[443])和自監督預訓練(如BERT[87]或MAE[141])組成。其中一些是在分析AI的背景下開發的。然而,它們也成為展示競爭性能的關鍵,特別是在具有挑戰性的AIGC任務中。考慮到這一點,第3節總結了這兩類基礎技術。 **在這些基本技術之上,許多AIGC任務已經成為可能,并且可以根據生成的內容類型直接進行分類。**第4、5和6節對AIGC任務的發展進行了總結。具體來說,第4節和第5節分別關注文本輸出和圖像輸出。對于文本生成,聊天機器人[43]和機器翻譯[497]是兩個主要任務。一些文本生成任務也將其他模態作為輸入,主要關注圖像和語音。對于圖像生成,兩個主要任務是圖像恢復和編輯[253]。最近,文本到圖像(text-to-image)引起了廣泛關注。除了以上兩種主要的輸出類型(即文本和圖像),第6節還涵蓋了其他類型的輸出,如視頻、3D、語音等。 **隨著技術的進步,AIGC的性能在越來越多的任務中得到了滿足。**例如,聊天機器人過去僅限于回答簡單的問題。然而,最近的ChatGPT已經被證明可以理解笑話并在簡單的指令下生成代碼。文本到圖像曾經被認為是一項具有挑戰性的任務;然而,最近的DALL-E 2[342]和穩定擴散[357]已經能夠生成逼真的圖像。因此,AIGC應用于行業的機會出現了。章節7介紹了AIGC在各個行業的應用,包括娛樂、數字藝術、媒體/廣告、教育等。隨著AIGC在現實世界中的應用,也出現了許多倫理問題等挑戰。除了當前的挑戰,還提出了對生成式人工智能可能如何發展的展望。 本文從生成內容(即AIGC任務)的角度對生成人工智能進行了調查,涵蓋其基本技術、任務級技術發展、行業應用以及社會影響。論文結構的概述如圖4所示。

2. 概述

采用AI進行內容創作有很長的歷史。1954年,IBM在紐約的總部首次公開演示了機器翻譯系統。1957年,第一首電腦生成的音樂誕生了,名為“伊利亞克組曲”。這種早期的嘗試和概念證明的成功引起了人們對人工智能未來的高度期待,這促使政府和公司向人工智能投資大量資源。然而,如此高的投資熱潮并沒有產生預期的產出。在那之后,一個被稱為人工智能冬天的時期到來了,這極大地破壞了人工智能及其應用的發展。進入2010年代,人工智能再次流行起來,特別是在2012年AlexNet[216]用于ImageNet分類的成功之后。進入21世紀20年代,人工智能已經進入了一個新時代,不僅可以理解現有數據,還可以創建新的內容[40,342]。本節通過關注生成AI的流行及其原因來概述它。 3 AIGC背后的基本技術

本文將AIGC視為一組用人工智能方法生成內容的任務或應用。在介紹AIGC之前,我們首先了解AIGC背后的基本技術,這些技術在技術層面上屬于生成式人工智能的范圍。本文將基本技術大致分為兩類:生成技術和創造技術。具體來說,創建技術是指能夠生成各種內容的技術,例如GAN和擴散模型。通用技術不能直接生成內容,但對AIGC的開發至關重要,例如Transformer架構。在本節中,我們將簡要總結AIGC所需的技術。

4 AIGC任務:文本生成

NLP研究自然語言,有兩個基本任務:理解和生成。這兩個任務并不是完全獨立的,因為適當文本的生成通常依賴于對一些文本輸入的理解。例如,語言模型通常將文本序列轉換為另一個文本序列,這構成了文本生成的核心任務,包括機器翻譯、文本摘要和對話系統。除此之外,文本生成向兩個方向發展:可控性和多模態。第一個方向是生成內容。 4.1 文本到文本

4.1.1聊天機器人 對話系統(聊天機器人)的主要任務是在人類和機器之間提供更好的交流[85,299]。根據應用中是否指定任務,對話系統可以分為兩類:(1)任務導向型對話系統(TOD)[323,502,533]和(2)開放域對話系統(OOD)[4,532,541]。具體來說,面向任務的對話系統專注于任務完成和解決特定問題(例如,餐廳預訂和機票預訂)[533]。同時,開放域對話系統通常是數據驅動的,目的是在沒有任務或域限制的情況下與人類聊天[353,533]。面向任務的系統。面向任務的對話系統可以分為模塊化系統和端到端系統。模塊化方法包括四個主要部分: 自然語言理解(NLU)[395,409],對話狀態跟蹤(DST)[382,462],對話策略學習(DPL)[169,483]和自然語言生成(NLG)[25,99]。在用NLU將用戶輸入編碼為語義槽后,DST和DPL決定下一個動作,然后由NLG轉換為自然語言作為最終響應。這四個模塊旨在以可控的方式產生響應,并可以單獨優化。然而,有些模塊可能是不可微的,單個模塊的改進可能不會導致整個系統的改進[533]。為了解決這些問題,端到端方法要么通過使每個模塊可微[139,162]來實現端到端訓練管道,要么在系統中使用單個端到端模塊[498,531]。模塊化系統和端到端系統仍然存在一些挑戰,包括如何提高DST[208,312]的跟蹤效率,以及如何提高具有有限數據的端到端系統的響應質量[145,148,282]。

**Open-domain系統。**開放域系統旨在與沒有任務和域限制的用戶聊天[353,533],可以分為三種類型:基于檢索的系統,生成系統和集成系統[533]。基于檢索的系統總是從響應語料庫中找到現有的響應,而生成系統可以生成可能不會出現在訓練集中的響應。集成系統通過選擇最佳響應或用生成模型優化基于檢索的模型[378,533,546],將基于檢索的方法和生成的方法相結合。之前的工作從多個方面改進了開放域系統,包括對話上下文建模[105,181,250,282],提高響應一致性[9,117,251,483]和多樣性[31,211,335,408]。最近,ChatGPT(參見圖12)取得了前所未有的成功,也屬于開放域對話系統的范圍。除了回答各種問題,ChatGPT還可以用于論文寫作、代碼調試、表生成等。

4.1.2 機器翻譯

顧名思義,機器翻譯自動將文本從一種語言翻譯為另一種語言171,7497。隨著深度學習取代基于規則的[108]和基于統計的[212,213]方法,神經機器翻譯(NMT)需要最少的語言專業知識[399,451],并因其在句子中捕獲長依賴的能力更高[62]而成為一種主流方法。神經機器學習的成功主要歸功于語言模型[34],它以前一個詞為條件來預測一個詞出現的概率。Seq2seq[413]是將編碼器-解碼器RNN結構[191]應用于機器翻譯的開創性工作。當句子變長時,Seq2seq[413]的性能會變差,針對這一問題,[24]中提出了一種注意力機制,通過額外的單詞對齊來幫助翻譯長句子。隨著越來越多的關注,2006年,與谷歌的基于短語的生成系統相比,谷歌的NMT系統幫助減少了約60%的人工翻譯工作量,彌補了人類翻譯和機器翻譯之間的差距[475]。基于CNN的架構也已被研究用于NMT,并進行了多次嘗試[190,192],但未能取得與由注意力[24]增強的RNN相當的性能。Convolutional Seq2seq[120]使CNN與注意力機制兼容,表明CNN可以取得與RNN相當甚至更好的性能。然而,這種改進后來被另一種稱為Transformer[443]的架構超越。使用RNN或Transformer作為架構,NMT通常使用自回歸生成模型,其中貪婪搜索只考慮在推理過程中預測下一個工作概率最高的單詞。NMT的一個趨勢是在低資源設置中取得令人滿意的性能,其中模型是用有限的雙語語料庫訓練的[458]。緩解這種數據稀缺的一種方法是利用輔助語言,如使用其他語言對進行多語言訓練[187,383,547],或以英語作為中間中間中間語言[58,350]的中間中間語言轉換[58,350]。另一種流行的方法是利用預訓練語言模型,如BERT[87]或GPT[338]。例如,在[359]中顯示,使用BERT[87]或RoBERTa[259]初始化模型權重可以顯著提高英德翻譯性能。在不需要微調的情況下,GPT家族模型[40,338,339]也顯示出具有競爭力的性能。最近,ChatGPT在機器翻譯中顯示了其能力,與商業產品(如谷歌翻譯)相比表現出了競爭力[182]。

4.2多模態文本生成 4.2.1圖像到文本。 圖像到文本,也稱為圖像描述,指的是用自然語言描述給定圖像的內容(參見圖14)。該領域的一項開創性工作是神經圖像描述(NIC)[447],它使用CNN作為編碼器來提取輸入圖像的高級表示,然后將這些表示輸入RNN解碼器以生成圖像描述。這種兩步編碼器-解碼器架構已被廣泛應用于后期關于圖像描述的工作中,我們將其分別稱為視覺編碼[407]和語言解碼。本文首先回顧了圖像描述的兩個階段的歷史和最近的趨勢。 **視覺編碼。**提取圖像的有效表示是視覺編碼模塊的主要任務。從NIC[447]開始,使用GoogleNet[417]提取輸入圖像的全局特征,多個工作采用各種CNN骨干網絡作為編碼器,包括[195]中的AlexNet[216]和[92,272]中的VGG網絡[393]。然而,語言模型很難生成具有全局視覺特征的細粒度標題。以下工作介紹了細粒度視覺特征的注意力機制,包括對CNN特征的不同網格[56,264,463,484]或不同視覺區域[16,200,518]的注意力。另一個分支工作[500,536]采用圖神經網絡來編碼不同區域之間的語義和空間關系。然而,人類定義的圖結構可能會限制元素之間的相互作用[407],這可以通過連接所有元素的自注意力方法231,501,530來緩解。 **語言解碼。**在圖像描述中,語言解碼器通過預測給定單詞序列的概率來生成標題[407]。受NLP領域突破的啟發,語言解碼器的骨干從RNN[200, 264, 447, 456]發展到Transformer[132, 149, 231],實現了顯著的性能提升。除了視覺編碼器-語言解碼器架構之外,一個分支工作采用類似BERT的架構,在單個模型的早期階段融合圖像和標題[244,526,542]。例如,[542]采用單個編碼器來學習圖像和文本的共享空間,首先在大型圖像-文本語料庫上進行保留并進行微調,特別是針對圖像描述任務。 4.2.2 語音到文本生成

語音到文本生成,也稱為自動語音識別(ASR),是將口語,特別是語音信號轉換為相應文本的過程173,347。ASR有許多潛在的應用,如語音撥號、計算機輔助語言學習、字幕生成以及Alexa和Siri等虛擬助手,自20世紀50年代以來,ASR一直是一個令人興奮的研究領域[194,270,345],并從隱馬爾可夫模型(HMM)[188, 225]發展到基于DNN的系統[75,127,152,297,473]。

**各種研究主題和挑戰。**已有工作對ASR系統進行了多方面的改進。多個工作討論了語音信號的不同特征提取方法[270],包括時間特征(如離散小波變換[287,419])和譜特征(如最常用的梅爾頻率倒譜系數(MFCC)[61,69,429])。另一個工作分支將系統管道[355]從多模型[268]改進為端到端[161,233,234,296,453]。具體來說,多模型系統[268,270]首先學習聲學模型(例如,將特征映射到音素的音素分類器),然后學習單詞輸出的語言模型[355]。另一方面,端到端模型直接從音頻輸入預測轉錄[161,233,234,296,453]。盡管端到端模型在各種語言和方言中取得了令人印象深刻的性能,但仍然存在許多挑戰。首先,它們在資源不足的語音任務中的應用仍然具有挑戰性,因為獲取大量標注的訓練數據是昂貴和耗時的[104,355]。其次,這些系統可能很難處理具有特殊詞匯表外單詞的語音,并且可能在訓練數據上表現良好,但可能對新的或未見過的數據[104,334]泛化能力不強。此外,訓練數據中的偏差也會影響有監督ASR系統的性能,導致對某些人群或語音風格[35]的準確性較差。 **資源受限的語音任務。**研究人員致力于研究克服ASR系統挑戰的新技術,其中主要討論了語音資源不足的問題,即缺乏語音受損的數據[355]。一個工作分支[321,346]采用多任務學習來優化不同任務的共享編碼器。與此同時,自監督ASR系統最近成為一個不依賴大量標記樣本的活躍研究領域。具體來說,自監督ASR系統首先在大量未標記語音數據上預訓練模型,然后在較小的標記數據集上進行微調,以促進ASR系統的效率。它可以應用于低資源語言,處理不同的說話風格或噪聲條件,并轉錄多種語言[23,71,255,492]。

5 AIGC任務:圖像生成

與文本生成類似,圖像生成的任務也可以根據其輸入控制分為不同的類別。由于輸出是圖像,一個簡單的控制類型是圖像。圖像類型的控制引起了大量的任務,如超分辨率、去模糊、編輯、翻譯等。圖像類型控件的一個限制是缺乏靈活性。相比之下,文本引導控制可以根據人類的自由意志生成任何風格的任何圖像內容。文本到圖像屬于跨模態生成的范疇,因為輸入文本與輸出圖像是不同的模態。 5.1圖像到圖像

5.1.1圖像恢復 圖像恢復解決了一個典型的逆向問題,即從相應的退化版本恢復干凈的圖像,示例如圖16所示。由于退化圖像與純凈圖像之間存在無限種可能的映射關系,因此這種反問題的病態性質是非平凡的。退化有兩個來源:原始圖像中的信息缺失和在干凈的圖像中添加了一些不受歡迎的東西。前一種退化包括拍攝一張低分辨率的照片,從而丟失一些細節信息,裁剪某個區域,并將彩色圖像轉換為灰色形式。恢復任務依次是圖像超分辨率、修復和著色。另一類恢復任務旨在消除不受歡迎的干擾,如去噪,去霧,去模糊等。早期恢復技術主要使用數學和統計建模來消除圖像退化,包括用于去噪的空間濾波器[123,392,529],用于去模糊的核估計[485,489]。最近,基于深度學習的方法[42,59,93,177,248,252,481,486]由于其通用性和比傳統方法優越的視覺質量,在圖像恢復任務中發揮了主導作用。CNN被廣泛用于圖像恢復[94,411,442,459]中作為構建塊,而最近的工作探索了更強大的transformer架構,并在各種任務中取得了令人印象深刻的性能,如圖像超分辨率[247]、著色[218]和修復[240]。也有一些工作將CNN和Transformer的強度結合在一起[103,534,535]。 **復原的生成方法。**典型的圖像恢復模型在重建損失的情況下學習源(退化)圖像和目標(干凈)圖像之間的映射。根據任務的不同,可以通過對干凈的圖像進行各種擾動(包括分辨率下采樣和灰度變換)來生成訓練數據對。為了保持更多的高頻細節并創建更真實的圖像,生成模型被廣泛用于修復,例如超分辨率[223,460,528]和修復[42,252,298]中的GAN。然而,基于gan的模型通常遭受復雜的訓練過程和模式崩潰。這些缺點和DMs的大規模流行導致許多最近的工作將DMs用于圖像恢復任務[199,232,265,349,367,369]。像GAN和DM這樣的生成方法也可以從單個退化圖像中產生多種不同的干凈輸出。 **從單任務到多任務。**現有的大多數復原方法針對不同形式的圖像退化訓練單獨的模型。這限制了它們在實際用例中的有效性,在實際用例中,圖像被退化的組合損壞。為了解決這個問題,一些研究[6,207,391,540]引入了多失真數據集,這些數據集結合了不同強度的各種退化形式。一些研究[207,258,505,509]提出了不同的恢復模型,其中不同的子網絡負責不同的退化。另一項工作[228,242,391,410,540]依賴注意力模塊或引導子網絡來幫助恢復網絡通過不同的退化,允許單個網絡處理多個退化

5.1.2 圖像編輯

圖像編輯是指修改圖像以滿足某種需求,如風格遷移(見圖17),而圖像恢復是為了增強圖像質量。從技術上講,一些圖像恢復任務,如著色,也可能被視為圖像編輯,因為將添加顏色視為所需的需求。現代相機通常具有基本的編輯功能,如銳度調整[524]、自動裁剪[525]、紅眼去除[396]等。然而,在AIGC中,我們對高級圖像編輯任務更感興趣,這些任務以各種形式改變圖像語義,如內容、樣式、對象屬性等。 5.2 多模態圖像生成

文本到圖像(T2I)任務旨在從文本描述生成圖像(見圖??),可以追溯到從標簽或屬性[405,495]生成圖像。AlignDRAW[271]是一項從自然語言生成圖像的開創性工作,令人印象深刻的是,AlignDRAW[271]可以從新穎的文本中生成圖像,如“一個停車標志在藍天中飛翔”。最近,文本到圖像領域的進展可以分為三個分支,包括基于GAN的方法,自回歸方法和基于擴散的方法。

付費5元查看完整內容

擴散模型(DMs)在高質量圖像合成中顯示出巨大的潛力。然而,在制作復雜場景的圖像時,如何正確地描述圖像的全局結構和對象細節仍然是一個具有挑戰性的任務。在這篇論文中,我們提出了Frido,一個特征金字塔擴散模型執行多尺度粗-細去噪過程的圖像合成。我們的模型將輸入圖像分解為尺度相關的矢量量化特征,然后進行從粗到細的調制生成圖像輸出。在上述多尺度表示學習階段,可以進一步利用文本、場景圖或圖像布局等附加輸入條件。因此,Frido也可以用于條件或交叉模態圖像合成。我們在各種無條件和有條件的圖像生成任務上進行了廣泛的實驗,從文本到圖像合成,從布局到圖像,從場景到圖像,到標簽到圖像。更具體地說,我們在五個基準上獲得了最先進的FID得分,分別是COCO和OpenImages上的布局到圖像,COCO和Visual Genome上的場景到圖像,以及COCO上的標簽到圖像。

//www.zhuanzhi.ai/paper/d6197fd1315f12b3d3cd40944d4d9272

付費5元查看完整內容

擴散模型(DMs)在不需要對抗訓練的情況下展示了最先進的內容生成性能。這些模型使用兩步過程進行訓練。首先,前向擴散過程逐漸向數據(通常是圖像)添加噪聲。然后,反向擴散過程逐步去除噪聲,將其轉化為被建模目標分布的樣本。DMs的靈感來源于非平衡態熱力學,具有固有的高計算復雜度。由于在高維空間中頻繁的函數計算和梯度計算,這些模型在訓練和推理階段都會產生大量的計算開銷。這不僅阻礙了擴散模型的民主化,而且阻礙了擴散模型在實際應用中的適應性。更不用說,由于過度的能源消耗和對環境的擔憂,計算模型的效率正在迅速成為一個重要的問題。這些因素導致了文獻中對設計計算高效的DM的多項貢獻。在這篇綜述中,我們介紹了視覺擴散模型的最新進展,特別關注影響DMs計算效率的重要設計方面。我們特別強調最近提出的設計選擇,這些設計選擇導致了更高效的DM。不像最近的其他評論,從廣泛的角度討論擴散模型,本綜述旨在通過強調文獻中的設計策略,推動這一研究方向向前發展,為更廣泛的研究社區帶來了可實施的模型。從計算效率的角度展望了視覺中擴散模型的發展前景。深度生成模型(DGMs)——已經成為人工智能中最令人興奮的模型之一,它挑戰了人類的創造力[1]。變分自編碼器、生成對抗神經網絡、歸一化流和擴散模型的發展在人工創造力方面引起了轟動,特別是在圖像嵌入任務方面。圖像合成和文本到圖像的生成。由于生成對抗網絡(GANs)輸出的高質量,近年來受到了廣泛關注。然而,擴散模型最近成為最強大的生成模型,在生成質量[2]、[3]、[4]方面挑戰了GANs的統治地位。擴散模型正變得越來越受歡迎,因為它們提供訓練穩定性以及高質量的圖像和音頻生成結果。這些模型試圖解決GANs的固有局限性,如由于梯度消失而導致的生成器訓練可能失敗、對抗性學習的開銷以及其收斂失敗[5]。另一方面,擴散模型使用了一種不同的策略,它涉及到用高斯噪聲污染訓練數據,然后學習通過反轉這個噪聲過程來恢復數據。擴散模型提供了額外的可伸縮性和并行性的特性,這增加了它們的吸引力。此外,隨著討論模型經過去噪的迭代和迭代,偏離現實太遠的可能性也就更小。生成步驟經過每個檢查點,在每個步驟中,可以向圖像添加越來越多的細節。因此,最近所有超級強大的圖像模型,如DALLE、Imagen或Midjourney和stable Diffusion都是基于擴散模型[6]、[7]的。

擴散模型有各種各樣的應用,包括圖像去噪、圖像生成、時間序列生成、語義分割、圖像超分辨率、大工作臺機器學習、圖像嵌入、決策和圖像間翻譯[4]。因此,自降噪擴散概率模型[8]引入以來,關于該主題的研究論文數量持續上升,每天都有新的模型被提出。然而,最近的熱潮是在穩定擴散(Diffusion)引入后興起的,這是一種機器學習、文本到圖像模型,可以從自然語言描述生成數字圖像。圖1提供了關于擴散模型的文獻的統計數據和時間軸概述,以顯示它們最近在視覺界的流行程度。DMs屬于概率模型的范疇,需要過多的計算資源來建模未觀察到的數據細節。他們訓練和評估模型,需要迭代估計(和梯度計算)的RGB圖像在高維空間[9]。例如,最強大的DM訓練通常需要數百個GPU天(例如150-1000 V100天),重新估計輸入空間的噪聲版本可能導致昂貴的推斷,因此每個模型生成50,000個樣本大約需要5天A100 GPU。這對研究界和一般用戶有兩個影響:第一,訓練這樣的模型需要大量的計算資源,只適用于領域的一小部分,并留下巨大的碳足跡。其次,評估一個已經訓練好的模型在時間和內存方面也很昂貴,因為相同的模型架構需要連續運行大量的步驟(例如25 - 1000步)[10]。早期關于擴散模型的工作只關注于高質量的樣本生成,而不考慮計算成本[8],[11],[12]。然而,在達到這一里程碑后,最近的工作集中在效率上。因此,為了解決生成過程緩慢的真正缺點,新的趨勢是許多增強的工作集中于效率的提高。我們稱這些模型的增強類別為有效擴散模型。在這篇綜述文章中,我們基于效率的標準來評價現有的方法,而不犧牲樣本的高質量。此外,我們討論了模型速度和采樣質量之間的權衡。擴散模型依賴于擴散步驟的長馬爾可夫鏈來生成樣本,因此在時間和計算方面可能相當昂貴。已經提出了新的方法,使該過程大大加快,但采樣速度仍慢于GAN[13],[14]。

為什么模型效率如此重要?人工智能是能量密集型的,對人工智能的需求越高,我們使用的能源就越多。訓練一個復雜的AI模型需要時間、金錢和高質量的數據[15],[16]。它也消耗能量。當我們使用能源時,它會產生二氧化碳。二氧化碳等溫室氣體將地球表面附近的熱量困在大氣中,導致全球氣溫升高,破壞脆弱的生態系統。OpenAI在45 tb的數據上訓練了GPT-3模型[17]。英偉達使用512 V100 gpu對MegatronLM的最終版本進行了9天的訓練,MegatronLM是一種與GPT-3相當但小于GPT-3的語言模型。單個V100 GPU的功耗可能高達300瓦。如果我們估計功耗為250瓦,512 V100 gpu使用128000瓦或128千瓦[18]。對MegatronLM來說,9天的跑步訓練是27648千瓦時。根據美國能源情報署(US Energy Information Administration)的數據,普通家庭每年的耗電量為10649千瓦時。因此,訓練最終版本的MegatronLM所需的能源幾乎相當于三個房子一年的消耗。數據中心對環境的影響是最大的。

這篇綜述的動機是深入探索擴散方法的設計,并強調設計選擇可以提供對修正模型效率的洞察。與以往對擴散模型進行一般分類的工作不同,本文將對導致有效擴散模型和無效擴散模型的設計選擇進行精確分類。這將指導未來計算機視覺任務計算效率擴散模型的研究。論文的其余部分組織如下:第二節提供了擴散模型的概述,簡要說明了三個代表性的架構,第三節提供了設計選擇的描述,并討論了這些選擇如何導致計算效率的設計,第四節比較了代表性的作品w.r.t質量和效率權衡。第五部分討論了未來的工作方向,然后是結論和參考文獻。

**擴散模型概述 **概率擴散模型的原始思想是從隨機噪聲中模擬特定的分布。因此,生成的樣本的分布應該接近原始樣本的分布。它包括一個正向過程(或擴散過程),其中復雜數據(通常是圖像)被逐步噪聲化,和一個反向過程(或反向擴散過程),其中噪聲從目標分布轉換回樣本。在這里,由于它們對有效擴散體系結構的影響,我們特別描述了三個模型。它包括去噪擴散概率模型(DDPM)[8]、潛在擴散模型(LDM)[10]和特征金字塔潛在擴散模型[19]。

有效擴散模型的有效策略

擴散模型需要重構需要采樣的數據分布。有效擴散模型的主要障礙是采樣過程的低效,因為從DDPM生成樣本非常慢。擴散模型依賴于擴散步驟的長馬爾可夫鏈來生成樣本,因此在時間和計算方面可能相當昂貴。近年來,為加快抽樣程序作出了重大努力。我們將這些影響策略分為兩類:有效設計策略(EDS)和有效過程策略(EPS),前者建議對基線擴散模型的設計進行修改,后者建議如何提高擴散模型的效率或加快采樣過程。然而,這些策略是通過修改文獻推斷出來的,未來的工作可能會包括一些下文未提及的新策略。

付費5元查看完整內容

擴散模型是一類具有豐富理論基礎的深度生成模型,在各種任務中都取得了令人印象深刻的結果。盡管擴散模型比其他最先進的模型取得了令人印象深刻的質量和樣本合成多樣性,但它們仍然存在昂貴的采樣程序和次優的似然估計。近年來,研究人員對擴散模型性能的改進表現出極大的熱情。擴散模型解釋:從DDPM到穩定擴散。

//github.com/heejkoo/Awesome-Diffusion-Models

付費5元查看完整內容

擴散模型是近年來快速發展并得到廣泛關注的生成模型。它通過一系列的加噪和去噪過程,在復雜的圖像分布和高斯分布之間建立聯系,使得模型最終能將隨機采樣的高斯噪聲逐步去噪得到一張圖像。來自西湖大學李子青等學者發布了關于《擴散模型》綜述論文,對擴散模型的現狀進行詳細的綜述。通過對改進算法和在其他領域的應用進行分類。值得關注!

最近大火的“擴散模型”首篇綜述來了!北大最新《擴散模型:方法和應用》綜述,23頁pdf涵蓋200頁文獻

A Survey on Generative Diffusion Model Hanqun Cao, Cheng Tan, Zhangyang Gao, Guangyong Chen, Pheng-Ann Heng, Senior Member, IEEE, and Stan Z. Li, Fellow, IEEE 由于深度潛在表示,深度學習在生成任務中顯示出巨大的潛力。生成模型是一類可以根據某些隱含參數隨機生成觀察結果的模型。近年來,擴散模型以其強大的生成能力成為生成模型的一個新興門類。如今,已經取得了巨大的成就。除了計算機視覺、語音生成、生物信息學和自然語言處理外,該領域還將探索更多的應用。然而,擴散模型有其生成過程緩慢的天然缺陷,導致許多改進的工作。本文對擴散模型的研究領域進行了綜述。我們首先闡述兩項標志性工作的主要問題,DDPM及DSM。然后,我們提出了一系列先進的技術來加速擴散模型——訓練計劃、無訓練采樣、混合建模以及得分與擴散的統一。對于現有的模型,我們還根據具體的NFE提供了FID score, IS, NLL的基準。此外,還介紹了擴散模型的應用,包括計算機視覺、序列建模、音頻、科學人工智能等。最后,對該領域的研究現狀進行了總結,指出了研究的局限性和進一步的研究方向。

我們如何賦予機器與人類一樣的想象力? 深度生成模型,如VAE[1]、[2]、[3]、[4]、EBM[5]、[6]、[7]、[8]、[9]、[10]、[11]、[12]、[13]、[14]、[15]、[16]、[17]、[18]、[19]、[20]、[21]、GAN[22]、[23]、[24]、標準流模型[25]、[26]、[27]、[28]、[29]、[30]和擴散模型[31]、[32]、[33]、[34]、[35],在創造人類無法正確區分的新模式方面顯示出巨大潛力。我們專注于基于擴散的生成模型,該模型不需要像VAE那樣調整后驗分布,不需要像EBM那樣處理難以處理的配分函數,不需要像GAN那樣訓練額外的鑒別器,也不需要將網絡約束作為歸一化流。由于上述優點,基于擴散的方法已經引起了從計算機視覺、自然語言處理到圖形分析的廣泛關注。然而,目前對擴散模型的研究進展還缺乏系統的分類和分析。

擴散模型的發展為模型的描述提供了可跟蹤的概率參數化,為訓練過程的穩定提供了充分的理論支持,為損失函數的統一設計提供了簡單的方法。擴散模型的目的是將先驗數據分布轉化為隨機噪聲,然后逐步對變換進行修正,重建一個與先驗[36]分布相同的全新樣本。近年來,擴散模型在計算機視覺(CV)[31]、[37]、生物信息學[38]、[39]、語音處理[40]、[41]等領域顯示出了其精妙的潛力。例如,去噪擴散GAN生成的高分辨率偽圖像只需要四個采樣步驟就能擊敗GAN[42]。Luo等人[33]首先利用蛋白質特征上的DDPM在原子分辨率上生成抗體CDR序列和結構。Wavegrad[43]生成高保真音頻樣本,具有恒定的生成步驟,優于現有的基于GAN的音頻生成模型。受擴散模型在CV、生物信息學和語音處理領域的成功啟發,將擴散模型應用于其他領域的生成相關任務將是開發強大的生成能力的有利途徑。

另一方面,與生成對抗網絡(GANs)和變分自編碼(VAEs)相比,擴散模型具有采樣步驟多、采樣時間長等固有缺陷。這是因為利用馬爾可夫核的擴散步驟只需要很小的擾動就可以得到大量的擴散。同時,可處理模型在推理過程中需要相同的步驟數。因此,從隨機噪聲中采樣需要數千步,直到它最終變成類似于先驗的高質量數據。因此,在提高采樣質量[47],[48],[49]的同時,加快擴散過程是很多工作的目標。例如,DPM求解器利用ODE的穩定性在10步[50]內生成最先進的樣本。ES-DDPM[51]成功地將軌跡學習與變分自編碼器相結合,實現了對擴散模型的高速采樣。部分受到Bao等人[50]的啟發,我們將擴散模型的改進工作總結為5類。(1)訓練時間表,(2)高級無訓練抽樣,(3)混合生成建模,(4)分數與擴散統一。詳細內容見第3節。

圖1所示。在這個圖中,我們為每一類生成模型提供了一個直觀的機制。(a) 生成式對抗網絡(Generative Adversarial Net, GAN)[44]在生成器上運用了對抗訓練策略,使其生成的樣本不能被真假鑒別器和先驗鑒別器區分。(b) 基于能量的模型(EBM)[45]以類似的方式訓練,它找到一個由softmax鑒別器和先驗輸入發生器組成的合適的能量函數,這樣它可以輸出隨機輸入的最佳匹配樣本。(c) 變分自動編碼器(VAE)[46]應用編碼器將先驗投影到一個潛在空間,從中解碼器可以采樣。(d) 歸一化流量(NF)[29]采用了一個設計良好的可逆流量函數,將輸入轉化為潛在變量,然后用流量函數的倒數返回樣本。(e) 擴散模型逐漸向原始數據注入噪聲,直到轉向已知的噪聲分布,再對采樣步驟中的每一步進行反轉。

因此,基于擴散模型的廣泛應用以及算法改進的多角度思考,我們旨在對擴散模型的現狀進行詳細的綜述。通過對改進算法和在其他領域的應用進行分類,本文的核心貢獻如下:

  • 總結了擴散模型領域基本算法的本質數學公式和推導,包括方法公式、訓練策略和抽樣算法。

  • 本文對改進擴散算法進行了全面和最新的分類,并將其分為五類: 蒸餾、噪聲/軌跡學習、高級免訓練采樣、混合生成建模和評分與擴散統一。

  • 提供關于擴散模型在計算機視覺、自然語言處理、生物信息學和語音處理方面的應用的廣泛陳述,包括領域專用問題公式、相關數據集、評估指標、下游任務以及基準集。

  • 闡明擴散模型領域現有模型的局限性和可能進一步證明的方向。

借助強條件設置,只需[48]幾步就可以實現擴散采樣,如文本到語音[83]和圖像超分辨率[84]。一般情況下,擴散模型需要數千個步驟才能生成高質量的樣本。以提高采樣速度為主要內容,從不同方面進行了許多工作。在本節中,我們將它們分為5類(如表2所示),并分別給出詳細的陳述。

擴散模型應用

結論擴散模型正成為廣泛應用領域的熱門課題。為了充分利用擴散模型的威力,本文對擴散模型的幾個方面進行了全面和最新的回顧,詳細分析了各種姿態,包括理論、改進的算法和應用。希望本研究能對擴散模型增強和模型增強起到一定的指導作用。本節從算法和應用的角度提出了一些預期的方向。一方面,應該對不同的數據類型進行更多的嘗試,包括離散空間、去量化空間和潛在空間。此外,為了擴大擴散模型的多樣性,還需要探索不同的最終態噪聲類型和擾動核,如正態分布、伯努利分布、二項分布和泊松分布。此外,明確的損失優化機制和加速與質量的權衡,將帶來有前景的影響,可控調控和更令人滿意的性能。另一方面,為了獲得更好的生成性能,擴散模型在各個領域都得到了應用。然而,目前的大多數應用還停留在表面。預計會有更多針對特定問題的擴散模型,特別是針對科學問題。

付費5元查看完整內容

摘要: 圖像描述生成結合了計算機視覺和自然語言處理2個研究領域,不僅要求完備的圖像語義理解,還要求復雜的自然語言表達,是進一步研究符合人類感知的視覺智能的關鍵任務.對圖像描述生成的研究進展做了回顧.首先,歸納分析了當前基于深度學習的圖像描述生成方法涉及的5個關鍵技術,包括整體架構、學習策略、特征映射、語言模型和注意機制.然后,按照發展進程將現有的圖像描述生成方法分為4大類,即基于模板的方法、基于檢索的方法、基于編碼器-解碼器架構的方法和基于復合架構的方法,并闡述了各類方法的基本概念、代表性方法和研究現狀,重點討論了基于編碼器-解碼器架構的各種方法及其創新思路,如多模態空間、視覺空間、語義空間、注意機制、模型優化等.接著,從實驗的角度給出圖像描述生成的常用數據集和評估措施,并在2個基準數據集上比較了一些典型方法的性能.最后,以提升圖像描述的準確性、完整性、新穎性、多樣性為依據,展示了圖像描述生成的未來發展趨勢.

隨著互聯網與信息技術的發展,多媒體數據呈現 爆炸性增長的趨勢,從各種信息源(如網絡、新聞、 相機等)上可獲得的圖像數據越來越多.由于圖像數 據具有海量特性和非結構化特性,如何快速有效的組 織、存儲和檢索圖像,成為重要的研究課題,而完備 的圖像語義理解則是其中的關鍵問題[1].盡管從信息 源上獲取的大多數圖像并沒有對應的語義描述,但人 類仍然能夠在很大程度上理解它們.也就是說,人類 很容易就能完成涉及復雜視覺識別以及場景理解的 各種任務、涉及自然語言交流的各種任務以及 2 種模 態之間的轉換任務.例如,只需快速瀏覽圖像就足以 讓人指出并描述關于視覺場景的大量細節,而這對于 機器來說目前仍然是難以完成的任務.為了實現圖像 數據的結構化和半結構化,從語義上更完備地理解圖 像數據,從而進一步研究更符合人類感知的視覺智 能,迫切需要機器能夠為給定圖像自動地生成自然語 言描述.

計算機視覺研究如何理解圖像和視頻,而自然語 言處理研究如何分析和生成文本.盡管這 2 個領域的 研究都采用類似的人工智能和機器學習方法,但在很 長一段時間里它們都是各自發展而很少交叉.近幾 年,結合視覺和語言的跨模態問題受到了廣泛關 注.事實上,許多日常生活中的任務都具有這種跨模 態的特性.例如,看報紙時解釋圖片的上下文信息, 聽報告時為理解講話而搭配圖表,網頁上提供大量結 合視覺信息和自然語言的數據(帶標簽的照片、新聞 里的圖片視頻、具有多模態性質的社交媒體)等.為 完成結合視覺和語言的任務并充分利用多模態數據, 計算機視覺和自然語言處理 2 個領域的聯系越來越 緊密. 在這個新的視覺和語言交叉的研究領域中,圖像 描述生成是個重要的任務,該任務包括獲取圖像信 息、分析其視覺內容、生成文本描述以說明圖像中的 顯著物體和行為等步驟[2-5].圖 1 給出了幾個根據圖 像內容生成描述語句的實例.

付費5元查看完整內容
北京阿比特科技有限公司