隨著ChatGPT的病毒式傳播,生成式AI (AIGC,又名AI生成內容)已經成為各地的頭條新聞,因為它具有分析和創建文本、圖像等的能力。在如此鋪天蓋地的媒體報道下,我們幾乎不可能錯過從某個角度一瞥AIGC的機會。在人工智能從純分析過渡到創造的時代,值得注意的是,ChatGPT及其最新的語言模型GPT-4,只是眾多AIGC任務中的一個工具。ChatGPT的能力給許多人留下了深刻的印象,他們想知道它的局限性: GPT-5(或其他未來的GPT變體)能否幫助ChatGPT統一所有AIGC任務,以進行多樣化的內容創建?為了回答這個問題,需要對現有的AIGC任務進行全面的回顧。**因此,我們的工作來填補這一空白,通過提供AIGC的第一眼,從它的技術到應用。現代生成式人工智能依賴于各種技術基礎,從模型架構和自監督預訓練到生成式建模方法(如GAN和擴散模型)。**在介紹基本技術的基礎上,根據AIGC任務的輸出類型,包括文本、圖像、視頻、3D內容等,重點介紹了AIGC任務的技術發展情況,展現了ChatGPT未來的潛力。此外,總結了它們在一些主流行業的重要應用,如教育和創意內容。討論了目前面臨的挑戰,并對生成式人工智能在不久的將來可能如何發展提出了展望。 //www.zhuanzhi.ai/paper/6deb3face466ae70f7fdf2978b47cb7b
1. 引言
生成式人工智能(AIGC,又稱人工智能生成內容)已經通過ChatGPT或DALLE[343]等有趣的工具成為頭條新聞,這表明人工智能的新時代正在到來。在鋪天蓋地的媒體報道下,普通大眾有很多機會一睹AIGC的風采。然而,媒體報道的內容往往是有偏見的,有時是誤導性的。此外,ChatGPT的強大功能給許多人留下了深刻的印象,他們想知道它的局限性。最近,OpenAI發布了GPT-4[307],與之前的變體GPT-3相比,性能有了顯著的提高,以及多模態生成能力,如理解圖像。AIGC支持的GPT-4的強大功能給許多人留下了深刻的印象,許多人想知道它的局限性:GPT-5(或其他GPT變體)能否幫助下一代ChatGPT統一所有的AIGC任務?因此,對生成式人工智能的全面回顧是應對人工智能驅動的內容創作這一必然趨勢的基礎。更重要的是,我們的工作及時填補了這一空白。 **傳統人工智能的目標主要是進行分類[263]或回歸[227]。這種判別性方法主要用于分析現有數據。**因此,傳統人工智能也經常被稱為分析人工智能。相比之下,生成式AI通過創建新內容來區分。然而,生成式人工智能通常也要求模型在生成新內容之前首先理解一些現有數據(如文本指令)[40,342]。從這個角度來看,分析型AI可以被視為現代生成型AI的基礎,它們之間的邊界往往是模糊的。請注意,分析性AI任務也會生成內容。例如,在圖像分類中生成標簽內容[216]。然而,圖像識別往往不被考慮在生成式人工智能的范疇內,因為標簽內容的維數較低。生成式人工智能的典型任務涉及生成高維數據,如文本或圖像。這些生成的內容也可以用作合成數據,以緩解深度學習對更多數據的需求[144]。第2節概述了生成式人工智能的流行及其背后的原因。 **如上所述,生成式AI與傳統AI的區別在于其生成的內容。也就是說,生成式AI在概念上類似于AIGC(又稱AI生成內容)[304]。**在描述基于AI的內容生成的背景下,這兩個術語通常可以互換。本文為簡單起見,將內容生成任務稱為AIGC。例如,ChatGPT是用于AIGC任務的工具,稱為聊天機器人[43],考慮到AIGC任務的多樣性,這只是冰山一角。盡管生成式AI和AIGC非常相似,但這兩個術語有細微的區別。AIGC專注于內容生成的任務,而生成AI還考慮了支持各種AIGC任務開發的基本技術基礎。本文將這些基礎技術分為兩類。第一類指的是生成式建模技術,如GAN[124]和擴散模型[156],它們與內容創作的生成式AI直接相關。第二類人工智能技術主要由骨干架構(如Transformer[443])和自監督預訓練(如BERT[87]或MAE[141])組成。其中一些是在分析AI的背景下開發的。然而,它們也成為展示競爭性能的關鍵,特別是在具有挑戰性的AIGC任務中。考慮到這一點,第3節總結了這兩類基礎技術。 **在這些基本技術之上,許多AIGC任務已經成為可能,并且可以根據生成的內容類型直接進行分類。**第4、5和6節對AIGC任務的發展進行了總結。具體來說,第4節和第5節分別關注文本輸出和圖像輸出。對于文本生成,聊天機器人[43]和機器翻譯[497]是兩個主要任務。一些文本生成任務也將其他模態作為輸入,主要關注圖像和語音。對于圖像生成,兩個主要任務是圖像恢復和編輯[253]。最近,文本到圖像(text-to-image)引起了廣泛關注。除了以上兩種主要的輸出類型(即文本和圖像),第6節還涵蓋了其他類型的輸出,如視頻、3D、語音等。 **隨著技術的進步,AIGC的性能在越來越多的任務中得到了滿足。**例如,聊天機器人過去僅限于回答簡單的問題。然而,最近的ChatGPT已經被證明可以理解笑話并在簡單的指令下生成代碼。文本到圖像曾經被認為是一項具有挑戰性的任務;然而,最近的DALL-E 2[342]和穩定擴散[357]已經能夠生成逼真的圖像。因此,AIGC應用于行業的機會出現了。章節7介紹了AIGC在各個行業的應用,包括娛樂、數字藝術、媒體/廣告、教育等。隨著AIGC在現實世界中的應用,也出現了許多倫理問題等挑戰。除了當前的挑戰,還提出了對生成式人工智能可能如何發展的展望。 本文從生成內容(即AIGC任務)的角度對生成人工智能進行了調查,涵蓋其基本技術、任務級技術發展、行業應用以及社會影響。論文結構的概述如圖4所示。
2. 概述
采用AI進行內容創作有很長的歷史。1954年,IBM在紐約的總部首次公開演示了機器翻譯系統。1957年,第一首電腦生成的音樂誕生了,名為“伊利亞克組曲”。這種早期的嘗試和概念證明的成功引起了人們對人工智能未來的高度期待,這促使政府和公司向人工智能投資大量資源。然而,如此高的投資熱潮并沒有產生預期的產出。在那之后,一個被稱為人工智能冬天的時期到來了,這極大地破壞了人工智能及其應用的發展。進入2010年代,人工智能再次流行起來,特別是在2012年AlexNet[216]用于ImageNet分類的成功之后。進入21世紀20年代,人工智能已經進入了一個新時代,不僅可以理解現有數據,還可以創建新的內容[40,342]。本節通過關注生成AI的流行及其原因來概述它。 3 AIGC背后的基本技術
本文將AIGC視為一組用人工智能方法生成內容的任務或應用。在介紹AIGC之前,我們首先了解AIGC背后的基本技術,這些技術在技術層面上屬于生成式人工智能的范圍。本文將基本技術大致分為兩類:生成技術和創造技術。具體來說,創建技術是指能夠生成各種內容的技術,例如GAN和擴散模型。通用技術不能直接生成內容,但對AIGC的開發至關重要,例如Transformer架構。在本節中,我們將簡要總結AIGC所需的技術。
4 AIGC任務:文本生成
NLP研究自然語言,有兩個基本任務:理解和生成。這兩個任務并不是完全獨立的,因為適當文本的生成通常依賴于對一些文本輸入的理解。例如,語言模型通常將文本序列轉換為另一個文本序列,這構成了文本生成的核心任務,包括機器翻譯、文本摘要和對話系統。除此之外,文本生成向兩個方向發展:可控性和多模態。第一個方向是生成內容。 4.1 文本到文本
4.1.1聊天機器人 對話系統(聊天機器人)的主要任務是在人類和機器之間提供更好的交流[85,299]。根據應用中是否指定任務,對話系統可以分為兩類:(1)任務導向型對話系統(TOD)[323,502,533]和(2)開放域對話系統(OOD)[4,532,541]。具體來說,面向任務的對話系統專注于任務完成和解決特定問題(例如,餐廳預訂和機票預訂)[533]。同時,開放域對話系統通常是數據驅動的,目的是在沒有任務或域限制的情況下與人類聊天[353,533]。面向任務的系統。面向任務的對話系統可以分為模塊化系統和端到端系統。模塊化方法包括四個主要部分: 自然語言理解(NLU)[395,409],對話狀態跟蹤(DST)[382,462],對話策略學習(DPL)[169,483]和自然語言生成(NLG)[25,99]。在用NLU將用戶輸入編碼為語義槽后,DST和DPL決定下一個動作,然后由NLG轉換為自然語言作為最終響應。這四個模塊旨在以可控的方式產生響應,并可以單獨優化。然而,有些模塊可能是不可微的,單個模塊的改進可能不會導致整個系統的改進[533]。為了解決這些問題,端到端方法要么通過使每個模塊可微[139,162]來實現端到端訓練管道,要么在系統中使用單個端到端模塊[498,531]。模塊化系統和端到端系統仍然存在一些挑戰,包括如何提高DST[208,312]的跟蹤效率,以及如何提高具有有限數據的端到端系統的響應質量[145,148,282]。
**Open-domain系統。**開放域系統旨在與沒有任務和域限制的用戶聊天[353,533],可以分為三種類型:基于檢索的系統,生成系統和集成系統[533]。基于檢索的系統總是從響應語料庫中找到現有的響應,而生成系統可以生成可能不會出現在訓練集中的響應。集成系統通過選擇最佳響應或用生成模型優化基于檢索的模型[378,533,546],將基于檢索的方法和生成的方法相結合。之前的工作從多個方面改進了開放域系統,包括對話上下文建模[105,181,250,282],提高響應一致性[9,117,251,483]和多樣性[31,211,335,408]。最近,ChatGPT(參見圖12)取得了前所未有的成功,也屬于開放域對話系統的范圍。除了回答各種問題,ChatGPT還可以用于論文寫作、代碼調試、表生成等。
4.1.2 機器翻譯
顧名思義,機器翻譯自動將文本從一種語言翻譯為另一種語言171,7497。隨著深度學習取代基于規則的[108]和基于統計的[212,213]方法,神經機器翻譯(NMT)需要最少的語言專業知識[399,451],并因其在句子中捕獲長依賴的能力更高[62]而成為一種主流方法。神經機器學習的成功主要歸功于語言模型[34],它以前一個詞為條件來預測一個詞出現的概率。Seq2seq[413]是將編碼器-解碼器RNN結構[191]應用于機器翻譯的開創性工作。當句子變長時,Seq2seq[413]的性能會變差,針對這一問題,[24]中提出了一種注意力機制,通過額外的單詞對齊來幫助翻譯長句子。隨著越來越多的關注,2006年,與谷歌的基于短語的生成系統相比,谷歌的NMT系統幫助減少了約60%的人工翻譯工作量,彌補了人類翻譯和機器翻譯之間的差距[475]。基于CNN的架構也已被研究用于NMT,并進行了多次嘗試[190,192],但未能取得與由注意力[24]增強的RNN相當的性能。Convolutional Seq2seq[120]使CNN與注意力機制兼容,表明CNN可以取得與RNN相當甚至更好的性能。然而,這種改進后來被另一種稱為Transformer[443]的架構超越。使用RNN或Transformer作為架構,NMT通常使用自回歸生成模型,其中貪婪搜索只考慮在推理過程中預測下一個工作概率最高的單詞。NMT的一個趨勢是在低資源設置中取得令人滿意的性能,其中模型是用有限的雙語語料庫訓練的[458]。緩解這種數據稀缺的一種方法是利用輔助語言,如使用其他語言對進行多語言訓練[187,383,547],或以英語作為中間中間中間語言[58,350]的中間中間語言轉換[58,350]。另一種流行的方法是利用預訓練語言模型,如BERT[87]或GPT[338]。例如,在[359]中顯示,使用BERT[87]或RoBERTa[259]初始化模型權重可以顯著提高英德翻譯性能。在不需要微調的情況下,GPT家族模型[40,338,339]也顯示出具有競爭力的性能。最近,ChatGPT在機器翻譯中顯示了其能力,與商業產品(如谷歌翻譯)相比表現出了競爭力[182]。
4.2多模態文本生成 4.2.1圖像到文本。 圖像到文本,也稱為圖像描述,指的是用自然語言描述給定圖像的內容(參見圖14)。該領域的一項開創性工作是神經圖像描述(NIC)[447],它使用CNN作為編碼器來提取輸入圖像的高級表示,然后將這些表示輸入RNN解碼器以生成圖像描述。這種兩步編碼器-解碼器架構已被廣泛應用于后期關于圖像描述的工作中,我們將其分別稱為視覺編碼[407]和語言解碼。本文首先回顧了圖像描述的兩個階段的歷史和最近的趨勢。 **視覺編碼。**提取圖像的有效表示是視覺編碼模塊的主要任務。從NIC[447]開始,使用GoogleNet[417]提取輸入圖像的全局特征,多個工作采用各種CNN骨干網絡作為編碼器,包括[195]中的AlexNet[216]和[92,272]中的VGG網絡[393]。然而,語言模型很難生成具有全局視覺特征的細粒度標題。以下工作介紹了細粒度視覺特征的注意力機制,包括對CNN特征的不同網格[56,264,463,484]或不同視覺區域[16,200,518]的注意力。另一個分支工作[500,536]采用圖神經網絡來編碼不同區域之間的語義和空間關系。然而,人類定義的圖結構可能會限制元素之間的相互作用[407],這可以通過連接所有元素的自注意力方法231,501,530來緩解。 **語言解碼。**在圖像描述中,語言解碼器通過預測給定單詞序列的概率來生成標題[407]。受NLP領域突破的啟發,語言解碼器的骨干從RNN[200, 264, 447, 456]發展到Transformer[132, 149, 231],實現了顯著的性能提升。除了視覺編碼器-語言解碼器架構之外,一個分支工作采用類似BERT的架構,在單個模型的早期階段融合圖像和標題[244,526,542]。例如,[542]采用單個編碼器來學習圖像和文本的共享空間,首先在大型圖像-文本語料庫上進行保留并進行微調,特別是針對圖像描述任務。 4.2.2 語音到文本生成
語音到文本生成,也稱為自動語音識別(ASR),是將口語,特別是語音信號轉換為相應文本的過程173,347。ASR有許多潛在的應用,如語音撥號、計算機輔助語言學習、字幕生成以及Alexa和Siri等虛擬助手,自20世紀50年代以來,ASR一直是一個令人興奮的研究領域[194,270,345],并從隱馬爾可夫模型(HMM)[188, 225]發展到基于DNN的系統[75,127,152,297,473]。
**各種研究主題和挑戰。**已有工作對ASR系統進行了多方面的改進。多個工作討論了語音信號的不同特征提取方法[270],包括時間特征(如離散小波變換[287,419])和譜特征(如最常用的梅爾頻率倒譜系數(MFCC)[61,69,429])。另一個工作分支將系統管道[355]從多模型[268]改進為端到端[161,233,234,296,453]。具體來說,多模型系統[268,270]首先學習聲學模型(例如,將特征映射到音素的音素分類器),然后學習單詞輸出的語言模型[355]。另一方面,端到端模型直接從音頻輸入預測轉錄[161,233,234,296,453]。盡管端到端模型在各種語言和方言中取得了令人印象深刻的性能,但仍然存在許多挑戰。首先,它們在資源不足的語音任務中的應用仍然具有挑戰性,因為獲取大量標注的訓練數據是昂貴和耗時的[104,355]。其次,這些系統可能很難處理具有特殊詞匯表外單詞的語音,并且可能在訓練數據上表現良好,但可能對新的或未見過的數據[104,334]泛化能力不強。此外,訓練數據中的偏差也會影響有監督ASR系統的性能,導致對某些人群或語音風格[35]的準確性較差。 **資源受限的語音任務。**研究人員致力于研究克服ASR系統挑戰的新技術,其中主要討論了語音資源不足的問題,即缺乏語音受損的數據[355]。一個工作分支[321,346]采用多任務學習來優化不同任務的共享編碼器。與此同時,自監督ASR系統最近成為一個不依賴大量標記樣本的活躍研究領域。具體來說,自監督ASR系統首先在大量未標記語音數據上預訓練模型,然后在較小的標記數據集上進行微調,以促進ASR系統的效率。它可以應用于低資源語言,處理不同的說話風格或噪聲條件,并轉錄多種語言[23,71,255,492]。
5 AIGC任務:圖像生成
與文本生成類似,圖像生成的任務也可以根據其輸入控制分為不同的類別。由于輸出是圖像,一個簡單的控制類型是圖像。圖像類型的控制引起了大量的任務,如超分辨率、去模糊、編輯、翻譯等。圖像類型控件的一個限制是缺乏靈活性。相比之下,文本引導控制可以根據人類的自由意志生成任何風格的任何圖像內容。文本到圖像屬于跨模態生成的范疇,因為輸入文本與輸出圖像是不同的模態。 5.1圖像到圖像
5.1.1圖像恢復 圖像恢復解決了一個典型的逆向問題,即從相應的退化版本恢復干凈的圖像,示例如圖16所示。由于退化圖像與純凈圖像之間存在無限種可能的映射關系,因此這種反問題的病態性質是非平凡的。退化有兩個來源:原始圖像中的信息缺失和在干凈的圖像中添加了一些不受歡迎的東西。前一種退化包括拍攝一張低分辨率的照片,從而丟失一些細節信息,裁剪某個區域,并將彩色圖像轉換為灰色形式。恢復任務依次是圖像超分辨率、修復和著色。另一類恢復任務旨在消除不受歡迎的干擾,如去噪,去霧,去模糊等。早期恢復技術主要使用數學和統計建模來消除圖像退化,包括用于去噪的空間濾波器[123,392,529],用于去模糊的核估計[485,489]。最近,基于深度學習的方法[42,59,93,177,248,252,481,486]由于其通用性和比傳統方法優越的視覺質量,在圖像恢復任務中發揮了主導作用。CNN被廣泛用于圖像恢復[94,411,442,459]中作為構建塊,而最近的工作探索了更強大的transformer架構,并在各種任務中取得了令人印象深刻的性能,如圖像超分辨率[247]、著色[218]和修復[240]。也有一些工作將CNN和Transformer的強度結合在一起[103,534,535]。 **復原的生成方法。**典型的圖像恢復模型在重建損失的情況下學習源(退化)圖像和目標(干凈)圖像之間的映射。根據任務的不同,可以通過對干凈的圖像進行各種擾動(包括分辨率下采樣和灰度變換)來生成訓練數據對。為了保持更多的高頻細節并創建更真實的圖像,生成模型被廣泛用于修復,例如超分辨率[223,460,528]和修復[42,252,298]中的GAN。然而,基于gan的模型通常遭受復雜的訓練過程和模式崩潰。這些缺點和DMs的大規模流行導致許多最近的工作將DMs用于圖像恢復任務[199,232,265,349,367,369]。像GAN和DM這樣的生成方法也可以從單個退化圖像中產生多種不同的干凈輸出。 **從單任務到多任務。**現有的大多數復原方法針對不同形式的圖像退化訓練單獨的模型。這限制了它們在實際用例中的有效性,在實際用例中,圖像被退化的組合損壞。為了解決這個問題,一些研究[6,207,391,540]引入了多失真數據集,這些數據集結合了不同強度的各種退化形式。一些研究[207,258,505,509]提出了不同的恢復模型,其中不同的子網絡負責不同的退化。另一項工作[228,242,391,410,540]依賴注意力模塊或引導子網絡來幫助恢復網絡通過不同的退化,允許單個網絡處理多個退化
5.1.2 圖像編輯
圖像編輯是指修改圖像以滿足某種需求,如風格遷移(見圖17),而圖像恢復是為了增強圖像質量。從技術上講,一些圖像恢復任務,如著色,也可能被視為圖像編輯,因為將添加顏色視為所需的需求。現代相機通常具有基本的編輯功能,如銳度調整[524]、自動裁剪[525]、紅眼去除[396]等。然而,在AIGC中,我們對高級圖像編輯任務更感興趣,這些任務以各種形式改變圖像語義,如內容、樣式、對象屬性等。 5.2 多模態圖像生成
文本到圖像(T2I)任務旨在從文本描述生成圖像(見圖??),可以追溯到從標簽或屬性[405,495]生成圖像。AlignDRAW[271]是一項從自然語言生成圖像的開創性工作,令人印象深刻的是,AlignDRAW[271]可以從新穎的文本中生成圖像,如“一個停車標志在藍天中飛翔”。最近,文本到圖像領域的進展可以分為三個分支,包括基于GAN的方法,自回歸方法和基于擴散的方法。
為應對數字經濟中數字智能的挑戰,人工智能生成內容(artificial intelligence-generated content, AIGC)應運而生。AIGC通過根據用戶輸入的關鍵字或需求生成內容,使用人工智能來輔助或取代人工內容生成。大型模型算法的發展大大增強了AIGC的能力,這使得AIGC產品成為一種很有前途的生成工具,也為我們的生活增添了便利。AIGC作為一種上游技術,在支持下游應用方面具有無限的潛力。重要的是要分析AIGC當前的功能和缺點,以了解如何在未來的應用中最好地利用它。因此,本文對AIGC的定義、基本條件、前沿功能和高級特性進行了較為全面的綜述。此外,還討論了大規模預訓練模型的優勢和AIGC的產業鏈。此外,文章還探討了AIGC中輔助生成和自動生成之間的區別,并提供了文本生成的示例。本文還探討了AIGC與元宇宙的潛在集成。最后指出了存在的問題和未來的發展方向。1. 引言隨著Web 3.0仍處于蓬勃發展階段[1],人工智能(AI)1已被證明是許多具有挑戰性任務的有效工具,如生成內容、分類和理解。近年來,人工智能的一些進步已經幫助該技術完成了比以前更復雜的任務,例如理解輸入數據,然后生成內容。人工智能生成內容(Artificial Intelligence Generated Content, AIGC)是對專業生成內容(Professional Generated Content, PGC)、用戶生成內容(User Generated Content, UGC)[2]、[3]等傳統內容創作方式的補充。AIGC根據AI技術生成滿足用戶需求的內容。它被認為是一項有前途的技術,有許多應用。因此,了解AIGC的能力和局限性對于充分挖掘其潛力至關重要。
事實上,AIGC的起源可以追溯到更早的時期。其發展歷史大致可以分為三個階段(如圖1所示)。在第一個階段,研究者通過最原始的編程技術控制計算機實現內容的輸出。希勒和艾薩克森在1957年完成了世界上第一首用電腦完成的音樂《伊利亞特組曲》。然后,世界上第一個人機交互機器人Eliza誕生了。Eliza顯示了通過模式匹配和智能短語搜索適當答案的能力,但不反映語義理解。然而,現在大多數人仍然將Eliza視為人工智能的靈感來源。此后二十年,為沉積堆積階段。第二階段假設AIGC的可用性是由于大規模數據庫可用性的提高和計算設備性能的提高。《路》是世界上第一部完全由人工智能創作的小說。隨后,微軟還展示了一個全自動同聲傳譯系統,該系統能夠在短時間內將英語語音翻譯成漢語,準確率達到[4]。然而,算法瓶頸直接限制了AIGC生成豐富內容的能力。第三階段開始于2010年,AIGC進入快速發展階段。Goodfellow[5]提出了一種通用對抗網絡(GAN),利用現有數據生成圖片。在2022年,OpenAI發布了一個新的聊天機器人模型,稱為ChatGPT。它能夠理解人類的語言,并像人類一樣生成文本。月活躍用戶在兩個月內突破1億。20235年1月,每天大約有1300萬獨立訪問者使用ChatGPT。隨著ChatGPT等產品的不斷完善,AIGC顯示出了巨大的應用潛力和商業價值。它引起了企業家、投資者、學者和公眾的廣泛關注。
目前AIGC的內容質量明顯優于以前。此外,AIGC內容的類型也更加豐富,包括文本、圖像、視頻、代碼等。表一列出了一些AIGC型號或各大科技公司開發的經典產品及其應用。ChatGPT是一個基于大型語言模型(LLM)的機器學習系統。在經過幽默的大型文本數據集的訓練后,LLM不僅擅長生成合理的對話,而且還能生成引人注目的片段(如故事和文章)。由于其獨特的人類反饋訓練過程,ChatGPT能夠更精確地理解人類的思維。谷歌聲稱他們即將推出的產品Bard將具有相同的功能,但更側重于生成對話。與ChatGPT相比,Bard可以利用外部知識源,通過提供自然語言問題的答案而不是搜索結果來幫助用戶解決問題。此外,微軟的Turning-NLG是一個擁有170億個參數的LLM,它適用于摘要、翻譯和問答。
擴散模型是圖像生成領域的前沿方法。它的簡單交互和快速生成功能大大降低了進入門檻。幾個流行的應用程序,如Disco Diffusion、Stable Diffusion和Midjourney,已經在社交媒體上產生了指數級的討論和作品展示。NVIDIA是視覺生成研究的先驅。他們的產品(即StyleGAN)是一種最先進的高分辨率圖像合成方法,專門用于圖像生成、藝術和設計。此外,由于不同行業對生成圖片的不同要求,StyleGAN為幾個初創公司提供了機會。例如,Looka專注于logo和網站設計,而Lensa專注于頭像生成。GAN已經能夠生成極其逼真的圖像。DeepMind正試圖將其應用于生成視頻領域。他們提出的模型稱為雙視頻鑒別器GAN (DVD-GAN)[6],可以通過計算高效的鑒別器分解生成更長和更高分辨率的視頻。DVD-GAN是對現實視頻生成的探索。
為了給相關學者和研究人員提供更多的見解和思路,本文重點關注AIGC相關問題,并總結了該領域的新興概念。此外,討論了未來AIGC可能遇到的潛在挑戰和問題,如在道德標準上缺乏全球共識,以及人工智能濫用和濫用的潛在風險。最后,對AIGC的發展和部署提出了展望。我們認為AIGC將為人類實現更便捷的服務和更高的生活質量。本文的主要貢獻如下。
本文給出了AIGC的定義,并討論了其關鍵條件。然后,通過闡述AIGC的3個前沿功能和6個高級特征來展示AIGC帶來的巨大影響。
進一步詳細描述了AIGC的產業鏈,并列出了AIGC中采用的大型預訓練模型的幾個優點。
為揭示AIGC中輔助生成和自動生成之間的差異,本文對文本生成、人工智能輔助寫作和人工智能生成寫作示例進行了深入的討論和分析。
從實際應用的角度,總結了AIGC的優缺點,然后介紹了AIGC與Metaverse的結合。
最后,指出了AIGC目前需要解決的幾個問題,并提出了未來應用的一些方向。
2. 人工智能生成內容(AIGC) 內涵
人工智能生成內容(AIGC)是指由機器生成的博客、營銷材料、文章、產品描述等內容。如圖3所示,AIGC經歷了三種不同的內容生成模式。在PGC模式下,內容由專業團隊[7]、[8]生成。PGC的優點是生成的內容大多是高質量的,但生產周期長,難以滿足產出的數量需求。在UGC模式下,用戶可以選擇多種創作工具自行完成內容生成[9]、[10]。UGC的優勢在于使用這些創意工具可以降低創作的門檻和成本,提高用戶參與創作的積極性。UGC的劣勢在于創作者水平參差不齊,產出內容的質量難以保證。AIGC可以克服PGC和UGC在數量和質量上的不足。它有望成為未來內容生成的主要模式。在AIGC模式中,AI技術利用專業知識提高內容生成的質量,也節省了時間。
如圖4所示,AIGC由三個關鍵部分組成: 數據、硬件和算法。音頻、文本和圖像等高質量數據是訓練算法的基本構建塊。數據量和數據源對[20]預測的準確性有至關重要的影響。硬件,特別是計算能力,構成了AIGC的基礎設施。隨著人們對計算能力需求的不斷增長,更快、更強大的芯片以及云計算解決方案已經變得必不可少。硬件應該能夠處理tb級的數據和具有數百萬個參數的算法。加速芯片與云計算的結合對于提供高效運行大型模型[21]所需的計算能力起著至關重要的作用。最終,算法的性能決定了內容生成的質量,而數據和硬件的支持對于實現最優結果至關重要。
AIGC產業鏈是一個從上游到下游相互關聯的生態系統。如圖8所示,下游應用嚴重依賴上游產品的基礎支持。數據供應商、算法機構、硬件開發機構是上游AIGC的主要組成部分。數據供應商利用網絡爬行技術從新聞網站、博客和社交媒體收集大量文本。然后,利用自然語言處理技術[48]對這些野生數據進行自動標記或處理。算法機構通常由一群經驗豐富的計算機科學家和數學家組成,他們具有深厚的理論背景和實踐經驗。他們可以開發高效準確的算法來解決各種復雜問題。硬件開發機構專注于開發專用芯片、處理器、加速器卡等硬件設備,以加速AI算法的計算速度和響應能力。
大規模人工智能模型是人工智能向通用智能發展的一個重要里程碑。大規模模型的使用明確表明AIGC具有更強的泛化能力。盡管通用數據的激增和可靠數據的缺乏帶來了挑戰,但深度學習完全依賴模型從數據中自動學習,從而顯著提高性能。大規模模型同時具有大規模和預訓練的特點,需要在為實際任務建模之前對大量廣義數據進行預訓練。這些模型被稱為大規模預訓練模型[53]。事實上,AI的大規模模型可以看作是對人類大腦的模擬,這是AI的靈感來源[54]。事實上,人腦是一個具有基本認知能力[55]的大規模模型。人類大腦可以高效地處理來自不同感官的信息,并同時執行不同的認知任務。因此,人工智能大規模模型不僅期望具有眾多參與者,而且能夠有效地理解多模態信息,跨模態感知,并同時在不同任務之間遷移或執行。人工智能大規模模型理解人類思維準確率的提高歸功于基于人類反饋數據訓練模型[56]的系統。
如圖9所示,開發大規模預訓練模型的過程可以分為三個主要步驟。第一步是收集解釋性數據來訓練監督學習策略。第二步涉及收集比較數據來訓練獎勵模型,這使模型能夠做出更準確的預測。最后一步是收集解釋性數據,使用增強學習技術優化模型。這將提高模型的性能和效率
3. 應用
隨著硬件和算法的快速發展,AIGC的應用前景更加廣闊。我們認為AIGC最具潛力的方向包括跨模態生成、搜索引擎優化、媒體制作、電商、電影制作等領域,如圖13所示。
4. 結論
近年來,在海量高質量數據和高性能硬件的支持下,許多用于大型模型的算法得到了快速發展。這些算法不僅具有理解文本的能力,而且具有輔助或自動生成豐富內容的能力。ChatGPT等應用實例展示了AIGC技術的商業價值和應用性能,在短時間內引起了眾多一線企業的廣泛關注和投資。本文簡要介紹了AIGC技術,并闡述了它的特點。此外,還對AIGC能力的優勢和劣勢進行了比較分析。然而,AIGC的發展仍然面臨著許多挑戰和機遇。本文還對AIGC面臨的挑戰和未來方向提出了見解。最后,希望本文的綜述能為學術界、產業界和企業界的發展提供有益的思路,為AIGC領域的進一步探索提供有價值的思考方向和見解。
關于ChatGPT的一切,讀這篇論文就行了!
OpenAI最近發布了GPT-4(又名ChatGPT plus),這被證明是生成式AI (GAI)的一小步,但卻是通用人工智能(AGI)的一大步。自2022年11月正式發布以來,ChatGPT憑借媒體的廣泛報道迅速吸引了眾多用戶。這種前所未有的關注也促使眾多研究者從各個方面對ChatGPT進行研究。據谷歌scholar統計,有500多篇文章的標題中有ChatGPT或在摘要中提到它。考慮到這一點,迫切需要進行調研,我們的工作填補了這一空白。首先對ChatGPT的底層技術、應用以及面臨的挑戰進行了全面的綜述。對ChatGPT如何演變為實現通用AIGC(即AI生成內容)的前景進行了展望,這將是AGI發展的一個重要里程碑。
1. 引言
過去幾年見證了大量生成式AI (AIGC,又稱AI生成內容)工具的出現[73,135,141],這表明AI已經進入了一個創造而不是純粹理解內容的新時代。關于生成式AI (AIGC)的完整調查,讀者可以參考[214]。在這些AIGC工具中,2022年11月發布的ChatGPT引起了前所未有的關注。它吸引了眾多用戶,月活躍用戶在短短兩個月內就突破了1億,打破了其他社交產品的用戶增長記錄[118]。ChatGPT是由OpenAI開發的,它最初是一個非營利性研究實驗室,使命是構建安全有益的人工通用智能(AGI)。OpenAI在2020年宣布GPT-3后,逐漸被公認為世界領先的AI實驗室。最近,它發布了GPT-4,這可以被視為生成AI的一小步,但對于AGI來說是一大步。
由于其令人印象深刻的語言理解能力,許多新聞文章提供了廣泛的報道和介紹,舉幾個例子,BBC Science Focus [69], BBC news [39], CNN Business [79], Bloomberg news[157]。谷歌管理層針對ChatGPT的威脅發布了“紅色警報”,暗示ChatGPT對公司,尤其是其搜索服務構成了重大威脅。在微軟將ChatGPT引入必應(Bing)搜索服務之后,這種危險似乎更難被忽視。股價的變化也反映出微軟相信ChatGPT可能會幫助必應與谷歌搜索競爭。這種對ChatGPT前所未有的關注,也促使眾多研究人員從各個方面對這個有趣的AIGC工具進行研究[149,163]。根據我們在谷歌scholar上的文獻綜述,不少于500篇文章在標題中包含ChatGPT或在摘要中提到這個病毒式的術語。如果沒有一個完整的調查,讀者很難掌握ChatGPT的進展。我們的全面綜述及時提供了對ChatGPT的初步了解。
由于本次綜述的主題可以看作是一個商業工具,因此我們首先介紹了開發ChatGPT的公司OpenAI的背景。此外,本綜述還對ChatGPT的功能進行了詳細的討論。在背景介紹之后,本工作總結了ChatGPT背后的技術。具體來說,我們介紹了它的兩個核心技術:Transformer架構和自回歸修飾,在此基礎上,我們給出了大型語言模型GPT從v1到v4的技術路徑[18,122,136,137]。強調了突出的應用和相關的挑戰,如技術限制、濫用、倫理和監管。最后,我們對ChatGPT未來如何演變為通用AIGC以實現AGI的最終目標進行了展望,從而總結了本調查。我們工作的結構化概述如圖1所示。
2 ChatGPT概述
首先,我們提供了ChatGPT的背景和相應的組織,即旨在構建人工通用智能(AGI)的OpenAI。期望AGI能夠解決人類層面的問題以及超越人類層面的問題,前提是建立安全、可信、有益于我們社會的系統。
2.1 OpenAI
OpenAI是一個研究實驗室,由一組致力于構建安全和有益AGI[50]的研究人員和工程師組成。它成立于2015年12月11日,由一群備受矚目的科技高管組成,包括特斯拉CEO Elon Musk, SpaceX總裁Gwynne Shotwell, LinkedIn聯合創始人Reid Hoffman,以及風險投資家Peter Thiel和Sam Altman[78]。在這一小節中,我們將討論OpenAI的早期發展,它是如何成為一個營利性組織的,以及它對AI領域的貢獻。 OpenAI最初是一個非營利組織[24],其研究主要集中在深度學習和強化學習、自然語言處理、機器人等方面。在發表了幾篇有影響力的論文[123]并開發了一些最復雜的人工智能模型后,該公司很快就因其前沿研究而建立了聲譽。然而,為了創造能夠帶來資金的人工智能技術,OpenAI在2019年被重組為營利性公司[31]。盡管如此,該公司在為其技術創建商業應用的同時,繼續開發合乎道德和安全的人工智能。此外,OpenAI還與幾家頂級科技公司合作,包括微軟、亞馬遜和IBM。今年早些時候,微軟透露了與OpenAI的一項為期數年、價值數十億美元的新合資項目[21]。雖然微軟沒有給出確切的投資金額,但Semafor聲稱微軟正在討論花費100億美元[101]。據《華爾街日報》(the Wall Street Journal)報道,OpenAI的市值約為290億美元。
從大型語言模型到開源軟件,OpenAI顯著推動了人工智能領域的發展。首先,OpenAI開發了一些迄今為止最強大的語言模型,包括GPT-3[95],該模型因其在許多上下文中產生連貫和現實的文本的能力而獲得了廣泛的贊譽。OpenAI還開展了強化學習的研究,這是人工智能的一個分支,旨在訓練機器人根據獎懲做出選擇。近端策略優化(PPO)[71]、軟Actor-Critic (SAC)[189]和可信區域策略優化(TRPO)[181]只是OpenAI迄今為止創建的一些強化學習算法。這些算法已被用于訓練智能體執行各種任務,包括玩游戲和控制機器人。到目前為止,OpenAI已經創建了許多軟件工具來協助其研究工作,包括OpenAI Gym[76],這是一個用于創建和對比強化學習算法的工具集。在硬件方面,OpenAI投資了幾個高性能處理系統,包括NVIDIA的DGX-1和DGX-2系統[150]。這些系統是在考慮深度學習的情況下創建的,能夠提供構建復雜AI模型所需的處理能力。除了ChatGPT, OpenAI開發的其他流行工具包括DALL-E[141]和Whisper [135], Codex[25]。圖2顯示了OpenAI產品發展歷程。
ChatGPT使用交互形式對用戶[1]提出的問題提供詳細的、類人的回答。ChatGPT能夠根據提示輸入文本生成高質量的文本輸出。基于GPT-4的ChatGPT plus還可以將圖像作為輸入。除了聊天機器人的基本角色外,ChatGPT還可以成功地處理各種文本到文本的任務,如文本摘要[45]、文本補全、文本分類[86]、情感[221]分析[112]、釋義[104]、翻譯[35]等。
ChatGPT已經成為搜索引擎領域的有力競爭者。正如我們在引言部分提到的,谷歌提供了世界上最優秀的搜索引擎,認為ChatGPT是對其壟斷地位的挑戰[188]。值得注意的是,微軟已經將ChatGPT集成到其Bing搜索引擎中,允許用戶接收更多有創意的回復[174]。我們可以看到搜索引擎和ChatGPT之間的明顯區別。即搜索引擎幫助用戶找到他們想要的信息,而ChatGPT開發雙向對話的回復,為用戶提供更好的體驗。其他公司正在開發類似的聊天機器人產品,如谷歌的LamMDA和Meta的BlenderBot。與ChatGPT不同,谷歌于2021年開發的LaMDA積極參與與用戶的對話,導致輸出文本中出現種族主義、性別歧視和其他形式的偏見[119]。
BlenderBot是Meta的聊天機器人,由于開發人員對其輸出材料設置了更嚴格的限制[130],用戶的反饋相對枯燥。ChatGPT似乎在某種程度上平衡了類人的輸出和偏差,允許更令人興奮的反應。值得注意的是,除了比普通ChatGPT更高效和具有更高的最大token限制外,由GPT-4支持的ChatGPT還可以創建多種方言語言和情感反應,并減少不良結果,從而減少偏差[169]。文獻[96]指出,可以通過使用多任務學習和增強訓練數據質量來進一步提高ChatGPT的建模能力。
3 ChatGPT背后的技術
3.1 兩項核心技術
骨干架構:Transformer。在Transformer出現之前[182],RNN是語言理解的主要骨干架構,而注意力是模型性能的關鍵組成部分。與之前只將注意力作為支持組件的工作相比,谷歌團隊在他們的工作標題中聲稱:“attention is All You Need”[182]聲稱,自從谷歌在2017年發布了一篇論文,即“attention is All You Need”[182]以來,對Transformer骨干結構的研究和使用在深度學習社區中經歷了爆炸性的增長。本文總結了Transformer的工作原理,重點關注其核心組件self-attention。自注意力的基本原理假設,給定輸入文本,該機制能夠為單個單詞分配不同的權重,從而促進捕獲序列中的依賴關系和上下文關系。序列中的每個元素都具有其唯一的表示形式。為了計算序列中每個元素與其他元素的關系,需要計算輸入序列的Q (query)、K (key)和V (value)矩陣。這些矩陣是由輸入序列的線性變換推導出來的。通常,查詢矩陣對應于當前元素,鍵矩陣代表其他元素,值矩陣封裝了要聚合的信息。通過計算查詢與關鍵矩陣之間的相似度,確定當前元素與其他元素之間的關聯權重。這通常通過點積操作來實現。隨后,對相似度進行歸一化,以確保所有關聯的總和等于1,這通常通過softmax函數執行。然后將歸一化的權重應用于相應的值,然后對這些加權值進行聚合。這個過程產生了一種新的表示,包括當前單詞和文本中其他單詞之間的關聯信息。上述過程可以正式表述如下:
Transformer技術已經成為近期大型語言模型發展的重要基礎,如BERT[41]和GPT[18, 122, 136, 137]系列也是基于Transformer技術的模型。還有一系列工作將Transformer從語言擴展到視覺,即計算機視覺[42,63,100],這表明Transformer已經成為NLP和計算機視覺的統一骨干架構。 生成式預訓練:自回歸。對于模型預訓練[64,212,216-218],有多種流行的生成式建模方法,包括基于能量的模型[56,159,160,186],變分自編碼器[5,84,124],GAN[17, 54, 198],擴散模型[20,33,213,215,220]等。在這里,我們主要總結自回歸建模方法[11,90,90,177,178],因為它們是GPT模型的基礎[18,122,136,137]。自回歸模型是統計分析中處理時間序列數據的一種重要方法。這些模型指定輸出變量與前面的值線性相關。在語言建模的上下文中[18,122,136,137],自回歸模型根據前一個單詞預測后一個單詞,或根據下面的單詞預測最后一個可能的單詞。該模型學習序列數據的聯合分布,使用之前的時間步長作為輸入來預測序列中的每個變量。自回歸模型假設聯合分布????(??)可以分解為條件分布的乘積,如下所示:
雖然兩者都依賴于之前的時間步長,但自回歸模型與循環神經網絡(RNN)架構的區別在于,前者使用之前的時間步長作為輸入,而不是RNN中發現的隱藏狀態。本質上,自回歸模型可以被概念為一個前饋網絡,其中包含所有之前的時間步長變量作為輸入。早期的工作使用不同的函數對離散數據進行建模,以估計條件分布,例如全可見Sigmoid置信網絡(FVSBN)[51]中的邏輯回歸和神經自回歸分布估計(NADE)中的一個隱層神經網絡[90]。隨后的研究擴展到對連續變量建模[177,178]。自回歸方法已廣泛應用于其他領域,具有代表性的作品有:PixelCNN[180]和PixelCNN++[153]),音頻生成(WaveNet[179])。
3.2 技術路徑
ChatGPT是在一系列GPT模型的基礎上發展起來的,這是自然語言處理領域的一項重大成就。圖6概述了這一開發過程。在下面,我們總結了GPT的關鍵組成部分以及更新后的GPT的主要變化。
GPT-1。在只有解碼器的情況下,GPT-1采用了12層的Transformer,具有117M的參數[136]。圖4展示了GPT-1的概述以及如何將其用于各種下游任務。在包含獨特未出版書籍的大型BooksCorpus數據集上進行訓練,GPT-1能夠掌握長程依賴關系的上下文。一般任務無關的GPT模型在12個任務中的9個中優于為特定任務訓練的模型,包括自然語言推理、問答、語義相似性和文本分類[136]。觀察到GPT-1在各種零樣本任務上表現良好,表明了高水平的泛化能力。在GPT-2發布之前,GPT-1已經發展成為用于各種NLP任務的強大模型。
GPT-2。作為GPT-1的繼承,GPT-2由OpenAI于2019年推出,專注于在沒有明確監督的情況下學習NLP任務。與GPT-1類似,GPT-2基于僅解碼器的Transformer模型。然而,GPT-2的模型架構和實現已經開發出來,具有15億個參數和800萬個網頁的訓練數據集,這是其前身GPT-1的10倍以上[137]。在零樣本設置下,GPT-2在測試的8個語言建模數據集中的7個上取得了最先進的結果,其中7個數據集的任務包括對不同類別單詞的性能識別、模型捕捉長期依賴關系的能力、常識推理、閱讀理解、摘要和翻譯[137]。然而,GPT-2在問答任務上仍然表現不佳,這表明無監督模型GPT-2的能力有待提高[137]。
GPT-3。GPT-3的基礎是Transformer架構,特別是GPT-2架構。與具有15億個參數的GPT-2相比,GPT-3具有1750億個參數、96個注意力層和3.2 M的批處理大小,大小[18]顯著增加。GPT-3在各種各樣的在線內容上進行訓練,包括小說、論文和網站,使用語言建模,這是一種無監督學習,模型試圖根據前面的單詞猜測短語中的下一個單詞。完成后,GPT-3可以使用監督學習在特定任務上進行微調,其中使用特定任務的較小數據集來訓練模型,如文本補全或語言翻譯。由于OpenAI的API[36],開發人員可以將GPT-3模型用于許多應用程序,包括聊天機器人、語言翻譯和內容生產。API根據任務的規模和復雜程度提供不同的訪問級別。與其他性能高度依賴微調的語言模型相比,GPT-3可以執行許多任務(如語言翻譯),而無需任何此類微調、梯度或參數更新,使該模型與任務無關[105]。
GPT-3.5。GPT-3.5是廣泛流行的GPT-3的變體,ChatGPT是GPT-3.5的微調版本。在GPT-3模型之上,GPT-3.5具有額外的微調程序:有監督的微調和人工反饋的強化學習(RLHF)[203],如圖5所示,其中機器學習算法接收用戶反饋并使用它們來對齊模型。RLHF用于克服傳統無監督和有監督學習只能從無標記或有標記數據中學習的局限性。人工反饋可以采取不同的形式,包括懲罰或獎勵模型的行為,為未標記的數據分配標簽,或更改模型參數。通過將人工反饋納入訓練過程,GPT-3.5的可用性顯著提高。
GPT-4。2023年3月14日,OpenAI發布了GPT-4[122],這是GPT系列的第四部分。GPT-4是一個大型多模態模型,能夠將文本和圖像作為輸入,并生成文本作為輸出。該模型在幾個專業和職業標準上提供了人類水平的性能,但在現實世界中,它仍然比人類的能力弱得多。例如,GPT-4的虛擬律師考試成績位于測試參與者的前10%,而GPT-3.5的分數位于最低的10%[77]。GPT-4遵循人類意圖的能力明顯優于早期版本[125]。在提供給ChatGPT和OpenAI API的樣本中,5214個問題中,GPT-4的答案在70.2%的情況下優于GPT-3.5。在絕大多數預訓練數據于2021年9月結束后,GPT-4通常對發生了什么缺乏意識,也沒有從經驗中學習。它偶爾會表現出基本的邏輯錯誤,這些錯誤似乎與它在各個領域的技能不一致,或者當從用戶那里接受錯誤的聲明時,它可能過度信任用戶[122]。它可能會像人們一樣與復雜的問題作斗爭,例如生成包含安全缺陷的代碼[122]。表2總結了從v1到v4的GPT模型參數和訓練數據集。
4 ChatGPT的應用
4.1 科技寫作
ChatGPT以其強大的內容生成能力而被廣泛認可,對學術領域的寫作產生了重大影響。許多現有的工作已經測試了ChatGPT如何應用于科學寫作,包括頭腦風暴、文獻綜述、數據分析、直接內容生成、語法檢查以及作為學術評審員。
頭腦風暴。頭腦風暴是獲得初始想法的基本方法,是高質量科學研究的先決條件。ChatGPT可以在頭腦風暴中發揮各種作用,從激發創造力[57,139]產生新想法,到提供建議[98,168]擴展現有想法。ChatGPT可以幫助用戶進行發散性和創造性思維[139]。此外,一些研究以問答的形式探討了ChatGPT對未來護理研究的見解,可以分析未來技術發展對護理實踐的影響,并為護士、患者和醫療保健系統[57]提供有價值的見解。此外,ChatGPT還表現出多角度“思考”的能力,它可以從醫療系統、社會經濟、個人健康行為等多個維度分析和反思COVID-19大流行后超額死亡的影響[168]。評估ChatGPT是否能為特定領域的研究人員提供有用的建議。作者在[98]中測試了它在臨床決策支持方面的能力,并評估了它與人工建議的差異。測試結果表明,與人類思維不同,ChatGPT生成的建議具有獨特的視角,其生成的建議具有高度的可理解性和相關性,在科學研究中具有重要價值。
文獻綜述。一篇全面的文獻綜述需要涵蓋所有的相關研究,這會耗費研究者太多的時間和精力。例如,基于人工智能的科學文獻研究工具語義學者搜索引擎(Semantic Scholar search engine)已經索引了2億多份學術出版物。因此,找到相關的研究論文并從中提取關鍵見解幾乎是大海撈針。幸運的是,ChatGPT作為一個人工智能驅動的研究閱讀工具,可以幫助我們瀏覽大量的論文并理解其內容。在實際使用中,我們可以給ChatGPT一個主題,然后它可以幫助我們查找相關文獻。在討論ChatGPT處理文獻綜述的能力之前,我們回顧了一個類似的AI工具SciSpace Copilot,它可以幫助研究人員快速瀏覽和理解論文[152]。具體來說,它可以為科學文本和數學提供解釋,包括后續問題,以多種語言提供更詳細的答案,促進更好的閱讀和理解文本。相比之下,ChatGPT作為一種通用語言模型,不僅具有SciSpace Copilot的所有功能,而且可以廣泛應用于各種自然語言處理場景[152]。為了總結所選領域的相關工作,文獻綜述是必不可少的。作為一項探索性任務,他們選擇了“醫療領域的數字孿生”主題,并使用關鍵詞“醫療領域的數字孿生”匯編了過去三年(2020、2021和2022)從谷歌學者搜索結果中獲得的論文摘要。然后用ChatGPT對這些摘要進行轉述,生成的結果具有良好的[7]性能。然而,ChatGPT在這項任務中的應用還處于起步階段。[59]的作者要求ChatGPT提供10篇醫學領域DOIs的開創性學術文章。不幸的是,在進行了5次測試之后,結果顯示,在提供的50個doi中,只有8個存在,并且已經正確地發布。雖然ChatGPT在文獻綜述方面的能力還比較薄弱,但我們相信在不久的將來,ChatGPT將被廣泛用于文獻綜述,進一步提高研究人員的效率,使他們能夠將時間集中在重點研究上。
數據分析。科學數據需要在分析之前進行清理和組織,這通常需要花費研究人員幾天甚至幾個月的時間,最重要的是,在某些情況下,必須學習使用Python或r等編程語言。使用ChatGPT進行數據處理可以改變研究前景。例如,如[102]所示,ChatGPT完成了對一個模擬數據集的數據分析任務,該數據集包含10萬名年齡和風險分布不同的醫療工作者,以幫助確定疫苗的有效性,這大大加快了研究過程[102]。[152]中討論了另一個類似的用于數據分析的人工智能工具,其中基于人工智能的電子表格機器人可以將自然語言指令轉換為電子表格公式。此外,像Olli這樣的平臺還可以可視化數據,用戶只需要簡單地描述所需的內容,然后他們可以得到人工智能創建的折線圖、柱狀圖和散點圖。考慮到ChatGPT是目前為止最強大的人工智能工具,我們相信這些功能也可以在ChatGPT中以更智能的方式實現。
內容生成。許多工作嘗試使用ChatGPT為他們的文章生成內容[3,146]。例如,[3]利用ChatGPT輔助撰寫兩種疾病的發病機制的醫學報告。具體來說,ChatGPT提供了三方面關于同型半胱氨酸血癥相關骨質疏松的機制,所有這些都被證明是正確的。然而,當涉及到生成信息的參考文獻時,ChatGPT所提到的論文并不存在。[223]描述了一項使用ChatGPT編寫催化綜述文章的研究,主題設置為CO2加氫生成高級醇。chatgpt生成的內容包括論文的必要部分,但缺乏對反應機制的介紹,這對該主題至關重要。這篇文章的內容包含了大量有用的信息,但缺少具體的細節,存在一定的錯誤。此外,ChatGPT可以幫助準備稿件,但生成的結果與實際發表的內容相差較大。一個可能的原因是ChatGPT的關鍵詞與人工生成的文本差異很大,這就需要用戶對生成的內容進行進一步的編輯[88]。ChatGPT還被用于生成特定領域的綜述文章,如健康領域[7],這表明學者可以專注于核心研究,而將創造性較低的部分留給AI工具。然而,考慮到人工生成的內容和ChatGPT生成的內容之間的風格差異,[7,88]建議不要完全依賴ChatGPT。利用ChatGPT作為助手來幫助我們完成寫作,而不是僅僅依賴它。
校對。在ChatGPT出現之前,有很多語法檢查工具。一些工作[82,109,197]對語法和拼寫校對進行了測試,表明ChatGPT提供了比其他AI工具更好的用戶體驗。例如,ChatGPT可以自動修復任何標點和語法錯誤,以提高寫作質量[197]。此外,該研究還研究了ChatGPT如何超越幫助用戶檢查語法的范圍,進一步生成關于文檔統計、詞匯統計等報告,改變作品的語言,使其適合任何年齡的人,甚至將其改編為故事[82]。另一個次要但值得注意的是,到目前為止,Grammarly的高級版本Grammarly Premium需要用戶每月支付30美元的費用,這比ChatGPT Plus每月20美元的費用要貴得多。此外,ChatGPT已經與其他基于人工智能的語法檢查器進行了比較,包括QuillBot、DeepL、DeepL Write和谷歌Docs。實驗結果表明,ChatGPT在錯誤檢測數量方面表現最好。雖然ChatGPT在校對時存在一些可用性問題,例如比DeepL慢10倍以上,并且缺乏突出建議或為特定單詞或短語提供替代選項的能力[109],但應該注意的是,語法檢查只是冰山一角。ChatGPT在改進語言、重構文本和寫作的其他方面也很有價值。
學術評審。研究論文的同行評議是傳播新思想的一個關鍵過程,對科學進步有重大影響。然而,產生的研究論文的數量給人類評審者帶來了挑戰。[161]對ChatGPT用于文獻綜述的潛力進行了研究。具體來說,ChatGPT能夠對輸入的學術論文進行分析,然后從論文的概述、優缺點、清晰度、質量、新穎性、可重復性等方面對論文進行評價。然后,將論文生成的評論輸入ChatGPT進行情感分析。在此之后,可以對接受評審的論文做出決定。
4.2 教育領域
ChatGPT具有產生類似人類的響應的能力,已經被許多研究工作所研究,以探討它給教育領域帶來的影響。在這里,我們從兩個角度對它們進行總結:教/學和學科。
教與學。在典型的課堂環境中,教師是知識的來源,而學生是知識的接受者。在課堂之外,學生經常被要求完成老師設計的作業。ChatGPT可以顯著改變教師和學生之間的交互方式[10,148,209,211]。
各種教育科目的ChatGPT。在現代教育中,有各種各樣的學科,包括經濟學、法學、物理學、數據科學、數學、體育、心理學、工程學和媒體教育等。盡管ChatGPT并不是專門為成為某一特定主題的大師而設計的,但在眾多的作品中已經證明,ChatGPT對某一主題的理解還不錯,有時甚至超越了人類的水平。為了方便討論,我們將主題分為STEM(科學、技術、工程、數學)和非STEM(包括經濟學、法學、心理學等)。
4.3 醫療領域
醫學知識評估。ChatGPT在醫療領域的能力已經在一些工作中得到了評估[43,53,72,205]。疾病診斷和治療。雖然一些機器學習算法已被應用于輔助疾病分析,但大多數情況下主要局限于與單任務相關的圖像判讀。在這一部分,我們討論ChatGPT在臨床決策支持中的能力。
5 挑戰
5.1 技術局限
盡管ChatGPT功能強大,但它也有自己的缺點,這也是OpenAI團隊官方認可的。為了證明其局限性,已經進行了大量的工作[15,16,26,60,96,151,226],總結如下:
不正確。ChatGPT有時會生成看似合理的錯誤或無意義的答案,就像一本正經地胡說八道[16]。也就是說,ChatGPT提供的答案并不總是可靠的[15,16,226]。正如OpenAI所認識到的,這個問題是具有挑戰性的,一個主要原因是目前的模型訓練依賴于監督訓練和強化學習,以使語言模型與指令保持一致。因此,模型模仿人類演示者聽起來很有道理,但往往以正確性為代價。事實錯誤相關的問題在ChatGPT plus版本中得到了緩解,但這個問題仍然存在[122]。
不合邏輯。在[16,60,151]中指出,ChatGPT的邏輯推理能力還有待提高。由于ChatGPT缺乏理性的人類思維,它既不能“思考”,也不能“推理”,因此未能通過圖靈測試[60]。ChatGPT僅僅是一個復雜的統計模型,無法理解自己或對方的話,也無法回答深入的問題[151]。此外,ChatGPT缺乏一個“世界模型”來進行空間、時間或物理推理,或預測和解釋人類的行為和心理過程[16],在數學和算術方面也有局限,無法解決困難的數學問題或謎語,甚至可能在一些簡單的計算任務[16]中得到不準確的結果。
不一致。當用相同的提示輸入給模型喂食時,ChatGPT可以產生兩個不同的輸出,這表明ChatGPT具有不一致的局限性。此外,ChatGPT對輸入提示高度敏感,這激發了一群研究人員對提示工程的研究。一個好的提示可以提高系統綜述性文獻搜索的查詢效率[191]。利用關于軟件開發任務的有效目錄和指導等提示模式,可以進一步提高軟件開發任務自動化的效率[193,194]。盡管在為ChatGPT發現更好的提示方面取得了進展,但簡單地改變提示可以產生顯著不同的輸出這一事實,意味著ChatGPT需要提高其魯棒性。
無意識。ChatGPT不具備自我意識[16],雖然它可以回答各種問題,生成看似相關連貫的文本,但它沒有意識,沒有自我意識,沒有情緒,也沒有任何主觀經驗。比如ChatGPT可以理解和創造幽默,但是它不能體驗情感或者主觀體驗[16]。關于自我意識,目前還沒有一個被廣泛接受的定義,也沒有可靠的測試方法。一些研究者建議從某些行為或活動模式推斷自我意識,而另一些人則認為這是一種主觀體驗,無法客觀地測量[16]。機器究竟是真正擁有自我意識,還是只能模擬自我意識,目前還不清楚。
6. 展望
在這個蓬勃發展的生成AI時代,有大量的AIGC工具用于各種生成任務,包括text-to- text [12, 75, 117, 138, 200], text-to-image[106, 144, 166, 199, 219],圖像描述[68,187,202],text-to-speech[85, 145, 167],語音識別[93,97,126,155,190],視頻生成[66,108,116,201],3D生成[67,114]等。盡管具有令人印象深刻的功能,但在[55]中指出,ChatGPT并不是生成式AI所需要的全部。從輸入輸出的角度來看,ChatGPT主要擅長文本到文本的任務。隨著底層語言模型從GPT-3.5進化到GPT-4,加號版ChatGPT在輸入端增加了模態。具體來說,它可以選擇性地將圖像作為輸入,但是,它仍然不能處理視頻或其他數據模態。在輸出端,GPT-4仍然局限于生成文本,這使得它與通用的AIGC工具相距甚遠。很多人都想知道下一代GPT可能會實現什么[8,19]。一個極有可能的情況是,ChatGPT可能會走向通用型AIGC,這將是實現人工通用智能(AGI)[19]的一個重要里程碑。
實現這樣的通用AIGC的一種天真的方式是,以并行的方式將各種AIGC工具集成到一個共享agent中。這種樸素方法的一個主要缺點是不同的AIGC任務之間沒有交互。在查閱了大量文章后,我們推測可能存在兩種將ChatGPT橋接并推向AGI的路線圖。因此,我們主張一個共同的景觀,實現多元化AIGC模式之間的互聯互通。
As ChatGPT goes viral, generative AI (AIGC, a.k.a AI-generated content) has made headlines everywhere because of its ability to analyze and create text, images, and beyond. With such overwhelming media coverage, it is almost impossible for us to miss the opportunity to glimpse AIGC from a certain angle. In the era of AI transitioning from pure analysis to creation, it is worth noting that ChatGPT, with its most recent language model GPT-4, is just a tool out of numerous AIGC tasks. Impressed by the capability of the ChatGPT, many people are wondering about its limits: can GPT-5 (or other future GPT variants) help ChatGPT unify all AIGC tasks for diversified content creation? Toward answering this question, a comprehensive review of existing AIGC tasks is needed. As such, our work comes to fill this gap promptly by offering a first look at AIGC, ranging from its techniques to applications. Modern generative AI relies on various technical foundations, ranging from model architecture and self-supervised pretraining to generative modeling methods (like GAN and diffusion models). After introducing the fundamental techniques, this work focuses on the technological development of various AIGC tasks based on their output type, including text, images, videos, 3D content, etc., which depicts the full potential of ChatGPT's future. Moreover, we summarize their significant applications in some mainstream industries, such as education and creativity content. Finally, we discuss the challenges currently faced and present an outlook on how generative AI might evolve in the near future.
**為什么 ChatGPT 如此重要?AI C 端產品中的第一個爆款,可能代表著商業 化的拐點。**1)從用戶體驗上,比起競品和上一代產品,ChatGPT 的連續對話 能力明顯更強,具備了大范圍商業化的潛力。2)從應用場景的潛力上,語義 文本類產品想象空間較圖片類更大。短期看有望落地的包括更專業的客服機器 人、更垂直更專業化的 AI(如醫療教育領域)、新一代的智能搜索等。3)ChatGPT 的出現或將加快巨頭對于 AI 的發展速度。ChatGPT 的成功或將促進各科技巨 頭加大對于 AI 的研發投入,如谷歌近日宣布投資 OpenAI 的競爭對手 Anthropic。大廠的競爭有助于技術的進步和商業化的加速。
? 為什么是 ChatGPT?比起競品和上一代產品,ChatGPT 在多方面有了明顯改 善。1)道德性的增強,敢于質疑提問者提問前提的正確性和正當性。避免出 現偏見、歧視等毒害信息。2)主動承認錯誤或主動承認無法回答某一問題。3) 可以理解整段對話上下文的語義,而不是孤立的回答其中一個問題。4)對提 問者意圖判斷能力大幅提升,并非單純根據相關性進行答案羅列。因此整體上, ChatGPT 有著比其他 AI 機器人更好的用戶體驗,具備了真正意義上的連續對 話的能力。
**? 如何落地?**短期看是降本增效的新生產力工具,長期看可能帶來新的內容生 產范式。ChatGPT 的成功證明了生成式模型的進化,實現通用人工智能 AGI 的可能性進一步提高。其重要性體現在 AI 對人類傳達信息的載體有了更好 的學習,在此基礎上各個媒介之間的互通成為可能。例如從自然語言生成編程 語言,可以產生新的人機交互方式;從自然語言生成圖片和視頻,可以革新內 容行業的生產范式。短期直接落地的場景可能是在文本端,提高人的效率:搜 索、營銷文案、客服、輔助寫作;更長期的可能在于提高人機互動的智能, 如在游戲、虛擬人方面的應用。
**本文回顧了在擴散模型在廣泛的生成任務中流行的背景下的文本到圖像的擴散模型。作為一項獨立的工作,本綜述首先簡要介紹基本擴散模型如何用于圖像合成,然后介紹條件或指導如何改善學習。**在此基礎上,綜述了文本條件圖像合成(即文本到圖像)的最新方法。本文進一步總結了文本到圖像生成之外的應用:文本指導的創意生成和文本指導的圖像編輯。除了迄今取得的進展,本文還討論了現有的挑戰和有希望的未來方向。
//www.zhuanzhi.ai/paper/8a64d962c13c8857d5c06bcdc0c43c0a
1. 引言
一幅畫勝過千言萬語。正如一句老話所說,圖像比純文本更能講述故事。當人們閱讀文本故事時,他們可以通過想象在腦海中畫出相關的圖像,這有助于他們理解和享受更多。因此,設計一個從紋理描述生成視覺逼真圖像的自動系統,即文本到圖像任務,是一項非平凡任務,因此可以被視為類人或通用人工智能的一個重要里程碑[1],[2],[3],[4]。隨著深度學習[5]的發展,文本到圖像任務已經成為計算機視覺中最令人印象深刻的應用之一[6]、[7]、[8]、[9]、[10]、[11]、[12]、[13]、[14]、[15]、[16]、[17]、[18]。我們在圖1中總結了文本到圖像生成的代表性工作的時間軸。如圖1所示,AlignDRAW[6]是一項從自然語言生成圖像的開創性工作,但受到了不現實的結果的影響。文本條件GAN[7]是第一個從字符級到像素級的端到端差分架構。不同于基于GAN的方法[7]、[8]、[9]、[10]主要在小規模數據環境下進行,自回歸方法[11]、[12]、[13]、[14]利用大規模數據進行文本到圖像生成,代表性方法包括OpenAI的DALL-E[11]和谷歌的Parti[14]。然而,自回歸特性使得這些方法[11],[12],[13],[14]存在較高的計算成本和序列誤差累積。
最近,擴散模型(DM)出現了成為文本到圖像生成中最先進的新模型的趨勢[15],[16],[17],[18]。基于擴散的文本到圖像合成也在社交媒體上引起了廣泛關注。在過去的一年里,大量關于文本到圖像擴散模型的工作已經出現,但更多的工作預計將在不久的將來出現。相關著作的數量使讀者在沒有全面調研的情況下,了解文本-圖像擴散模型的最新發展越來越具有挑戰性。然而,據我們所知,目前還沒有關于基于擴散的文本到圖像生成的最新進展的綜述工作。相關綜述的一個分支[19],[20],[21],[22]綜述了擴散模型在所有領域的進展,使其局限于對測試到圖像合成任務的有限覆蓋。另一個綜述流[21],[23],[24]專注于文本到圖像任務,但僅限于基于GAN的方法,考慮到擴散模型取代GAN的最近趨勢,這些方法有些過時。本文通過全面介紹基于擴散模型的文本到圖像任務的最新進展,并對其未來方向進行了展望,填補了上述兩個流之間的空白。 **該綜述首先回顧了基于擴散模型的文本到圖像任務的最新進展,因此處于擴散模型和文本到圖像合成的交叉點。**因此,我們將本文的其余部分組織如下。第二節介紹了擴散模型的背景,包括對文本到圖像合成很重要的指導方法。第三部分討論了基于擴散模型的文本生成圖像任務的開創性工作,包括GLIDE[15]、Imagen[16]、Stable diffusion[17]和DALL-E2[18]。第四部分從各個方面進一步論述了后續研究對第三部分開拓性工作的完善。通過總結最近的基準和分析,在第5節中從技術和道德角度進一步評估這些文本到圖像的方法。除了文本到圖像的生成外,還介紹了第六節中的相關任務,包括文本指導的創意生成(如文本到視頻)和文本指導的圖像編輯。回顧了文本到圖像生成之外的各種應用,并討論了挑戰和未來的機會。 2. 開創性的文本到圖像擴散模型
本節介紹基于擴散模型的文本到圖像的前沿框架,根據擴散先驗在哪里進行,可以大致分類,即像素空間或潛空間。第一類方法直接從高維像素級生成圖像,包括GLIDE[15]和Imagen[16]。另一組工作建議首先將圖像壓縮到一個低維空間,然后在這個潛空間上訓練擴散模型。潛空間類的代表性方法有Stable Diffusion[17]、VQ-diffusion[39]和DALL-E 2[18]。 像素空間中的框架
GLIDE:關于DM的第一個T2I工作。本質上,文本到圖像是以文本為條件的圖像合成。因此,將類條件DM中的標簽替換為文本,使采樣生成以文本為條件是很直觀的。正如在2.3節中討論的,引導擴散提高了條件DM中樣本[37]的真實感,其無分類器變體[38]有助于處理自由形式的提示。受此啟發,GLIDE[15]在T2I中采用無分類器指導,將原始類別標簽替換為文本。GLIDE[15]還調查了剪輯指導,但與無分類器指導相比,人類評估人員不太喜歡樣本的照片真實感和標題相似性。作為其框架中的一個重要組件,文本編碼器被設置為一個transformer[40],具有24個殘差塊,寬度為2048(大約1.2B參數)。實驗結果表明,GLIDE[15]在FID和人工評價指標上均優于DALL-E [11]。
Imagen:用預訓練語言模型編碼文本。
繼GLIDE[15]之后,Imagen[16]采用無分類器指導的圖像生成。GLIDE和Imagen的核心區別在于它們對文本編碼器的選擇。具體來說,GLIDE使用成對的圖像-文本數據與擴散先驗一起訓練文本編碼器,而Imagen[16]采用預訓練和凍結的大型語言模型作為文本編碼器。凍結預訓練編碼器的權重有助于離線文本嵌入,這為文本到圖像擴散先驗的在線訓練減少了可忽略不計的計算負擔。此外,文本編碼器可以在圖像-文本數據(如CLIP[41])或純文本語料庫(如BERT [42], GPT[43],[44],[45]和T5[46])上進行預訓練。純文本語料庫明顯大于成對的圖像-文本數據,使這些大型語言模型接觸到分布豐富而廣泛的文本。例如,BERT[42]中使用的純文本語料庫約為20GB, T5[46]中使用的純文本語料庫約為800GB。以不同的T5[46]變體作為文本編碼器,[16]揭示了在Imagen中增加語言模型的大小比擴大擴散模型的大小更能提高圖像保真度和圖文對齊。
隱空間框架
穩定擴散:潛空間的里程碑式研究。在隱空間上訓練擴散模型的代表性框架是穩定擴散,它是隱擴散模型(LDM)[17]的擴展版本。繼Dall-E[11]采用VQ-VAE學習視覺碼本之后,穩定擴散在第一階段使用VQ-GAN[47]進行潛表示。值得注意的是,VQ-GAN通過添加對抗性目標來改進VQ-VAE,以增加合成圖像的自然度。使用預訓練的VAE,穩定擴散逆轉了用噪聲擾動潛空間的前向擴散過程。穩定擴散還引入了交叉注意力,作為各種條件信號(如文本)的通用調節。在[17]上的實驗結果表明,在隱空間上進行擴散建模在降低復雜度和保持細節方面明顯優于在像素空間上進行擴散建模。在VQ-diffusion[39]中,采用先掩碼再替換的擴散策略,也實現了類似的擴散算法。與像素空間方法的發現類似,無分類器指導也顯著改善了隱空間[17]、[48]中的文本到圖像擴散模型。
3. 文本到圖像擴散模型的改進
3.1改進模型架構
關于指導的選擇。在無分類器指導的基礎上,[15]、[57]、[58]等工作也利用CLIP[41]探索了跨模態指導。具體來說,GLIDE[15]發現CLIP-guidance的表現低于無分類器指導的變體。相比之下,另一項修復[59]的工作指出,缺乏大規模的transformer語言模型,使得這些具有CLIP指導的模型難以編碼文本提示和生成具有細節的復雜場景。通過結合大型語言模型和跨模態匹配模型,修復[59]顯著提高了生成圖像的樣本保真度和圖像-文本對齊。通用的圖像合成能力使修復[59]可以在簡單和復雜的場景中生成圖像。 3.2 空間控制示意圖
盡管它們具有前所未有的高圖像保真度和標題相似性,但大多數文本到圖像的DMs,如Imagen[16]和DALL-E2[18],并不提供對空間布局的細粒度控制。為此,SpaText[62]引入了空間文本(ST)表示,可以通過調整SOTA DM的解碼器對其進行微調。具體來說,新的編碼器同時滿足局部ST和現有的全局文本。因此,SpaText[62]的核心在于ST,其中的擴散先驗單獨訓練,以將CLIP中的圖像嵌入轉換為其文本嵌入。在訓練過程中,通過使用CLIP圖像編碼器將分割后的圖像對象作為輸入直接生成ST。并發工作[63]提出通過簡單的草圖圖像實現細粒度的局部控制。他們的方法的核心是一個潛在引導預測器(LGP),這是一個像素級MLP,將噪聲圖像的潛在特征映射到相應的草圖輸入。經過訓練后(請參閱[63]了解更多訓練細節),LGP可以部署到預訓練的文本到圖像DM,而不需要進行微調。
3.3 面向概念控制的文本反轉
文本到圖像生成的先驅工作[15],[16],[17],[18]依靠自然語言來描述生成圖像的內容和風格。然而,在某些情況下,文本不能準確地描述用戶想要的語義,例如生成一個新的主題。為了合成具有特定概念或主題的新場景,[64],[65]引入了一些具有所需概念的參考圖像,然后將參考圖像翻轉為文本描述。具體來說,[64]將幾個參考圖像中的共享概念翻轉到文本(嵌入)空間,即“偽詞”。生成的“偽詞”可用于個性化生成。DreamBooth[65]采用了類似的技術,主要區別在于對預訓練DM模型進行微調(而不是凍結),以保留主題身份的關鍵視覺特征。
3.4 分布外檢索
SOTA文本到圖像模型令人印象深刻的性能是基于這樣的假設:該模型很好地暴露了以訓練風格描述公共實體的文本。然而,當實體很少見,或者期望的風格與訓練風格有很大不同時,這種假設就不成立了。為了緩解分布外性能的顯著下降,多個工作[66]、[67]、[68]、[69]都使用了將外部數據庫作為內存進行檢索的技術。這種技術首先在NLP[70],[71],[72],[73],[74]和最近在基于GAN的圖像合成[75]中獲得了關注,通過將全參數模型轉換為半參數模型。受此啟發,[66]增強了具有檢索的擴散模型。檢索增強擴散模型(RDM)[66]由條件DM和圖像數據庫組成,圖像數據庫被解釋為模型的顯式部分。通過在CLIP中測量距離,為每個查詢查詢k近鄰,即訓練樣本,在外部數據庫中,擴散先驗由具有固定CLIP圖像編碼器的KNN近鄰的更有信息的嵌入來指導,而不是文本嵌入。KNN-diffusion[67]采用了一種基本相似的方法,主要不同之處在于使擴散先驗地附加在文本嵌入上,以提高生成的樣本質量。后續的Re-Imagen[69]也采用了這種做法。與兩階段框架的RDM[66]和KNN-diffusion[67]相比,Re-Imagen[69]采用單階段框架,選擇與潛空間距離不相關的K-NN近鄰。此外,Re-Imagen還允許檢索到的鄰居既是圖像又是文本。如[69]所述,Re-Imagen在基準COCO數據集上的性能比KNN-diffusion有很大的優勢。
最近,ChatGPT與DALL-E-2[1]和Codex[2]一起受到了社會的廣泛關注。因此,許多人對相關資源感興趣,并試圖揭開其令人印象深刻的性能背后的背景和秘密。**事實上,ChatGPT和其他生成式AI (GAI)技術屬于人工智能生成內容(AIGC)的范疇,它涉及通過AI模型創建數字內容,如圖像、音樂和自然語言。AIGC的目標是使內容創建過程更加高效和可訪問,允許以更快的速度生產高質量的內容。**AIGC是通過從人類提供的指令中提取和理解意圖信息,并根據其知識和意圖信息生成內容來實現的。近年來,大規模模型在AIGC中變得越來越重要,因為它們提供了更好的意圖提取,從而改善了生成結果。隨著數據和模型規模的增長,模型可以學習的分布變得更加全面和接近現實,從而產生更加真實和高質量的內容。**本文全面回顧了生成模型的歷史,基本組件,以及AIGC的最新進展,從單模態交互和多模態交互。**從單模態的角度,介紹了文本和圖像的生成任務和相關模型。從多模態的角度出發,介紹上述模態之間的交叉應用。最后討論了AIGC存在的開放問題和未來的挑戰。
1. 引言
近年來,人工智能生成內容(Artificial Intelligence Generated Content, AIGC)受到了計算機科學界以外的廣泛關注,全社會開始關注大型科技公司[3]構建的各種內容生成產品,如ChatGPT[4]和DALL-E2[5]。AIGC指的是使用高級生成AI (GAI)技術生成的內容,而不是由人類作者創建的內容,AIGC可以在短時間內自動創建大量內容。例如,ChatGPT是OpenAI開發的用于構建對話式人工智能系統的語言模型,可以有效地理解并以有意義的方式響應人類的語言輸入。此外,DALL-E-2是另一個最先進的GAI模型,也是由OpenAI開發的,它能夠在幾分鐘內從文本描述中創建獨特的高質量圖像,如圖1所示的“一個宇航員以逼真的風格騎馬”。隨著AIGC的卓越成就,許多人認為這將是人工智能的新時代,并將對整個世界產生重大影響。
**從技術上講,AIGC是指給定人工指令,可以幫助教學和指導模型完成任務,利用GAI算法生成滿足指令的內容。**該生成過程通常包括兩個步驟:從人工指令中提取意圖信息和根據提取的意圖生成內容。然而,如之前的研究[6,7]所示,包含上述兩個步驟的GAI模型的范式并不完全新穎。與之前的工作相比,最近的AIGC的核心進展是在更大的數據集上訓練更復雜的生成模型,使用更大的基礎模型架構,并能夠訪問廣泛的計算資源。例如,GPT-3的主框架保持與GPT-2相同,但預訓練數據大小從WebText 8增長到CommonCrawl9,基礎模型大小從1.5B增長到175B。因此,在人類意圖提取等任務上,GPT-3比GPT-2具有更好的泛化能力。
除了數據量和計算能力增加帶來的好處,研究人員還在探索將新技術與GAI算法集成的方法。例如,ChatGPT利用來自人類反饋的強化學習(RLHF)[10-12]來確定給定指令的最適當響應,從而隨著時間的推移提高模型的可靠性和準確性。這種方法使ChatGPT能夠更好地理解人類在長對話中的偏好。同時,在計算機視覺領域,由Stability提出了穩定擴散[13]。AI在2022年也在圖像生成方面取得了巨大成功。與之前的方法不同,生成擴散模型可以通過控制探索和利用之間的權衡來幫助生成高分辨率圖像,從而將生成圖像的多樣性和與訓練數據的相似性和諧地結合起來。
結合這些進展,模型在AIGC任務上取得了顯著進展,并被應用于各個行業,包括藝術[14]、廣告[15]、教育[16]等。在不久的將來,AIGC將繼續成為機器學習的一個重要研究領域。因此,對過去的研究進行廣泛的調研并確定該領域的開放問題至關重要。對AIGC領域的核心技術和應用進行了綜述。 **這是對AIGC的首次全面綜述,從技術和應用兩個方面對GAI進行了總結。之前的研究從不同的角度關注GAI,包括自然語言生成[17],圖像生成[18],多模態機器學習中的生成[7,19]。**然而,之前的工作只關注AIGC的特定部分。本文首先回顧了AIGC中常用的基礎技術。進一步對先進的GAI算法進行了全面的總結,包括單峰生成和多峰生成,如圖2所示。此外,還討論了AIGC的應用和潛在挑戰。最后指出了該領域存在的問題和未來的研究方向。
綜上所述,本文的主要貢獻如下:
據我們所知,我們是第一個為AIGC和AI增強生成過程提供正式定義和徹底調研的人。
回顧了AIGC的歷史和基礎技術,并從單模態生成和多模態生成的角度對GAI任務和模型的最新進展進行了全面分析。
討論了AIGC面臨的主要挑戰以及AIGC未來的研究趨勢。
調研的其余部分組織如下。第二節主要從視覺模態和語言模態兩個方面回顧了AIGC的歷史。第3節介紹了目前在GAI模型訓練中廣泛使用的基本組件。第4節總結了GAI模型的最新進展,其中第4.1節從單模態角度回顧了進展,第4.2節從多模態生成的角度回顧了進展。在多模態生成中,介紹了視覺語言模型、文本音頻模型、文本圖模型和文本代碼模型。第5節和第6節介紹了GAI模型在AIGC中的應用以及與該領域相關的一些重要研究。第7、8節揭示了AIGC技術存在的風險、存在的問題和未來的發展方向。最后,我們在9中總結了我們的研究。2. 生成式人工智能的歷史生成模型在人工智能領域有著悠久的歷史,可以追溯到20世紀50年代,隱馬爾可夫模型(HMM)[20]和高斯混合模型(GMMs)[21]的發展。這些模型生成了語音和時間序列等順序數據。然而,直到深度學習的出現,生成模型才在性能上看到了顯著的改進。
在早期的深度生成模型中,不同的領域通常沒有太多的重疊。在自然語言處理(NLP)中,傳統的生成句子的方法是使用N-gram語言建模[22]學習單詞分布,然后搜索最佳序列。然而,該方法不能有效地適應長句子。為了解決這個問題,循環神經網絡(RNN)[23]后來被引入到語言建模任務中,允許對相對較長的依賴關系進行建模。隨后,長短期記憶(LSTM)[24]和門控循環單元(GRU)[25]的發育,它們利用門控機制在訓練過程中控制記憶。這些方法能夠處理樣本[26]中的約200個標記,與N-gram語言模型相比,這是一個顯著的改進。 同時,在計算機視覺(CV)領域,在基于深度學習的方法出現之前,傳統的圖像生成算法使用紋理合成[27]和紋理映射[28]等技術。這些算法基于手工設計的特征,在生成復雜多樣的圖像方面能力有限。2014年,生成對抗網絡(Generative Adversarial Networks, GANs)[29]被首次提出,在各種應用中取得了令人印象深刻的結果,是該領域的一個重要里程碑。變分自動編碼器(vae)[30]和其他方法,如擴散生成模型[31],也已開發用于對圖像生成過程進行更細粒度的控制和生成高質量圖像的能力
生成模型在不同領域的發展遵循不同的路徑,但最終出現了交叉的問題:transformer架構[32]。Vaswani等人在2017年引入了NLP任務,Transformer后來被應用于CV中,然后成為不同領域許多生成模型的主要骨干[9,33,34]。在NLP領域,許多著名的大型語言模型,如BERT和GPT,采用transformer架構作為其主要的構建塊,比之前的構建塊(如LSTM和GRU)具有優勢。在CV中,Vision Transformer (ViT)[35]和Swin Transformer[36]后來通過將Transformer架構與視覺組件相結合,進一步發展了這一概念,使其可以應用于基于圖像的下游。除了transformer給單個模態帶來的改進之外,這種交叉還使來自不同領域的模型能夠融合在一起,以完成多模態任務。多模態模型的一個例子是CLIP[37]。CLIP是一種視覺-語言聯合模型,將transformer架構與視覺組件相結合,允許它在大量文本和圖像數據上進行訓練。由于它在預訓練時結合了視覺和語言知識,因此也可以作為多模態提示生成中的圖像編碼器。總而言之,基于transformer的模型的出現徹底改變了人工智能的產生,并導致了大規模訓練的可能性。
近年來,研究人員也開始引入基于這些模型的新技術。例如,在NLP中,人們有時喜歡少樣本提示[38],而不是微調,這是指在提示中包括從數據集中選擇的一些示例,以幫助模型更好地理解任務需求。在視覺語言中,研究人員經常將特定模態模型與自監督對比學習目標相結合,以提供更魯棒的表示。在未來,隨著AIGC越來越重要,會有越來越多的技術被引入,讓這個領域充滿活力。
3. 生成式人工智能
我們將介紹最先進的單模態生成模型。這些模型被設計為接受特定的原始數據模態作為輸入,例如文本或圖像,然后以與輸入相同的模態生成預測。我們將討論這些模型中使用的一些最有前途的方法和技術,包括生成語言模型,如GPT3[9]、BART[34]、T5[56]和生成視覺模型,如GAN[29]、VAE[30]和歸一化流[57]。
多模態模型
多模態生成是當今AIGC的重要組成部分。多模態生成的目標是通過學習數據[7]的多模態連接和交互來學習生成原始模態的模型。模態之間的這種連接和相互作用有時是非常復雜的,這使得多模態表示空間與單模態表示空間相比很難學習。然而,隨著前面提到的強大的特定于模式的基礎架構的出現,越來越多的方法被提出來應對這一挑戰。在本節中,我們將介紹視覺語言生成、文本音頻生成、文本圖形生成和文本代碼生成中的最先進的多模態模型。由于大多數多模態生成模型總是與實際應用高度相關,本節主要從下游任務的角度進行介紹。
4. 應用
5. 效率
在過去的十年中,具有神經網絡的深度生成式人工智能模型一直主導著機器學習領域,其崛起歸功于2012年的ImageNet競賽[210],這導致了一場創建更深入和更復雜模型的競賽。這種趨勢也出現在自然語言理解領域,像BERT和GPT-3這樣的模型已經開發出了大量參數。然而,不斷增加的模型占用空間和復雜性,以及訓練和部署所需的成本和資源,給現實世界中的實際部署帶來了挑戰。核心挑戰是效率,可以分解如下:
推理效率: 這與部署用于推理的模型的實際考慮有關,即為給定的輸入計算模型的輸出。推理效率主要與推理期間模型的大小、速度和資源消耗(例如,磁盤和RAM使用)有關。 * 訓練效率: 這涵蓋了影響訓練模型的速度和資源需求的因素,如訓練時間、內存占用和跨多個設備的可伸縮性。它還可能包括考慮在給定任務上實現最佳性能所需的數據量。
隨著對廣義深度模型的迫切需求,許多預訓練大模型被提出,如BERT、ViT、GPT等。受這些模型在單一領域(如計算機視覺和自然語言處理)成功的啟發,多模態預訓練大模型近年來也引起了越來越多的關注。在這項工作中,我們對這些模型進行了全面的綜述,希望本文能夠提供新的見解,幫助新的研究人員跟蹤最前沿的工作。**具體而言,我們首先通過回顧傳統深度學習、自然語言過程、計算機視覺和語音中的預訓練工作,介紹了多模態預訓練的背景;然后,我們介紹了多模態預訓練模型(MM-PTMs)的任務定義、主要挑戰和優勢,并討論了MM-PTMs,重點是數據、目標、網絡架構和知識增強的預訓練。**在此之后,我們介紹了用于大規模MM-PTMs驗證的下游任務,包括生成、分類和回歸任務。我們還對典型下游任務的模型參數和結果進行了可視化和分析。最后,我們指出了本課題可能的研究方向,對今后的工作有所裨益。此外,我們維護了一個持續更新的大規模預訓練多模態大模型的論文列表://github.com/wangxiao5791509/MultiModal BigModels survey
1. 引言
隨著AlexNet[1]在ImageNet比賽[2]上的識別性能的突破,人工智能有了很大的發展。提出了許多具有代表性的深度神經網絡,如VGG[3]、ResNet[4]、Inception[5]、LSTM[6]等。研究人員通常為他們的任務收集和注釋一些樣本,并基于大規模數據集上預訓練的基座訓練他們的模型(例如用于計算機視覺的ImageNet[2],用于自然語言處理的Glove[7]和Skip-thought vectors[8])。與傳統的手工功能相比,許多任務都可以通過這種端到端方式很好地解決,例如目標檢測、分割和識別。然而,所得到的深度模型泛化能力仍然有限。收集和注釋一個更大的數據集可以在一定程度上解決這些問題,但這個過程是昂貴和乏味的。 為了解決這個問題,Ashish等人提出了Transformer網絡[9],該網絡在機器翻譯任務上取得了新的SOTA(最先進的)性能。之后,在大規模語料上進行自監督預訓練,然后在下游任務上進行微調,吸引了越來越多研究者的關注。許多預訓練的大模型都是遵循這樣的范式提出的,如BERT [10], GPT [11,12], T5 [13], XLNet[14],也引發了CV領域預訓練的新研究熱點。越來越多的大規模NLP和CV模型通過預訓練和微調范式展示了強大的效果,包括ViT[15]和Swin-Transformer[16]。
盡管這一進展為人工智能的發展帶來了新的動力,然而,單模態缺陷所帶來的問題仍然難以解決。研究人員試圖納入更多模態來彌合深度模型的數據差距。許多基于多模態融合的任務也采用傳統的深度學習方式進行探索,如RGB、深度、自然語言、點云、音頻、事件流等。許多大規模預訓練多模態模型[17-23]被提出,這些模型在下游任務上相繼設置新的SOTA,如圖1所示。文中對這些工作進行了全面的綜述,旨在幫助感興趣的研究者快速了解該領域的歷史和最新發展。
綜述組織。文中首先回顧了多模態預訓練技術的研究背景,從傳統的深度學習范式到單模態任務的預訓練,包括自然語言處理、計算機視覺和自動語音處理。然后,在3.1節和3.2節中,重點介紹MM-PTMs,并描述任務定義、關鍵挑戰和好處。在以下子節中還將審查關鍵組件,包括大規模數據、網絡架構、優化目標和知識增強的預訓練。為了驗證預訓練模型的有效性,使用許多下游任務進行定量評估。在第4節中,詳細回顧了這些任務的任務定義和評估指標。在第5節中,我們回顧了用于訓練的模型參數和硬件,并報告了幾個代表性下游任務的實驗結果。最后,在第6節中,總結了本綜述并提出了多個需要研究的研究方向。這個綜述的架構如圖2所示。
與現有評論的區別。雖然已經有兩項針對MM-PTMs的綜述[24,25],但我們的綜述與現有綜述之間的差異可以總結如下: * 范圍:現有的多模態綜述[24,25]只關注視覺-語言,然而,多模態信息問題是一個更廣泛的研究主題。本文比上述綜述更全面,引入了更多的模態,如音頻、視頻、表格等。 * 時效性:本文介紹了針對多模態預訓練提出的最新數據集和算法(從2019年到2022年6月),這是一個很長的綜述,同時,他們的工作屬于短論文。 * 對MM-PTMs的新見解:通過從不同的角度對現有MM-PTMs進行分類和分析,本文可以幫助讀者從詳細和高層次的角度掌握最前沿的方法和技術。此外,提出的MM-PTMs研究方向是經過深思熟慮的,將為后續研究提供新的線索。
2. 多模態預訓練
**任務的定義。**通常,深度神經網絡是在大規模數據集上進行訓練的,例如,廣泛使用的殘差網絡[4]是在ImageNet數據集[2]上使用分類任務進行預訓練的。相比之下,多模態預訓練大型模型通常在大規模訓練數據集上進行訓練。通常,這些數據由于規模太大而無法標注,因此沒有標注標簽。另一方面,參數需要達到一定的規模。如圖4所示,多模態數據、大模型和計算能力是緊密聯系的。總之,多模態預訓練通常是指在計算能力的支持下,對海量多模態數據進行無監督的預訓練,即具有大量參數的多模態模型。
與單模態預訓練大模型相比,MM-PTMs更適合實際應用場景。具體而言,MM-PTMs可以很好地解決多模態協同生成、模態補全、跨域檢索等問題。同時,多模態數據包含更多的信息,可以彌補單一模態的缺陷。因此,MM-PTMs有助于提取多模態的共同特征。最近的許多工作表明,MM-PTMs的使用確實帶來了額外的先驗知識[76-78]。與小規模的多模態模型相比,通過自監督/無監督學習得到的MM-PTMs的泛化能力顯著提高。由于一些先驗知識僅包含在海量的大數據中,而人工選擇的少量標注數據存在偏差,因此小規模模型很難掌握這些知識。
預訓練數據集
如表2所示,針對預訓練任務提出了許多大規模多模態數據集。在本小節中,我們將簡要介紹這些數據集,以幫助讀者快速掌握預訓練所需的數據信息。
預訓練目標
如何設計學習目標是多模態預訓練中非常重要的一步。目前,提出了以下學習目標,包括對比損失、生成損失等。
預訓練架構
在大規模預訓練時代,目前大多數預訓練模型的靈感來自Transformer(主要由自注意力層組成)。它最初是在2017年為自然語言處理任務[9]開發的,它在許多下游任務上大幅提高了新的SOTA性能。此類框架也被引入計算機視覺領域,因此,針對各種任務和輸入設計統一的網絡架構是當前的研究熱點。
多層transformer廣泛應用于目前許多MM-PTMs中。每個模態的輸入首先由獨立的編碼器提取作為特征嵌入,然后與其他模態進行交互。根據多模態信息融合方式的不同,MM-PTMs可分為單模態和跨模態兩類。在本小節中,我們將分別介紹這兩種架構。
目前的大規模預訓練多模態模型大多采用concate、add、Mergeattention、Co-attention和Cross-attention[132]來實現模態之間的交互學習。以下各段將介紹這些模塊。
預訓練知識利用
傳統的預訓練模型邏輯推理能力差,缺乏可解釋性。為了緩解這些問題,在預訓練模型中直接涉及知識,對數據的深入理解,即使用知識進行預訓練,也稱為知識增強預訓練模型(KEPTMs),如圖9所示。
3. 下游任務
在預訓練階段之后,研究人員通常會在許多下游任務中測試他們的模型,以驗證這種強大的能力。具體來說,驗證采用了生成任務、分類任務、回歸任務,下面將討論這些任務。快速學習作為一種新的學習范式,以修改下游任務來適應預先訓練好的大模型為目標,受到越來越多的關注。本部分還對幾種有代表性的提示學習算法進行了綜述。這些下游任務的概述如圖10所示。
預訓練基礎模型(PFMs)被視為具有不同數據模態的各種下游任務的基礎。預訓練的基礎模型,如BERT、GPT-3、MAE、DALLE-E和ChatGPT,在大規模數據上進行訓練,為廣泛的下游應用提供了合理的參數初始化。**PFMs背后的預訓練思想在大型模型的應用中起著重要的作用。**作為一種遷移學習范式,預訓練通過凍結和微調技術應用于計算機視覺,顯示出良好的性能。詞向量在自然語言處理中也可以看作是修飾詞的一種,但它存在多義詞等問題。與之前應用卷積和循環模塊進行特征提取的方法不同,生成預訓練(GPT)方法應用Transformer作為特征提取器,并以自回歸范式在大型數據集上進行訓練。類似地,BERT應用transformer在大型數據集上作為上下文語言模型進行訓練。最近,ChatGPT在大型語言模型上顯示出可喜的成功,它應用了零樣本或很少提示的自回歸語言模型。隨著PFMs的非凡成功,人工智能在過去幾年中在各種領域掀起了浪潮。文獻中提出了相當多的方法,數據集和評估指標,需要更新的綜述。
**本研究全面回顧了文本、圖像、圖以及其他數據模態中PFMs的最新研究進展、當前和未來挑戰和機遇。**首先回顧了自然語言處理、計算機視覺和圖學習中的基本組成部分和現有的預訓練。然后討論針對其他數據模態的其他高級PFMs,以及考慮數據質量和數量的統一PFMs。此外,還討論了PFM的相關研究,包括模型效率與壓縮、安全與隱私。最后,總結了關鍵意義、未來研究方向、挑戰和開放問題。希望對PFMs在可擴展性、推理能力、跨域能力、用戶友好交互能力、安全與隱私保護能力等方面的研究有所啟發。
//www.zhuanzhi.ai/paper/9345ff120bd8f1b703c1c9324c321dd9
1. 引言
預訓練基礎模型(PFMs)是大數據時代人工智能(AI)必不可少的重要組成部分。基礎模型首先在[1]中命名,這意味著更廣泛的模型類及其功能。在人工智能的三大領域(自然語言處理(NLP)[2]、計算機視覺(CV)[3]和圖學習(GL)[4])中,PFM被廣泛研究。**PFM是強大的通用模型,在各種領域或跨領域都是有效的。它們在各種學習任務中表現出了學習特征表示的巨大潛力,如文本分類[5]、文本生成[6]、圖像分類[7]、目標檢測[8]和圖分類[9]。**PFMs在使用大規模語料庫對多個任務進行訓練,并將其微調到類似的小規模任務方面表現出優越的性能,使啟動快速數據處理成為可能。**PFMs基于預訓練技術,該技術旨在使用大量數據和任務訓練一個通用模型,這些數據和任務可以在不同的下游應用程序中輕松地進行微調。**預訓練的思想源于CV任務中的遷移學習[10]。認識到預訓練在CV領域的有效性,人們開始在其他領域使用預訓練技術來提高模型性能。當預訓練技術應用于NLP領域時,訓練有素的語言模型(lm)可以捕獲對下游任務有益的豐富知識,如長期依賴關系、層次關系等。此外,在NLP領域進行預訓練的顯著優勢在于,訓練數據可以來自任何未標記的文本語料庫,即預訓練過程中有無限數量的訓練數據。早期的預訓練是一種靜態技術,如NNLM[11]和Word2vec[12],但靜態方法難以適應不同的語義環境。因此,提出了動態預訓練技術,如BERT[13]、XLNet[14]等。圖1描述了NLP、CV和GL領域PFMs的歷史和演變。基于預訓練技術的PFMs利用大規模語料庫學習通用語義表示。隨著這些開創性工作的引入,各種PFMs已經出現并應用于下游任務和應用。
**ChatGPT是PFM應用的一個很好的例子。ChatGPT是對生成式預訓練transformer GPT-3.5進行微調的,它是在文本和代碼的混合上進行訓練的[15,16]。**ChatGPT應用了來自人類反饋的強化學習(RLHF)[17,18],這已經成為將大型語言模型與人類意圖[19]相結合的一種有希望的方法。ChatGPT令人驚訝的優越性能可能會導致每種類型PFM訓練范式的轉變——應用指令對齊技術,如強化學習(RL)、提示調整[20,21,22]和思維鏈[23,24],向人工通用智能發展。重點介紹了文本、圖像和圖形的PFMs,這是一個比較成熟的研究分類。對于文本,它是一個多用途的語言模型,用于預測序列中的下一個單詞或字符。例如,PFMs可用于機器翻譯、問答系統、主題建模、情感分析等。對于圖像,它類似于文本上的PFMs,使用巨大的數據集來訓練一個適用于許多CV任務的大模型。對于圖,類似的預訓練思想也被應用于獲得pfm,用于許多下游任務。除了特定數據域的PFMs,還回顧和介紹了其他一些先進的PFMs,如語音、視頻和跨領域數據的PFMs,以及多模態PFMs。此外,還出現了一種處理多模態的PFMs大收斂,即所謂的統一PFMs。首先定義了統一PFMs的概念,然后回顧了近年來SOTA統一PFMs的最新研究進展(如OFA[25]、UNIFIED-IO [26]、FLAVA[27]、BEiT-3[28]等)。
**根據現有PFMs在這三個領域的特點,我們得出PFMs具有以下兩個主要優勢。**首先,需要輕微的微調來增強模型在下游任務上的性能。第二,PFMs已經在質量方面進行了綜述。我們可以將PFMs應用于與任務相關的數據集,而不是從頭開始構建模型來解決類似的問題。PFMs的巨大前景激發了大量相關工作,以關注模型效率、[29]、安全性[30,31,32]和壓縮[33,34]等。
有一些綜述研究[35,8,5,6,7,1]回顧了一些特定領域的預訓練模型,如文本生成[6],視覺transformer[7],目標檢測[8]。Bommasani出版社。[1]總結了基礎模型的機會和風險。然而,現有工作沒有在預訓練任務、效率、功效和隱私等不同方面對不同領域(如CV、NLP、GL、語音、視頻)的PFMs進行全面的回顧。在本次調查中,我們專門跟蹤了NLP領域的PFMs的演變,以及預訓練是如何轉移到CV和GL并被采用的。與其他調查相比,我們沒有對這三個領域現有的PFMs進行全面介紹和分析。與以往預訓練模型的綜述不同,本文總結了現有的模型,從傳統模型到pfm,以及這三個領域的最新工作。傳統模型強調靜態特征學習。動態PFMs介紹了結構,這是目前的主流研究。進一步介紹了一些針對PFMs的其他研究,包括其他先進和統一的PFMs、模型效率和壓縮、安全性和隱私。最后,總結了不同領域未來的研究挑戰和開放問題。全面介紹了附錄F和附錄g中的相關評價指標和數據集。總結而言,本文的主要貢獻如下:
本文對PFM在NLP、CV和GL中的發展進行了扎實和最新的綜述。在這篇綜述中,討論和提供了關于三個主要應用領域中的通用PFM設計和預訓練方法的見解。
我們總結了PFMs在其他多媒體領域(如語音和視頻)的發展。此外,還討論了PFMs的前沿問題,包括統一PFMs、模型效率與壓縮、安全與隱私等。
通過對不同任務的不同模態的PFMs的回顧,討論了大數據時代超大模型未來研究的主要挑戰和機遇,這指導了基于PFMs的新一代協作和交互智能。
近期人工智能研究公司OpenAI推出的聊天機器人模型CHAT-GPT不斷出圈,據Semafor援引知情人士報道,微軟正商談以290 億美元估值,向OpenAI 投資100 億美元,一切均指向人工智能模型的新范式“生成式AI模型(Generative Model)”。此前的決策式AI模型(Discriminant Model)是根據已有數據進行分析、判斷、預測,典型應用為內容的智能推薦(短視頻)、自動駕駛等;而生成式AI更強調學習歸納后進行演繹創造,生成全新的內容,本質是對生產力的大幅度提升和創造,已催生了營銷、設計、建筑和內容領域的創造性工作,并開始在生命科學、醫療、制造、材料科學、媒體、娛樂、汽車、航空航天進行初步應用,為各個領域帶來巨大的生產力提升。
報告獲取方式
報告地址: //pan.quark.cn/s/7f8d7dd502f8
AIGC成為新的內容生產方式,跨模態生成值得重點關注。區別于PGC與UGC,AIGC是利用人工智能技術自動生成內容的新型生產方式。按照模態區分,AIGC可分為音頻生成、文本生成、圖像生成、視頻生成及圖像、視頻、文本間的跨模態生成,細分場景眾多,其中,跨模態生成需要重點關注。 自然語言處理(NLP)賦予了AI理解和生成能力,大規模預訓練模型是NLP的發展趨勢。NLP的兩個核心任務分別是自然語言理解(NLU)和自然語言生成(NLG)。以ELMo、BERT、GPT為代表的預訓練模型,降低了NLP的技術門檻。ELMo解決了“一詞多義”的問題;BERT通過MLM(類似于完形填空)和NLP(判斷句子是否相連)進行預訓練,增強了上下文的理解能力。GPT通過預測下一個詞,獲得了生成能力;GPT-3在此基礎上使用了更大的數據和更大模型,無需針對下游任務進行傳統的微調,并且采用了小樣本學習提升生成效果。 ChatGPT是NLP發展中具有里程碑式意義的模型之一。ChatGPT是OpenAI從GPT-3.5系列中的模型進行微調產生的聊天機器人模型。它能夠通過學習和理解人類的語言來進行對話,還能根據聊天的上下文進行互動,真正像人類一樣來聊天交流,甚至能完成撰寫郵件、視頻腳本、文案、翻譯、代碼等任務。 生成模型賦予了AI創造力,擴散模型是最前沿的技術之一。AIGC的快速發展歸功于生成算法領域的技術積累。GAN的核心思想是“生成”與“對抗”,相比傳統的深度神經網絡,GAN能產生更好的生成樣本,但是仍需解決應用中的問題。擴散模型較GAN更接近人的思維模式,是基于馬爾科夫鏈,通過學習噪聲來生成數據。擴散模型實現了跨模態應用,包括OpenAI的GLIDE和DALL·E2、谷歌的Imagen、StabilityAI的StableDiffusion等。 人工智能由單模態智能,向多種模態融合方向發展。建立統一的、跨場景、多任務的多模態基礎模型或將成為人工智能發展的主流趨勢之一。CLIP模型將語言信息和圖像信息聯合訓練,能夠鏈接文本和圖片,成為跨模態生成應用的一個重要節點,“CLIP+其他模型”在跨模態生成領域成為一種較為通用的做法。2022年,微軟提出的BEiT-3多模態基礎模型,在視覺-語言任務處理上具備出色表現,包括視覺問答、圖片描述生成和跨模態檢索等。多模態提高了基礎模型的靈活性,使其在其他模態的應用中發揮新的潛質。 未來,值得關注的技術要素包括:長文本生成、開放式文本生成、NeRF模型、擴散模型、跨模態大型預訓練模型(支持的模態數據類型、模態對齊架構設計、支持的下游應用)、小樣本學習及自監督算法、強化學習及環境學習等。