最近,ChatGPT與DALL-E-2[1]和Codex[2]一起受到了社會的廣泛關注。因此,許多人對相關資源感興趣,并試圖揭開其令人印象深刻的性能背后的背景和秘密。**事實上,ChatGPT和其他生成式AI (GAI)技術屬于人工智能生成內容(AIGC)的范疇,它涉及通過AI模型創建數字內容,如圖像、音樂和自然語言。AIGC的目標是使內容創建過程更加高效和可訪問,允許以更快的速度生產高質量的內容。**AIGC是通過從人類提供的指令中提取和理解意圖信息,并根據其知識和意圖信息生成內容來實現的。近年來,大規模模型在AIGC中變得越來越重要,因為它們提供了更好的意圖提取,從而改善了生成結果。隨著數據和模型規模的增長,模型可以學習的分布變得更加全面和接近現實,從而產生更加真實和高質量的內容。**本文全面回顧了生成模型的歷史,基本組件,以及AIGC的最新進展,從單模態交互和多模態交互。**從單模態的角度,介紹了文本和圖像的生成任務和相關模型。從多模態的角度出發,介紹上述模態之間的交叉應用。最后討論了AIGC存在的開放問題和未來的挑戰。
1. 引言
近年來,人工智能生成內容(Artificial Intelligence Generated Content, AIGC)受到了計算機科學界以外的廣泛關注,全社會開始關注大型科技公司[3]構建的各種內容生成產品,如ChatGPT[4]和DALL-E2[5]。AIGC指的是使用高級生成AI (GAI)技術生成的內容,而不是由人類作者創建的內容,AIGC可以在短時間內自動創建大量內容。例如,ChatGPT是OpenAI開發的用于構建對話式人工智能系統的語言模型,可以有效地理解并以有意義的方式響應人類的語言輸入。此外,DALL-E-2是另一個最先進的GAI模型,也是由OpenAI開發的,它能夠在幾分鐘內從文本描述中創建獨特的高質量圖像,如圖1所示的“一個宇航員以逼真的風格騎馬”。隨著AIGC的卓越成就,許多人認為這將是人工智能的新時代,并將對整個世界產生重大影響。
**從技術上講,AIGC是指給定人工指令,可以幫助教學和指導模型完成任務,利用GAI算法生成滿足指令的內容。**該生成過程通常包括兩個步驟:從人工指令中提取意圖信息和根據提取的意圖生成內容。然而,如之前的研究[6,7]所示,包含上述兩個步驟的GAI模型的范式并不完全新穎。與之前的工作相比,最近的AIGC的核心進展是在更大的數據集上訓練更復雜的生成模型,使用更大的基礎模型架構,并能夠訪問廣泛的計算資源。例如,GPT-3的主框架保持與GPT-2相同,但預訓練數據大小從WebText 8增長到CommonCrawl9,基礎模型大小從1.5B增長到175B。因此,在人類意圖提取等任務上,GPT-3比GPT-2具有更好的泛化能力。
除了數據量和計算能力增加帶來的好處,研究人員還在探索將新技術與GAI算法集成的方法。例如,ChatGPT利用來自人類反饋的強化學習(RLHF)[10-12]來確定給定指令的最適當響應,從而隨著時間的推移提高模型的可靠性和準確性。這種方法使ChatGPT能夠更好地理解人類在長對話中的偏好。同時,在計算機視覺領域,由Stability提出了穩定擴散[13]。AI在2022年也在圖像生成方面取得了巨大成功。與之前的方法不同,生成擴散模型可以通過控制探索和利用之間的權衡來幫助生成高分辨率圖像,從而將生成圖像的多樣性和與訓練數據的相似性和諧地結合起來。
結合這些進展,模型在AIGC任務上取得了顯著進展,并被應用于各個行業,包括藝術[14]、廣告[15]、教育[16]等。在不久的將來,AIGC將繼續成為機器學習的一個重要研究領域。因此,對過去的研究進行廣泛的調研并確定該領域的開放問題至關重要。對AIGC領域的核心技術和應用進行了綜述。 **這是對AIGC的首次全面綜述,從技術和應用兩個方面對GAI進行了總結。之前的研究從不同的角度關注GAI,包括自然語言生成[17],圖像生成[18],多模態機器學習中的生成[7,19]。**然而,之前的工作只關注AIGC的特定部分。本文首先回顧了AIGC中常用的基礎技術。進一步對先進的GAI算法進行了全面的總結,包括單峰生成和多峰生成,如圖2所示。此外,還討論了AIGC的應用和潛在挑戰。最后指出了該領域存在的問題和未來的研究方向。
綜上所述,本文的主要貢獻如下:
據我們所知,我們是第一個為AIGC和AI增強生成過程提供正式定義和徹底調研的人。
回顧了AIGC的歷史和基礎技術,并從單模態生成和多模態生成的角度對GAI任務和模型的最新進展進行了全面分析。
討論了AIGC面臨的主要挑戰以及AIGC未來的研究趨勢。
調研的其余部分組織如下。第二節主要從視覺模態和語言模態兩個方面回顧了AIGC的歷史。第3節介紹了目前在GAI模型訓練中廣泛使用的基本組件。第4節總結了GAI模型的最新進展,其中第4.1節從單模態角度回顧了進展,第4.2節從多模態生成的角度回顧了進展。在多模態生成中,介紹了視覺語言模型、文本音頻模型、文本圖模型和文本代碼模型。第5節和第6節介紹了GAI模型在AIGC中的應用以及與該領域相關的一些重要研究。第7、8節揭示了AIGC技術存在的風險、存在的問題和未來的發展方向。最后,我們在9中總結了我們的研究。2. 生成式人工智能的歷史生成模型在人工智能領域有著悠久的歷史,可以追溯到20世紀50年代,隱馬爾可夫模型(HMM)[20]和高斯混合模型(GMMs)[21]的發展。這些模型生成了語音和時間序列等順序數據。然而,直到深度學習的出現,生成模型才在性能上看到了顯著的改進。
在早期的深度生成模型中,不同的領域通常沒有太多的重疊。在自然語言處理(NLP)中,傳統的生成句子的方法是使用N-gram語言建模[22]學習單詞分布,然后搜索最佳序列。然而,該方法不能有效地適應長句子。為了解決這個問題,循環神經網絡(RNN)[23]后來被引入到語言建模任務中,允許對相對較長的依賴關系進行建模。隨后,長短期記憶(LSTM)[24]和門控循環單元(GRU)[25]的發育,它們利用門控機制在訓練過程中控制記憶。這些方法能夠處理樣本[26]中的約200個標記,與N-gram語言模型相比,這是一個顯著的改進。 同時,在計算機視覺(CV)領域,在基于深度學習的方法出現之前,傳統的圖像生成算法使用紋理合成[27]和紋理映射[28]等技術。這些算法基于手工設計的特征,在生成復雜多樣的圖像方面能力有限。2014年,生成對抗網絡(Generative Adversarial Networks, GANs)[29]被首次提出,在各種應用中取得了令人印象深刻的結果,是該領域的一個重要里程碑。變分自動編碼器(vae)[30]和其他方法,如擴散生成模型[31],也已開發用于對圖像生成過程進行更細粒度的控制和生成高質量圖像的能力
生成模型在不同領域的發展遵循不同的路徑,但最終出現了交叉的問題:transformer架構[32]。Vaswani等人在2017年引入了NLP任務,Transformer后來被應用于CV中,然后成為不同領域許多生成模型的主要骨干[9,33,34]。在NLP領域,許多著名的大型語言模型,如BERT和GPT,采用transformer架構作為其主要的構建塊,比之前的構建塊(如LSTM和GRU)具有優勢。在CV中,Vision Transformer (ViT)[35]和Swin Transformer[36]后來通過將Transformer架構與視覺組件相結合,進一步發展了這一概念,使其可以應用于基于圖像的下游。除了transformer給單個模態帶來的改進之外,這種交叉還使來自不同領域的模型能夠融合在一起,以完成多模態任務。多模態模型的一個例子是CLIP[37]。CLIP是一種視覺-語言聯合模型,將transformer架構與視覺組件相結合,允許它在大量文本和圖像數據上進行訓練。由于它在預訓練時結合了視覺和語言知識,因此也可以作為多模態提示生成中的圖像編碼器。總而言之,基于transformer的模型的出現徹底改變了人工智能的產生,并導致了大規模訓練的可能性。
近年來,研究人員也開始引入基于這些模型的新技術。例如,在NLP中,人們有時喜歡少樣本提示[38],而不是微調,這是指在提示中包括從數據集中選擇的一些示例,以幫助模型更好地理解任務需求。在視覺語言中,研究人員經常將特定模態模型與自監督對比學習目標相結合,以提供更魯棒的表示。在未來,隨著AIGC越來越重要,會有越來越多的技術被引入,讓這個領域充滿活力。
3. 生成式人工智能
我們將介紹最先進的單模態生成模型。這些模型被設計為接受特定的原始數據模態作為輸入,例如文本或圖像,然后以與輸入相同的模態生成預測。我們將討論這些模型中使用的一些最有前途的方法和技術,包括生成語言模型,如GPT3[9]、BART[34]、T5[56]和生成視覺模型,如GAN[29]、VAE[30]和歸一化流[57]。
多模態模型
多模態生成是當今AIGC的重要組成部分。多模態生成的目標是通過學習數據[7]的多模態連接和交互來學習生成原始模態的模型。模態之間的這種連接和相互作用有時是非常復雜的,這使得多模態表示空間與單模態表示空間相比很難學習。然而,隨著前面提到的強大的特定于模式的基礎架構的出現,越來越多的方法被提出來應對這一挑戰。在本節中,我們將介紹視覺語言生成、文本音頻生成、文本圖形生成和文本代碼生成中的最先進的多模態模型。由于大多數多模態生成模型總是與實際應用高度相關,本節主要從下游任務的角度進行介紹。
4. 應用
5. 效率
在過去的十年中,具有神經網絡的深度生成式人工智能模型一直主導著機器學習領域,其崛起歸功于2012年的ImageNet競賽[210],這導致了一場創建更深入和更復雜模型的競賽。這種趨勢也出現在自然語言理解領域,像BERT和GPT-3這樣的模型已經開發出了大量參數。然而,不斷增加的模型占用空間和復雜性,以及訓練和部署所需的成本和資源,給現實世界中的實際部署帶來了挑戰。核心挑戰是效率,可以分解如下:
推理效率: 這與部署用于推理的模型的實際考慮有關,即為給定的輸入計算模型的輸出。推理效率主要與推理期間模型的大小、速度和資源消耗(例如,磁盤和RAM使用)有關。 * 訓練效率: 這涵蓋了影響訓練模型的速度和資源需求的因素,如訓練時間、內存占用和跨多個設備的可伸縮性。它還可能包括考慮在給定任務上實現最佳性能所需的數據量。
為應對數字經濟中數字智能的挑戰,人工智能生成內容(artificial intelligence-generated content, AIGC)應運而生。AIGC通過根據用戶輸入的關鍵字或需求生成內容,使用人工智能來輔助或取代人工內容生成。大型模型算法的發展大大增強了AIGC的能力,這使得AIGC產品成為一種很有前途的生成工具,也為我們的生活增添了便利。AIGC作為一種上游技術,在支持下游應用方面具有無限的潛力。重要的是要分析AIGC當前的功能和缺點,以了解如何在未來的應用中最好地利用它。因此,本文對AIGC的定義、基本條件、前沿功能和高級特性進行了較為全面的綜述。此外,還討論了大規模預訓練模型的優勢和AIGC的產業鏈。此外,文章還探討了AIGC中輔助生成和自動生成之間的區別,并提供了文本生成的示例。本文還探討了AIGC與元宇宙的潛在集成。最后指出了存在的問題和未來的發展方向。1. 引言隨著Web 3.0仍處于蓬勃發展階段[1],人工智能(AI)1已被證明是許多具有挑戰性任務的有效工具,如生成內容、分類和理解。近年來,人工智能的一些進步已經幫助該技術完成了比以前更復雜的任務,例如理解輸入數據,然后生成內容。人工智能生成內容(Artificial Intelligence Generated Content, AIGC)是對專業生成內容(Professional Generated Content, PGC)、用戶生成內容(User Generated Content, UGC)[2]、[3]等傳統內容創作方式的補充。AIGC根據AI技術生成滿足用戶需求的內容。它被認為是一項有前途的技術,有許多應用。因此,了解AIGC的能力和局限性對于充分挖掘其潛力至關重要。
事實上,AIGC的起源可以追溯到更早的時期。其發展歷史大致可以分為三個階段(如圖1所示)。在第一個階段,研究者通過最原始的編程技術控制計算機實現內容的輸出。希勒和艾薩克森在1957年完成了世界上第一首用電腦完成的音樂《伊利亞特組曲》。然后,世界上第一個人機交互機器人Eliza誕生了。Eliza顯示了通過模式匹配和智能短語搜索適當答案的能力,但不反映語義理解。然而,現在大多數人仍然將Eliza視為人工智能的靈感來源。此后二十年,為沉積堆積階段。第二階段假設AIGC的可用性是由于大規模數據庫可用性的提高和計算設備性能的提高。《路》是世界上第一部完全由人工智能創作的小說。隨后,微軟還展示了一個全自動同聲傳譯系統,該系統能夠在短時間內將英語語音翻譯成漢語,準確率達到[4]。然而,算法瓶頸直接限制了AIGC生成豐富內容的能力。第三階段開始于2010年,AIGC進入快速發展階段。Goodfellow[5]提出了一種通用對抗網絡(GAN),利用現有數據生成圖片。在2022年,OpenAI發布了一個新的聊天機器人模型,稱為ChatGPT。它能夠理解人類的語言,并像人類一樣生成文本。月活躍用戶在兩個月內突破1億。20235年1月,每天大約有1300萬獨立訪問者使用ChatGPT。隨著ChatGPT等產品的不斷完善,AIGC顯示出了巨大的應用潛力和商業價值。它引起了企業家、投資者、學者和公眾的廣泛關注。
目前AIGC的內容質量明顯優于以前。此外,AIGC內容的類型也更加豐富,包括文本、圖像、視頻、代碼等。表一列出了一些AIGC型號或各大科技公司開發的經典產品及其應用。ChatGPT是一個基于大型語言模型(LLM)的機器學習系統。在經過幽默的大型文本數據集的訓練后,LLM不僅擅長生成合理的對話,而且還能生成引人注目的片段(如故事和文章)。由于其獨特的人類反饋訓練過程,ChatGPT能夠更精確地理解人類的思維。谷歌聲稱他們即將推出的產品Bard將具有相同的功能,但更側重于生成對話。與ChatGPT相比,Bard可以利用外部知識源,通過提供自然語言問題的答案而不是搜索結果來幫助用戶解決問題。此外,微軟的Turning-NLG是一個擁有170億個參數的LLM,它適用于摘要、翻譯和問答。
擴散模型是圖像生成領域的前沿方法。它的簡單交互和快速生成功能大大降低了進入門檻。幾個流行的應用程序,如Disco Diffusion、Stable Diffusion和Midjourney,已經在社交媒體上產生了指數級的討論和作品展示。NVIDIA是視覺生成研究的先驅。他們的產品(即StyleGAN)是一種最先進的高分辨率圖像合成方法,專門用于圖像生成、藝術和設計。此外,由于不同行業對生成圖片的不同要求,StyleGAN為幾個初創公司提供了機會。例如,Looka專注于logo和網站設計,而Lensa專注于頭像生成。GAN已經能夠生成極其逼真的圖像。DeepMind正試圖將其應用于生成視頻領域。他們提出的模型稱為雙視頻鑒別器GAN (DVD-GAN)[6],可以通過計算高效的鑒別器分解生成更長和更高分辨率的視頻。DVD-GAN是對現實視頻生成的探索。
為了給相關學者和研究人員提供更多的見解和思路,本文重點關注AIGC相關問題,并總結了該領域的新興概念。此外,討論了未來AIGC可能遇到的潛在挑戰和問題,如在道德標準上缺乏全球共識,以及人工智能濫用和濫用的潛在風險。最后,對AIGC的發展和部署提出了展望。我們認為AIGC將為人類實現更便捷的服務和更高的生活質量。本文的主要貢獻如下。
本文給出了AIGC的定義,并討論了其關鍵條件。然后,通過闡述AIGC的3個前沿功能和6個高級特征來展示AIGC帶來的巨大影響。
進一步詳細描述了AIGC的產業鏈,并列出了AIGC中采用的大型預訓練模型的幾個優點。
為揭示AIGC中輔助生成和自動生成之間的差異,本文對文本生成、人工智能輔助寫作和人工智能生成寫作示例進行了深入的討論和分析。
從實際應用的角度,總結了AIGC的優缺點,然后介紹了AIGC與Metaverse的結合。
最后,指出了AIGC目前需要解決的幾個問題,并提出了未來應用的一些方向。
2. 人工智能生成內容(AIGC) 內涵
人工智能生成內容(AIGC)是指由機器生成的博客、營銷材料、文章、產品描述等內容。如圖3所示,AIGC經歷了三種不同的內容生成模式。在PGC模式下,內容由專業團隊[7]、[8]生成。PGC的優點是生成的內容大多是高質量的,但生產周期長,難以滿足產出的數量需求。在UGC模式下,用戶可以選擇多種創作工具自行完成內容生成[9]、[10]。UGC的優勢在于使用這些創意工具可以降低創作的門檻和成本,提高用戶參與創作的積極性。UGC的劣勢在于創作者水平參差不齊,產出內容的質量難以保證。AIGC可以克服PGC和UGC在數量和質量上的不足。它有望成為未來內容生成的主要模式。在AIGC模式中,AI技術利用專業知識提高內容生成的質量,也節省了時間。
如圖4所示,AIGC由三個關鍵部分組成: 數據、硬件和算法。音頻、文本和圖像等高質量數據是訓練算法的基本構建塊。數據量和數據源對[20]預測的準確性有至關重要的影響。硬件,特別是計算能力,構成了AIGC的基礎設施。隨著人們對計算能力需求的不斷增長,更快、更強大的芯片以及云計算解決方案已經變得必不可少。硬件應該能夠處理tb級的數據和具有數百萬個參數的算法。加速芯片與云計算的結合對于提供高效運行大型模型[21]所需的計算能力起著至關重要的作用。最終,算法的性能決定了內容生成的質量,而數據和硬件的支持對于實現最優結果至關重要。
AIGC產業鏈是一個從上游到下游相互關聯的生態系統。如圖8所示,下游應用嚴重依賴上游產品的基礎支持。數據供應商、算法機構、硬件開發機構是上游AIGC的主要組成部分。數據供應商利用網絡爬行技術從新聞網站、博客和社交媒體收集大量文本。然后,利用自然語言處理技術[48]對這些野生數據進行自動標記或處理。算法機構通常由一群經驗豐富的計算機科學家和數學家組成,他們具有深厚的理論背景和實踐經驗。他們可以開發高效準確的算法來解決各種復雜問題。硬件開發機構專注于開發專用芯片、處理器、加速器卡等硬件設備,以加速AI算法的計算速度和響應能力。
大規模人工智能模型是人工智能向通用智能發展的一個重要里程碑。大規模模型的使用明確表明AIGC具有更強的泛化能力。盡管通用數據的激增和可靠數據的缺乏帶來了挑戰,但深度學習完全依賴模型從數據中自動學習,從而顯著提高性能。大規模模型同時具有大規模和預訓練的特點,需要在為實際任務建模之前對大量廣義數據進行預訓練。這些模型被稱為大規模預訓練模型[53]。事實上,AI的大規模模型可以看作是對人類大腦的模擬,這是AI的靈感來源[54]。事實上,人腦是一個具有基本認知能力[55]的大規模模型。人類大腦可以高效地處理來自不同感官的信息,并同時執行不同的認知任務。因此,人工智能大規模模型不僅期望具有眾多參與者,而且能夠有效地理解多模態信息,跨模態感知,并同時在不同任務之間遷移或執行。人工智能大規模模型理解人類思維準確率的提高歸功于基于人類反饋數據訓練模型[56]的系統。
如圖9所示,開發大規模預訓練模型的過程可以分為三個主要步驟。第一步是收集解釋性數據來訓練監督學習策略。第二步涉及收集比較數據來訓練獎勵模型,這使模型能夠做出更準確的預測。最后一步是收集解釋性數據,使用增強學習技術優化模型。這將提高模型的性能和效率
3. 應用
隨著硬件和算法的快速發展,AIGC的應用前景更加廣闊。我們認為AIGC最具潛力的方向包括跨模態生成、搜索引擎優化、媒體制作、電商、電影制作等領域,如圖13所示。
4. 結論
近年來,在海量高質量數據和高性能硬件的支持下,許多用于大型模型的算法得到了快速發展。這些算法不僅具有理解文本的能力,而且具有輔助或自動生成豐富內容的能力。ChatGPT等應用實例展示了AIGC技術的商業價值和應用性能,在短時間內引起了眾多一線企業的廣泛關注和投資。本文簡要介紹了AIGC技術,并闡述了它的特點。此外,還對AIGC能力的優勢和劣勢進行了比較分析。然而,AIGC的發展仍然面臨著許多挑戰和機遇。本文還對AIGC面臨的挑戰和未來方向提出了見解。最后,希望本文的綜述能為學術界、產業界和企業界的發展提供有益的思路,為AIGC領域的進一步探索提供有價值的思考方向和見解。
關于ChatGPT的一切,讀這篇論文就行了!
OpenAI最近發布了GPT-4(又名ChatGPT plus),這被證明是生成式AI (GAI)的一小步,但卻是通用人工智能(AGI)的一大步。自2022年11月正式發布以來,ChatGPT憑借媒體的廣泛報道迅速吸引了眾多用戶。這種前所未有的關注也促使眾多研究者從各個方面對ChatGPT進行研究。據谷歌scholar統計,有500多篇文章的標題中有ChatGPT或在摘要中提到它。考慮到這一點,迫切需要進行調研,我們的工作填補了這一空白。首先對ChatGPT的底層技術、應用以及面臨的挑戰進行了全面的綜述。對ChatGPT如何演變為實現通用AIGC(即AI生成內容)的前景進行了展望,這將是AGI發展的一個重要里程碑。
1. 引言
過去幾年見證了大量生成式AI (AIGC,又稱AI生成內容)工具的出現[73,135,141],這表明AI已經進入了一個創造而不是純粹理解內容的新時代。關于生成式AI (AIGC)的完整調查,讀者可以參考[214]。在這些AIGC工具中,2022年11月發布的ChatGPT引起了前所未有的關注。它吸引了眾多用戶,月活躍用戶在短短兩個月內就突破了1億,打破了其他社交產品的用戶增長記錄[118]。ChatGPT是由OpenAI開發的,它最初是一個非營利性研究實驗室,使命是構建安全有益的人工通用智能(AGI)。OpenAI在2020年宣布GPT-3后,逐漸被公認為世界領先的AI實驗室。最近,它發布了GPT-4,這可以被視為生成AI的一小步,但對于AGI來說是一大步。
由于其令人印象深刻的語言理解能力,許多新聞文章提供了廣泛的報道和介紹,舉幾個例子,BBC Science Focus [69], BBC news [39], CNN Business [79], Bloomberg news[157]。谷歌管理層針對ChatGPT的威脅發布了“紅色警報”,暗示ChatGPT對公司,尤其是其搜索服務構成了重大威脅。在微軟將ChatGPT引入必應(Bing)搜索服務之后,這種危險似乎更難被忽視。股價的變化也反映出微軟相信ChatGPT可能會幫助必應與谷歌搜索競爭。這種對ChatGPT前所未有的關注,也促使眾多研究人員從各個方面對這個有趣的AIGC工具進行研究[149,163]。根據我們在谷歌scholar上的文獻綜述,不少于500篇文章在標題中包含ChatGPT或在摘要中提到這個病毒式的術語。如果沒有一個完整的調查,讀者很難掌握ChatGPT的進展。我們的全面綜述及時提供了對ChatGPT的初步了解。
由于本次綜述的主題可以看作是一個商業工具,因此我們首先介紹了開發ChatGPT的公司OpenAI的背景。此外,本綜述還對ChatGPT的功能進行了詳細的討論。在背景介紹之后,本工作總結了ChatGPT背后的技術。具體來說,我們介紹了它的兩個核心技術:Transformer架構和自回歸修飾,在此基礎上,我們給出了大型語言模型GPT從v1到v4的技術路徑[18,122,136,137]。強調了突出的應用和相關的挑戰,如技術限制、濫用、倫理和監管。最后,我們對ChatGPT未來如何演變為通用AIGC以實現AGI的最終目標進行了展望,從而總結了本調查。我們工作的結構化概述如圖1所示。
2 ChatGPT概述
首先,我們提供了ChatGPT的背景和相應的組織,即旨在構建人工通用智能(AGI)的OpenAI。期望AGI能夠解決人類層面的問題以及超越人類層面的問題,前提是建立安全、可信、有益于我們社會的系統。
2.1 OpenAI
OpenAI是一個研究實驗室,由一組致力于構建安全和有益AGI[50]的研究人員和工程師組成。它成立于2015年12月11日,由一群備受矚目的科技高管組成,包括特斯拉CEO Elon Musk, SpaceX總裁Gwynne Shotwell, LinkedIn聯合創始人Reid Hoffman,以及風險投資家Peter Thiel和Sam Altman[78]。在這一小節中,我們將討論OpenAI的早期發展,它是如何成為一個營利性組織的,以及它對AI領域的貢獻。 OpenAI最初是一個非營利組織[24],其研究主要集中在深度學習和強化學習、自然語言處理、機器人等方面。在發表了幾篇有影響力的論文[123]并開發了一些最復雜的人工智能模型后,該公司很快就因其前沿研究而建立了聲譽。然而,為了創造能夠帶來資金的人工智能技術,OpenAI在2019年被重組為營利性公司[31]。盡管如此,該公司在為其技術創建商業應用的同時,繼續開發合乎道德和安全的人工智能。此外,OpenAI還與幾家頂級科技公司合作,包括微軟、亞馬遜和IBM。今年早些時候,微軟透露了與OpenAI的一項為期數年、價值數十億美元的新合資項目[21]。雖然微軟沒有給出確切的投資金額,但Semafor聲稱微軟正在討論花費100億美元[101]。據《華爾街日報》(the Wall Street Journal)報道,OpenAI的市值約為290億美元。
從大型語言模型到開源軟件,OpenAI顯著推動了人工智能領域的發展。首先,OpenAI開發了一些迄今為止最強大的語言模型,包括GPT-3[95],該模型因其在許多上下文中產生連貫和現實的文本的能力而獲得了廣泛的贊譽。OpenAI還開展了強化學習的研究,這是人工智能的一個分支,旨在訓練機器人根據獎懲做出選擇。近端策略優化(PPO)[71]、軟Actor-Critic (SAC)[189]和可信區域策略優化(TRPO)[181]只是OpenAI迄今為止創建的一些強化學習算法。這些算法已被用于訓練智能體執行各種任務,包括玩游戲和控制機器人。到目前為止,OpenAI已經創建了許多軟件工具來協助其研究工作,包括OpenAI Gym[76],這是一個用于創建和對比強化學習算法的工具集。在硬件方面,OpenAI投資了幾個高性能處理系統,包括NVIDIA的DGX-1和DGX-2系統[150]。這些系統是在考慮深度學習的情況下創建的,能夠提供構建復雜AI模型所需的處理能力。除了ChatGPT, OpenAI開發的其他流行工具包括DALL-E[141]和Whisper [135], Codex[25]。圖2顯示了OpenAI產品發展歷程。
ChatGPT使用交互形式對用戶[1]提出的問題提供詳細的、類人的回答。ChatGPT能夠根據提示輸入文本生成高質量的文本輸出。基于GPT-4的ChatGPT plus還可以將圖像作為輸入。除了聊天機器人的基本角色外,ChatGPT還可以成功地處理各種文本到文本的任務,如文本摘要[45]、文本補全、文本分類[86]、情感[221]分析[112]、釋義[104]、翻譯[35]等。
ChatGPT已經成為搜索引擎領域的有力競爭者。正如我們在引言部分提到的,谷歌提供了世界上最優秀的搜索引擎,認為ChatGPT是對其壟斷地位的挑戰[188]。值得注意的是,微軟已經將ChatGPT集成到其Bing搜索引擎中,允許用戶接收更多有創意的回復[174]。我們可以看到搜索引擎和ChatGPT之間的明顯區別。即搜索引擎幫助用戶找到他們想要的信息,而ChatGPT開發雙向對話的回復,為用戶提供更好的體驗。其他公司正在開發類似的聊天機器人產品,如谷歌的LamMDA和Meta的BlenderBot。與ChatGPT不同,谷歌于2021年開發的LaMDA積極參與與用戶的對話,導致輸出文本中出現種族主義、性別歧視和其他形式的偏見[119]。
BlenderBot是Meta的聊天機器人,由于開發人員對其輸出材料設置了更嚴格的限制[130],用戶的反饋相對枯燥。ChatGPT似乎在某種程度上平衡了類人的輸出和偏差,允許更令人興奮的反應。值得注意的是,除了比普通ChatGPT更高效和具有更高的最大token限制外,由GPT-4支持的ChatGPT還可以創建多種方言語言和情感反應,并減少不良結果,從而減少偏差[169]。文獻[96]指出,可以通過使用多任務學習和增強訓練數據質量來進一步提高ChatGPT的建模能力。
3 ChatGPT背后的技術
3.1 兩項核心技術
骨干架構:Transformer。在Transformer出現之前[182],RNN是語言理解的主要骨干架構,而注意力是模型性能的關鍵組成部分。與之前只將注意力作為支持組件的工作相比,谷歌團隊在他們的工作標題中聲稱:“attention is All You Need”[182]聲稱,自從谷歌在2017年發布了一篇論文,即“attention is All You Need”[182]以來,對Transformer骨干結構的研究和使用在深度學習社區中經歷了爆炸性的增長。本文總結了Transformer的工作原理,重點關注其核心組件self-attention。自注意力的基本原理假設,給定輸入文本,該機制能夠為單個單詞分配不同的權重,從而促進捕獲序列中的依賴關系和上下文關系。序列中的每個元素都具有其唯一的表示形式。為了計算序列中每個元素與其他元素的關系,需要計算輸入序列的Q (query)、K (key)和V (value)矩陣。這些矩陣是由輸入序列的線性變換推導出來的。通常,查詢矩陣對應于當前元素,鍵矩陣代表其他元素,值矩陣封裝了要聚合的信息。通過計算查詢與關鍵矩陣之間的相似度,確定當前元素與其他元素之間的關聯權重。這通常通過點積操作來實現。隨后,對相似度進行歸一化,以確保所有關聯的總和等于1,這通常通過softmax函數執行。然后將歸一化的權重應用于相應的值,然后對這些加權值進行聚合。這個過程產生了一種新的表示,包括當前單詞和文本中其他單詞之間的關聯信息。上述過程可以正式表述如下:
Transformer技術已經成為近期大型語言模型發展的重要基礎,如BERT[41]和GPT[18, 122, 136, 137]系列也是基于Transformer技術的模型。還有一系列工作將Transformer從語言擴展到視覺,即計算機視覺[42,63,100],這表明Transformer已經成為NLP和計算機視覺的統一骨干架構。 生成式預訓練:自回歸。對于模型預訓練[64,212,216-218],有多種流行的生成式建模方法,包括基于能量的模型[56,159,160,186],變分自編碼器[5,84,124],GAN[17, 54, 198],擴散模型[20,33,213,215,220]等。在這里,我們主要總結自回歸建模方法[11,90,90,177,178],因為它們是GPT模型的基礎[18,122,136,137]。自回歸模型是統計分析中處理時間序列數據的一種重要方法。這些模型指定輸出變量與前面的值線性相關。在語言建模的上下文中[18,122,136,137],自回歸模型根據前一個單詞預測后一個單詞,或根據下面的單詞預測最后一個可能的單詞。該模型學習序列數據的聯合分布,使用之前的時間步長作為輸入來預測序列中的每個變量。自回歸模型假設聯合分布????(??)可以分解為條件分布的乘積,如下所示:
雖然兩者都依賴于之前的時間步長,但自回歸模型與循環神經網絡(RNN)架構的區別在于,前者使用之前的時間步長作為輸入,而不是RNN中發現的隱藏狀態。本質上,自回歸模型可以被概念為一個前饋網絡,其中包含所有之前的時間步長變量作為輸入。早期的工作使用不同的函數對離散數據進行建模,以估計條件分布,例如全可見Sigmoid置信網絡(FVSBN)[51]中的邏輯回歸和神經自回歸分布估計(NADE)中的一個隱層神經網絡[90]。隨后的研究擴展到對連續變量建模[177,178]。自回歸方法已廣泛應用于其他領域,具有代表性的作品有:PixelCNN[180]和PixelCNN++[153]),音頻生成(WaveNet[179])。
3.2 技術路徑
ChatGPT是在一系列GPT模型的基礎上發展起來的,這是自然語言處理領域的一項重大成就。圖6概述了這一開發過程。在下面,我們總結了GPT的關鍵組成部分以及更新后的GPT的主要變化。
GPT-1。在只有解碼器的情況下,GPT-1采用了12層的Transformer,具有117M的參數[136]。圖4展示了GPT-1的概述以及如何將其用于各種下游任務。在包含獨特未出版書籍的大型BooksCorpus數據集上進行訓練,GPT-1能夠掌握長程依賴關系的上下文。一般任務無關的GPT模型在12個任務中的9個中優于為特定任務訓練的模型,包括自然語言推理、問答、語義相似性和文本分類[136]。觀察到GPT-1在各種零樣本任務上表現良好,表明了高水平的泛化能力。在GPT-2發布之前,GPT-1已經發展成為用于各種NLP任務的強大模型。
GPT-2。作為GPT-1的繼承,GPT-2由OpenAI于2019年推出,專注于在沒有明確監督的情況下學習NLP任務。與GPT-1類似,GPT-2基于僅解碼器的Transformer模型。然而,GPT-2的模型架構和實現已經開發出來,具有15億個參數和800萬個網頁的訓練數據集,這是其前身GPT-1的10倍以上[137]。在零樣本設置下,GPT-2在測試的8個語言建模數據集中的7個上取得了最先進的結果,其中7個數據集的任務包括對不同類別單詞的性能識別、模型捕捉長期依賴關系的能力、常識推理、閱讀理解、摘要和翻譯[137]。然而,GPT-2在問答任務上仍然表現不佳,這表明無監督模型GPT-2的能力有待提高[137]。
GPT-3。GPT-3的基礎是Transformer架構,特別是GPT-2架構。與具有15億個參數的GPT-2相比,GPT-3具有1750億個參數、96個注意力層和3.2 M的批處理大小,大小[18]顯著增加。GPT-3在各種各樣的在線內容上進行訓練,包括小說、論文和網站,使用語言建模,這是一種無監督學習,模型試圖根據前面的單詞猜測短語中的下一個單詞。完成后,GPT-3可以使用監督學習在特定任務上進行微調,其中使用特定任務的較小數據集來訓練模型,如文本補全或語言翻譯。由于OpenAI的API[36],開發人員可以將GPT-3模型用于許多應用程序,包括聊天機器人、語言翻譯和內容生產。API根據任務的規模和復雜程度提供不同的訪問級別。與其他性能高度依賴微調的語言模型相比,GPT-3可以執行許多任務(如語言翻譯),而無需任何此類微調、梯度或參數更新,使該模型與任務無關[105]。
GPT-3.5。GPT-3.5是廣泛流行的GPT-3的變體,ChatGPT是GPT-3.5的微調版本。在GPT-3模型之上,GPT-3.5具有額外的微調程序:有監督的微調和人工反饋的強化學習(RLHF)[203],如圖5所示,其中機器學習算法接收用戶反饋并使用它們來對齊模型。RLHF用于克服傳統無監督和有監督學習只能從無標記或有標記數據中學習的局限性。人工反饋可以采取不同的形式,包括懲罰或獎勵模型的行為,為未標記的數據分配標簽,或更改模型參數。通過將人工反饋納入訓練過程,GPT-3.5的可用性顯著提高。
GPT-4。2023年3月14日,OpenAI發布了GPT-4[122],這是GPT系列的第四部分。GPT-4是一個大型多模態模型,能夠將文本和圖像作為輸入,并生成文本作為輸出。該模型在幾個專業和職業標準上提供了人類水平的性能,但在現實世界中,它仍然比人類的能力弱得多。例如,GPT-4的虛擬律師考試成績位于測試參與者的前10%,而GPT-3.5的分數位于最低的10%[77]。GPT-4遵循人類意圖的能力明顯優于早期版本[125]。在提供給ChatGPT和OpenAI API的樣本中,5214個問題中,GPT-4的答案在70.2%的情況下優于GPT-3.5。在絕大多數預訓練數據于2021年9月結束后,GPT-4通常對發生了什么缺乏意識,也沒有從經驗中學習。它偶爾會表現出基本的邏輯錯誤,這些錯誤似乎與它在各個領域的技能不一致,或者當從用戶那里接受錯誤的聲明時,它可能過度信任用戶[122]。它可能會像人們一樣與復雜的問題作斗爭,例如生成包含安全缺陷的代碼[122]。表2總結了從v1到v4的GPT模型參數和訓練數據集。
4 ChatGPT的應用
4.1 科技寫作
ChatGPT以其強大的內容生成能力而被廣泛認可,對學術領域的寫作產生了重大影響。許多現有的工作已經測試了ChatGPT如何應用于科學寫作,包括頭腦風暴、文獻綜述、數據分析、直接內容生成、語法檢查以及作為學術評審員。
頭腦風暴。頭腦風暴是獲得初始想法的基本方法,是高質量科學研究的先決條件。ChatGPT可以在頭腦風暴中發揮各種作用,從激發創造力[57,139]產生新想法,到提供建議[98,168]擴展現有想法。ChatGPT可以幫助用戶進行發散性和創造性思維[139]。此外,一些研究以問答的形式探討了ChatGPT對未來護理研究的見解,可以分析未來技術發展對護理實踐的影響,并為護士、患者和醫療保健系統[57]提供有價值的見解。此外,ChatGPT還表現出多角度“思考”的能力,它可以從醫療系統、社會經濟、個人健康行為等多個維度分析和反思COVID-19大流行后超額死亡的影響[168]。評估ChatGPT是否能為特定領域的研究人員提供有用的建議。作者在[98]中測試了它在臨床決策支持方面的能力,并評估了它與人工建議的差異。測試結果表明,與人類思維不同,ChatGPT生成的建議具有獨特的視角,其生成的建議具有高度的可理解性和相關性,在科學研究中具有重要價值。
文獻綜述。一篇全面的文獻綜述需要涵蓋所有的相關研究,這會耗費研究者太多的時間和精力。例如,基于人工智能的科學文獻研究工具語義學者搜索引擎(Semantic Scholar search engine)已經索引了2億多份學術出版物。因此,找到相關的研究論文并從中提取關鍵見解幾乎是大海撈針。幸運的是,ChatGPT作為一個人工智能驅動的研究閱讀工具,可以幫助我們瀏覽大量的論文并理解其內容。在實際使用中,我們可以給ChatGPT一個主題,然后它可以幫助我們查找相關文獻。在討論ChatGPT處理文獻綜述的能力之前,我們回顧了一個類似的AI工具SciSpace Copilot,它可以幫助研究人員快速瀏覽和理解論文[152]。具體來說,它可以為科學文本和數學提供解釋,包括后續問題,以多種語言提供更詳細的答案,促進更好的閱讀和理解文本。相比之下,ChatGPT作為一種通用語言模型,不僅具有SciSpace Copilot的所有功能,而且可以廣泛應用于各種自然語言處理場景[152]。為了總結所選領域的相關工作,文獻綜述是必不可少的。作為一項探索性任務,他們選擇了“醫療領域的數字孿生”主題,并使用關鍵詞“醫療領域的數字孿生”匯編了過去三年(2020、2021和2022)從谷歌學者搜索結果中獲得的論文摘要。然后用ChatGPT對這些摘要進行轉述,生成的結果具有良好的[7]性能。然而,ChatGPT在這項任務中的應用還處于起步階段。[59]的作者要求ChatGPT提供10篇醫學領域DOIs的開創性學術文章。不幸的是,在進行了5次測試之后,結果顯示,在提供的50個doi中,只有8個存在,并且已經正確地發布。雖然ChatGPT在文獻綜述方面的能力還比較薄弱,但我們相信在不久的將來,ChatGPT將被廣泛用于文獻綜述,進一步提高研究人員的效率,使他們能夠將時間集中在重點研究上。
數據分析。科學數據需要在分析之前進行清理和組織,這通常需要花費研究人員幾天甚至幾個月的時間,最重要的是,在某些情況下,必須學習使用Python或r等編程語言。使用ChatGPT進行數據處理可以改變研究前景。例如,如[102]所示,ChatGPT完成了對一個模擬數據集的數據分析任務,該數據集包含10萬名年齡和風險分布不同的醫療工作者,以幫助確定疫苗的有效性,這大大加快了研究過程[102]。[152]中討論了另一個類似的用于數據分析的人工智能工具,其中基于人工智能的電子表格機器人可以將自然語言指令轉換為電子表格公式。此外,像Olli這樣的平臺還可以可視化數據,用戶只需要簡單地描述所需的內容,然后他們可以得到人工智能創建的折線圖、柱狀圖和散點圖。考慮到ChatGPT是目前為止最強大的人工智能工具,我們相信這些功能也可以在ChatGPT中以更智能的方式實現。
內容生成。許多工作嘗試使用ChatGPT為他們的文章生成內容[3,146]。例如,[3]利用ChatGPT輔助撰寫兩種疾病的發病機制的醫學報告。具體來說,ChatGPT提供了三方面關于同型半胱氨酸血癥相關骨質疏松的機制,所有這些都被證明是正確的。然而,當涉及到生成信息的參考文獻時,ChatGPT所提到的論文并不存在。[223]描述了一項使用ChatGPT編寫催化綜述文章的研究,主題設置為CO2加氫生成高級醇。chatgpt生成的內容包括論文的必要部分,但缺乏對反應機制的介紹,這對該主題至關重要。這篇文章的內容包含了大量有用的信息,但缺少具體的細節,存在一定的錯誤。此外,ChatGPT可以幫助準備稿件,但生成的結果與實際發表的內容相差較大。一個可能的原因是ChatGPT的關鍵詞與人工生成的文本差異很大,這就需要用戶對生成的內容進行進一步的編輯[88]。ChatGPT還被用于生成特定領域的綜述文章,如健康領域[7],這表明學者可以專注于核心研究,而將創造性較低的部分留給AI工具。然而,考慮到人工生成的內容和ChatGPT生成的內容之間的風格差異,[7,88]建議不要完全依賴ChatGPT。利用ChatGPT作為助手來幫助我們完成寫作,而不是僅僅依賴它。
校對。在ChatGPT出現之前,有很多語法檢查工具。一些工作[82,109,197]對語法和拼寫校對進行了測試,表明ChatGPT提供了比其他AI工具更好的用戶體驗。例如,ChatGPT可以自動修復任何標點和語法錯誤,以提高寫作質量[197]。此外,該研究還研究了ChatGPT如何超越幫助用戶檢查語法的范圍,進一步生成關于文檔統計、詞匯統計等報告,改變作品的語言,使其適合任何年齡的人,甚至將其改編為故事[82]。另一個次要但值得注意的是,到目前為止,Grammarly的高級版本Grammarly Premium需要用戶每月支付30美元的費用,這比ChatGPT Plus每月20美元的費用要貴得多。此外,ChatGPT已經與其他基于人工智能的語法檢查器進行了比較,包括QuillBot、DeepL、DeepL Write和谷歌Docs。實驗結果表明,ChatGPT在錯誤檢測數量方面表現最好。雖然ChatGPT在校對時存在一些可用性問題,例如比DeepL慢10倍以上,并且缺乏突出建議或為特定單詞或短語提供替代選項的能力[109],但應該注意的是,語法檢查只是冰山一角。ChatGPT在改進語言、重構文本和寫作的其他方面也很有價值。
學術評審。研究論文的同行評議是傳播新思想的一個關鍵過程,對科學進步有重大影響。然而,產生的研究論文的數量給人類評審者帶來了挑戰。[161]對ChatGPT用于文獻綜述的潛力進行了研究。具體來說,ChatGPT能夠對輸入的學術論文進行分析,然后從論文的概述、優缺點、清晰度、質量、新穎性、可重復性等方面對論文進行評價。然后,將論文生成的評論輸入ChatGPT進行情感分析。在此之后,可以對接受評審的論文做出決定。
4.2 教育領域
ChatGPT具有產生類似人類的響應的能力,已經被許多研究工作所研究,以探討它給教育領域帶來的影響。在這里,我們從兩個角度對它們進行總結:教/學和學科。
教與學。在典型的課堂環境中,教師是知識的來源,而學生是知識的接受者。在課堂之外,學生經常被要求完成老師設計的作業。ChatGPT可以顯著改變教師和學生之間的交互方式[10,148,209,211]。
各種教育科目的ChatGPT。在現代教育中,有各種各樣的學科,包括經濟學、法學、物理學、數據科學、數學、體育、心理學、工程學和媒體教育等。盡管ChatGPT并不是專門為成為某一特定主題的大師而設計的,但在眾多的作品中已經證明,ChatGPT對某一主題的理解還不錯,有時甚至超越了人類的水平。為了方便討論,我們將主題分為STEM(科學、技術、工程、數學)和非STEM(包括經濟學、法學、心理學等)。
4.3 醫療領域
醫學知識評估。ChatGPT在醫療領域的能力已經在一些工作中得到了評估[43,53,72,205]。疾病診斷和治療。雖然一些機器學習算法已被應用于輔助疾病分析,但大多數情況下主要局限于與單任務相關的圖像判讀。在這一部分,我們討論ChatGPT在臨床決策支持中的能力。
5 挑戰
5.1 技術局限
盡管ChatGPT功能強大,但它也有自己的缺點,這也是OpenAI團隊官方認可的。為了證明其局限性,已經進行了大量的工作[15,16,26,60,96,151,226],總結如下:
不正確。ChatGPT有時會生成看似合理的錯誤或無意義的答案,就像一本正經地胡說八道[16]。也就是說,ChatGPT提供的答案并不總是可靠的[15,16,226]。正如OpenAI所認識到的,這個問題是具有挑戰性的,一個主要原因是目前的模型訓練依賴于監督訓練和強化學習,以使語言模型與指令保持一致。因此,模型模仿人類演示者聽起來很有道理,但往往以正確性為代價。事實錯誤相關的問題在ChatGPT plus版本中得到了緩解,但這個問題仍然存在[122]。
不合邏輯。在[16,60,151]中指出,ChatGPT的邏輯推理能力還有待提高。由于ChatGPT缺乏理性的人類思維,它既不能“思考”,也不能“推理”,因此未能通過圖靈測試[60]。ChatGPT僅僅是一個復雜的統計模型,無法理解自己或對方的話,也無法回答深入的問題[151]。此外,ChatGPT缺乏一個“世界模型”來進行空間、時間或物理推理,或預測和解釋人類的行為和心理過程[16],在數學和算術方面也有局限,無法解決困難的數學問題或謎語,甚至可能在一些簡單的計算任務[16]中得到不準確的結果。
不一致。當用相同的提示輸入給模型喂食時,ChatGPT可以產生兩個不同的輸出,這表明ChatGPT具有不一致的局限性。此外,ChatGPT對輸入提示高度敏感,這激發了一群研究人員對提示工程的研究。一個好的提示可以提高系統綜述性文獻搜索的查詢效率[191]。利用關于軟件開發任務的有效目錄和指導等提示模式,可以進一步提高軟件開發任務自動化的效率[193,194]。盡管在為ChatGPT發現更好的提示方面取得了進展,但簡單地改變提示可以產生顯著不同的輸出這一事實,意味著ChatGPT需要提高其魯棒性。
無意識。ChatGPT不具備自我意識[16],雖然它可以回答各種問題,生成看似相關連貫的文本,但它沒有意識,沒有自我意識,沒有情緒,也沒有任何主觀經驗。比如ChatGPT可以理解和創造幽默,但是它不能體驗情感或者主觀體驗[16]。關于自我意識,目前還沒有一個被廣泛接受的定義,也沒有可靠的測試方法。一些研究者建議從某些行為或活動模式推斷自我意識,而另一些人則認為這是一種主觀體驗,無法客觀地測量[16]。機器究竟是真正擁有自我意識,還是只能模擬自我意識,目前還不清楚。
6. 展望
在這個蓬勃發展的生成AI時代,有大量的AIGC工具用于各種生成任務,包括text-to- text [12, 75, 117, 138, 200], text-to-image[106, 144, 166, 199, 219],圖像描述[68,187,202],text-to-speech[85, 145, 167],語音識別[93,97,126,155,190],視頻生成[66,108,116,201],3D生成[67,114]等。盡管具有令人印象深刻的功能,但在[55]中指出,ChatGPT并不是生成式AI所需要的全部。從輸入輸出的角度來看,ChatGPT主要擅長文本到文本的任務。隨著底層語言模型從GPT-3.5進化到GPT-4,加號版ChatGPT在輸入端增加了模態。具體來說,它可以選擇性地將圖像作為輸入,但是,它仍然不能處理視頻或其他數據模態。在輸出端,GPT-4仍然局限于生成文本,這使得它與通用的AIGC工具相距甚遠。很多人都想知道下一代GPT可能會實現什么[8,19]。一個極有可能的情況是,ChatGPT可能會走向通用型AIGC,這將是實現人工通用智能(AGI)[19]的一個重要里程碑。
實現這樣的通用AIGC的一種天真的方式是,以并行的方式將各種AIGC工具集成到一個共享agent中。這種樸素方法的一個主要缺點是不同的AIGC任務之間沒有交互。在查閱了大量文章后,我們推測可能存在兩種將ChatGPT橋接并推向AGI的路線圖。因此,我們主張一個共同的景觀,實現多元化AIGC模式之間的互聯互通。
人工智能生成內容(AIGC)是一種使用人工智能算法創造性地生成、操作和修改有價值和多樣化數據的自動化方法。本文**重點研究了ChatGPT和Dall-E等AIGC應用在移動邊緣網絡(mobile AIGC networks)中的部署,這些應用在維護用戶隱私的同時,提供個性化和定制化的實時AIGC服務。**首先介紹了生成模型的背景和基本原理以及移動AIGC網絡的AIGC服務的生命周期,其中包括數據收集、訓練、微調、推理和產品管理。然后,討論了支持AIGC服務并使用戶能夠在移動邊緣網絡訪問AIGC所需的云邊-移動協同基礎設施和技術。探索了AIGC驅動的移動AIGC網絡的創意應用和用例。此外,還討論了部署移動AIGC網絡所面臨的實現、安全和隱私方面的挑戰。最后,指出了完全實現移動AIGC網絡的未來研究方向和開放問題。
//www.zhuanzhi.ai/paper/4db7f7a43d99cc11e86982637091dba0
1. 引言
圖1移動AIGC網絡概述,包括云層、邊緣層、D2D移動層。AIGC服務的生命周期,包括數據收集、預訓練、微調、推理和產品管理,在核心網絡和邊緣網絡之間循環。
**近年來,人工智能生成內容(artificial intelligence-generated content, AIGC)已成為一種生產、操作和修改數據的新方法。**通過利用AI技術,AIGC將內容生成與傳統的專業生成內容(PGC)和用戶生成內容(UGC)[1] -[3]一起自動化。隨著數據創建的邊際成本降低到幾乎為零,AIGC(例如ChatGPT)有望為人工智能發展和數字經濟提供大量合成數據,為社會提供顯著的生產力和經濟價值。人工智能技術的不斷進步,特別是在大規模和多模態模型[4],[5]領域,推動了AIGC能力的快速增長。這一進展的一個主要例子是DALL-E[6]的開發,這是一個基于OpenAI最先進的GPT-3語言模型的人工智能系統,由1750億個參數組成,旨在通過預測連續的像素來生成圖像。在其最新迭代DALL-E2[7]中,采用擴散模型來減少訓練過程中產生的噪聲,從而生成更精細和新穎的圖像。在使用AIGC模型生成文本到圖像的背景下,語言模型起著指導作用,增強了輸入提示和結果圖像之間的語義一致性。同時,AIGC模型處理現有的圖像屬性和組件,從現有數據集生成無限的合成圖像。
**基于具有數十億個參數的大規模預訓練模型,AIGC服務旨在增強知識和創造性工作領域,這些領域雇用了數十億人。**通過利用生成式人工智能,這些領域可以實現至少10%的內容創造效率提高,可能產生數萬億美元的經濟價值。AIGC可以應用于各種形式的文本生成,從實際應用(如客戶服務查詢和消息)到創造性任務(如活動跟蹤和營銷文案[9])。例如,OpenAI的ChatGPT[10]可以根據用戶提供的提示自動生成有社會價值的內容。通過與ChatGPT進行廣泛而連貫的對話,來自各行各業的人可以在調試代碼、發現健康食譜、編寫腳本和設計營銷活動方面尋求幫助。在圖像生成領域,AIGC模型可以根據現有圖像的屬性和成分處理現有圖像,實現端到端的圖像合成,如直接從現有的[7]圖像生成完整的圖像。此外,AIGC模型在跨模態生成方面具有巨大的潛力,因為它們可以在空間上處理現有的視頻屬性,并同時自動處理多個視頻片段[11]。
與PGC和UGC相比,AIGC在內容創造方面的優勢已經顯而易見。具體來說,生成式AI模型可以在幾秒鐘內產生高質量的內容,并提供為用戶需求量身定制的個性化內容[2]。隨著時間的推移,AIGC的性能得到了顯著提高,這是由增強的模型、增加的數據可用性和更大的計算能力[12]驅動的。一方面,先進的模型[4],如擴散模型,為跨模態AIGC生成提供了更強大的工具。這些進展歸功于生成式人工智能模型的基礎性研究,以及生成式深度神經網絡(DNN)中學習范式和網絡結構的不斷細化。另一方面,隨著網絡日益互聯,用于生成式人工智能訓練和推理的數據和計算能力變得更加容易獲得[9],[13]。例如,需要數千個GPU的AIGC模型可以在云數據中心進行訓練和執行,使用戶能夠通過核心網絡提交頻繁的數據生成請求。
盡管AIGC具有革新現有生產流程的潛力,但在移動設備上訪問AIGC服務的用戶目前缺乏對交互式和資源密集型數據生成服務[14],[25]的支持。首先,可以利用云數據中心強大的計算能力訓練AIGC預訓練模型,如用于ChatGPT的GPT-3和用于ChatGPT Plus的GPT-4。用戶通過在云服務器上執行AIGC模型,通過核心網絡訪問基于云的AIGC服務。然而,由于其遠程特性,云服務具有較高的延遲。因此,在移動邊緣網絡,即圖1所示的移動AIGC網絡上部署交互密集型的AIGC業務,應該是一個更實際的選擇[26]-[28]。具體而言,開發移動AIGC網絡的動機包括:
低延遲:用戶可以訪問移動AIGC網絡[29]中的低延遲服務,而不是將AIGC服務請求定向到核心網內的云服務器。例如,用戶可以通過將預訓練模型下載到邊緣服務器和移動設備進行微調和推理,直接在無線接入網絡(RANs)中獲得AIGC服務,從而支持實時、交互式的AIGC。
本地化和移動性:在移動AIGC網絡中,在網絡邊緣設有計算服務器的基站可以通過本地化服務請求[30]、[31]來微調預訓練模型。此外,用戶的位置可以作為AIGC微調和推理的輸入,解決特定的地理需求。此外,用戶移動性可以集成到AIGC服務提供過程中,實現動態、可靠的AIGC服務提供。
自定義和個性化:本地邊緣服務器可以適應本地用戶需求,允許用戶根據自己的偏好請求個性化服務,同時根據本地服務環境提供定制化服務。一方面,邊緣服務器通過對AIGC服務[2]進行相應微調,可以根據本地用戶群體的需求定制AIGC服務;另一方面,用戶可以通過指定偏好向邊緣服務器請求個性化服務。
隱私和安全:AIGC用戶只需要向邊緣服務器提交服務請求,而不需要將偏好發送到核心網絡內的云服務器。因此,AIGC用戶的隱私和安全可以在AIGC服務的提供過程中得到保護,包括服務的微調和推斷。
如圖1所示,當用戶通過邊緣服務器和移動設備在移動邊緣網絡上訪問AIGC服務時,有限的計算、通信和存儲資源為交付交互式和資源密集型的AIGC服務帶來了挑戰。首先,邊緣服務器上的資源分配必須權衡邊緣服務器AIGC服務的準確性、延遲和能耗。此外,計算密集型的AIGC任務可以從移動設備卸載到邊緣服務器,提高推理延遲和服務可靠性。此外,生成內容的AI模型可以被緩存在邊緣網絡中,類似于內容分發網絡(CDN)[32],[33],以減少訪問模型的延遲。最后,探索移動性管理和激勵機制,在空間和時間上鼓勵用戶參與。與傳統人工智能相比,AIGC技術需要算法的整體技術成熟度、透明性、魯棒性、公正性和洞察力,才能有效地應用于實際。從可持續性的角度來看,AIGC可以使用現有的和合成的數據集作為生成新數據的原材料。然而,當有偏數據被用作原始數據時,這些偏差會持續存在于模型的知識中,這不可避免地導致算法的結果不公平。最后,靜態AIGC模型主要依賴模板來生成機器生成的內容,這些內容可能具有類似的文本和輸出結構。
本文概述了與AIGC和移動邊緣智能相關的研究活動,如圖2所示。鑒于人們對AIGC的興趣日益增加,最近發表了一些相關主題的調研報告。表一列出了這些調查與本文的比較。
**[34]中的研究提供了研究人員和行業發表的當前AIGC模型的全面概述。**作者確定了9個類別,總結了生成式人工智能模型的演變,包括文本到文本、文本到圖像、文本到音頻、文本到視頻、文本到3D、文本到代碼、文本到科學、圖像到文本和其他模型。此外,他們揭示,只有6個具有巨大計算能力和高技能和經驗豐富的團隊可以部署這些最先進的模型,這甚至比類別的數量還要少。按照[34]中開發的生成式AI模型的分類法,其他調研隨后詳細討論了生成式AI模型。在[9]中的研究檢查了現有的生成文本和檢測模型的方法。[18]的研究提供了多模態圖像合成和處理的主要方法、數據集和評估指標的全面概述。[24]的研究基于語音和圖像合成技術,總結了現有的基于深度生成模型的同步語音手勢生成工作。在[16]上的研究探討了與人工智能生成音樂相關的版權法,其中包括人工智能工具、開發者、用戶和公共領域之間的復雜交互。[4]中的研究為高級生成模型提供了全面的指導和比較,包括GAN、基于能量的模型、變分自編碼器(VAE)、自回歸模型、基于流的模型和擴散模型。隨著擴散模型在產生創造性數據方面受到廣泛關注,對[21]的研究給出了擴散模型的基本算法和全面分類。基于這些算法,作者[1]從藝術分析人工智能和藝術創作人工智能兩個角度闡述了藝術與人工智能的互動。此外,作者還在[2]中討論了在元宇宙中應用計算藝術來創建超現實的網絡空間。
圖3:本次調研的大綱,介紹了移動邊緣網絡的AIGC服務提供,并強調了移動邊緣網絡在提供AIGC服務方面的一些基本實現挑戰。
在6G[19]中,針對智能移動網絡,引入了基于邊緣計算系統的移動邊緣智能,包括邊緣緩存、邊緣計算和邊緣智能。[17]研究探討了分布式學習在無線網絡中的部署。研究[15]為聯邦學習提供了指南,并對在移動邊緣網絡中實現聯邦學習(FL)進行了全面概述。作者詳細分析了實現FL所面臨的挑戰,包括通信成本、資源分配、隱私和安全。在[12]中,詳細介紹了邊緣智能和智能邊緣的各種應用場景和技術。此外,[20]研究還討論了6G無線網絡低功耗、低延遲、可靠可信邊緣智能的前景和潛力。[22]研究探索了區塊鏈技術如何用于實現邊緣智能,以及邊緣智能如何支持區塊鏈在移動邊緣網絡的部署。對區塊鏈驅動的邊緣智能、邊緣智能友好的區塊鏈及其在移動邊緣網絡中的實現進行了全面的綜述。[23]還提供了在移動邊緣網絡實現元宇宙的愿景。詳細討論了使能技術和挑戰,包括通信與網絡、計算和區塊鏈。
與現有的調研和教程不同,本文的調研集中于移動AIGC網絡的部署,以提供實時和隱私保護的AIGC服務。介紹了移動邊緣網絡中AIGC和協同基礎設施的發展現狀。隨后,介紹了深度生成模型技術以及在移動AIGC網絡中提供AIGC服務的工作流程。此外,還展示了創造性的應用程序和幾個示范用例。確定了移動AIGC網絡部署的實現挑戰,從資源分配到安全和隱私**。我們的調研貢獻如下**。
-我們首先提供一個教程,建立AIGC服務的定義、生命周期、模型和指標。然后,提出了移動AIGC網絡,即在移動邊緣網絡上提供AIGC服務,與移動邊緣-云協作的通信、計算和存儲基礎設施。
-介紹了移動AIGC網絡中的幾個用例,包括用于文本、圖像、視頻和3D內容生成的創造性AIGC應用程序。總結了基于這些用例構建移動AIGC網絡的優勢。
-確定了實現移動AIGC網絡的關鍵實現挑戰。移動AIGC網絡的實施挑戰不僅來自于動態的信道條件,還來自于AIGC服務中無意義內容、不安全內容規則和隱私泄露。
-最后,分別從網絡與計算、機器學習(ML)和實際實現考慮等角度討論了未來的研究方向和開放問題。
如圖3所示,調研的組織如下。第二節考察了AIGC的背景和基礎。第三部分介紹了移動AIGC網絡的技術和協作基礎設施。第四節討論了移動AIGC網絡的應用和優勢,第五節展示了潛在的用例。第六節討論了實現中的挑戰。第七部分探討了未來的研究方向。第八節提出結論。
隨著ChatGPT的病毒式傳播,生成式AI (AIGC,又名AI生成內容)已經成為各地的頭條新聞,因為它具有分析和創建文本、圖像等的能力。在如此鋪天蓋地的媒體報道下,我們幾乎不可能錯過從某個角度一瞥AIGC的機會。在人工智能從純分析過渡到創造的時代,值得注意的是,ChatGPT及其最新的語言模型GPT-4,只是眾多AIGC任務中的一個工具。ChatGPT的能力給許多人留下了深刻的印象,他們想知道它的局限性: GPT-5(或其他未來的GPT變體)能否幫助ChatGPT統一所有AIGC任務,以進行多樣化的內容創建?為了回答這個問題,需要對現有的AIGC任務進行全面的回顧。**因此,我們的工作來填補這一空白,通過提供AIGC的第一眼,從它的技術到應用。現代生成式人工智能依賴于各種技術基礎,從模型架構和自監督預訓練到生成式建模方法(如GAN和擴散模型)。**在介紹基本技術的基礎上,根據AIGC任務的輸出類型,包括文本、圖像、視頻、3D內容等,重點介紹了AIGC任務的技術發展情況,展現了ChatGPT未來的潛力。此外,總結了它們在一些主流行業的重要應用,如教育和創意內容。討論了目前面臨的挑戰,并對生成式人工智能在不久的將來可能如何發展提出了展望。 //www.zhuanzhi.ai/paper/6deb3face466ae70f7fdf2978b47cb7b
1. 引言
生成式人工智能(AIGC,又稱人工智能生成內容)已經通過ChatGPT或DALLE[343]等有趣的工具成為頭條新聞,這表明人工智能的新時代正在到來。在鋪天蓋地的媒體報道下,普通大眾有很多機會一睹AIGC的風采。然而,媒體報道的內容往往是有偏見的,有時是誤導性的。此外,ChatGPT的強大功能給許多人留下了深刻的印象,他們想知道它的局限性。最近,OpenAI發布了GPT-4[307],與之前的變體GPT-3相比,性能有了顯著的提高,以及多模態生成能力,如理解圖像。AIGC支持的GPT-4的強大功能給許多人留下了深刻的印象,許多人想知道它的局限性:GPT-5(或其他GPT變體)能否幫助下一代ChatGPT統一所有的AIGC任務?因此,對生成式人工智能的全面回顧是應對人工智能驅動的內容創作這一必然趨勢的基礎。更重要的是,我們的工作及時填補了這一空白。 **傳統人工智能的目標主要是進行分類[263]或回歸[227]。這種判別性方法主要用于分析現有數據。**因此,傳統人工智能也經常被稱為分析人工智能。相比之下,生成式AI通過創建新內容來區分。然而,生成式人工智能通常也要求模型在生成新內容之前首先理解一些現有數據(如文本指令)[40,342]。從這個角度來看,分析型AI可以被視為現代生成型AI的基礎,它們之間的邊界往往是模糊的。請注意,分析性AI任務也會生成內容。例如,在圖像分類中生成標簽內容[216]。然而,圖像識別往往不被考慮在生成式人工智能的范疇內,因為標簽內容的維數較低。生成式人工智能的典型任務涉及生成高維數據,如文本或圖像。這些生成的內容也可以用作合成數據,以緩解深度學習對更多數據的需求[144]。第2節概述了生成式人工智能的流行及其背后的原因。 **如上所述,生成式AI與傳統AI的區別在于其生成的內容。也就是說,生成式AI在概念上類似于AIGC(又稱AI生成內容)[304]。**在描述基于AI的內容生成的背景下,這兩個術語通常可以互換。本文為簡單起見,將內容生成任務稱為AIGC。例如,ChatGPT是用于AIGC任務的工具,稱為聊天機器人[43],考慮到AIGC任務的多樣性,這只是冰山一角。盡管生成式AI和AIGC非常相似,但這兩個術語有細微的區別。AIGC專注于內容生成的任務,而生成AI還考慮了支持各種AIGC任務開發的基本技術基礎。本文將這些基礎技術分為兩類。第一類指的是生成式建模技術,如GAN[124]和擴散模型[156],它們與內容創作的生成式AI直接相關。第二類人工智能技術主要由骨干架構(如Transformer[443])和自監督預訓練(如BERT[87]或MAE[141])組成。其中一些是在分析AI的背景下開發的。然而,它們也成為展示競爭性能的關鍵,特別是在具有挑戰性的AIGC任務中。考慮到這一點,第3節總結了這兩類基礎技術。 **在這些基本技術之上,許多AIGC任務已經成為可能,并且可以根據生成的內容類型直接進行分類。**第4、5和6節對AIGC任務的發展進行了總結。具體來說,第4節和第5節分別關注文本輸出和圖像輸出。對于文本生成,聊天機器人[43]和機器翻譯[497]是兩個主要任務。一些文本生成任務也將其他模態作為輸入,主要關注圖像和語音。對于圖像生成,兩個主要任務是圖像恢復和編輯[253]。最近,文本到圖像(text-to-image)引起了廣泛關注。除了以上兩種主要的輸出類型(即文本和圖像),第6節還涵蓋了其他類型的輸出,如視頻、3D、語音等。 **隨著技術的進步,AIGC的性能在越來越多的任務中得到了滿足。**例如,聊天機器人過去僅限于回答簡單的問題。然而,最近的ChatGPT已經被證明可以理解笑話并在簡單的指令下生成代碼。文本到圖像曾經被認為是一項具有挑戰性的任務;然而,最近的DALL-E 2[342]和穩定擴散[357]已經能夠生成逼真的圖像。因此,AIGC應用于行業的機會出現了。章節7介紹了AIGC在各個行業的應用,包括娛樂、數字藝術、媒體/廣告、教育等。隨著AIGC在現實世界中的應用,也出現了許多倫理問題等挑戰。除了當前的挑戰,還提出了對生成式人工智能可能如何發展的展望。 本文從生成內容(即AIGC任務)的角度對生成人工智能進行了調查,涵蓋其基本技術、任務級技術發展、行業應用以及社會影響。論文結構的概述如圖4所示。
2. 概述
采用AI進行內容創作有很長的歷史。1954年,IBM在紐約的總部首次公開演示了機器翻譯系統。1957年,第一首電腦生成的音樂誕生了,名為“伊利亞克組曲”。這種早期的嘗試和概念證明的成功引起了人們對人工智能未來的高度期待,這促使政府和公司向人工智能投資大量資源。然而,如此高的投資熱潮并沒有產生預期的產出。在那之后,一個被稱為人工智能冬天的時期到來了,這極大地破壞了人工智能及其應用的發展。進入2010年代,人工智能再次流行起來,特別是在2012年AlexNet[216]用于ImageNet分類的成功之后。進入21世紀20年代,人工智能已經進入了一個新時代,不僅可以理解現有數據,還可以創建新的內容[40,342]。本節通過關注生成AI的流行及其原因來概述它。 3 AIGC背后的基本技術
本文將AIGC視為一組用人工智能方法生成內容的任務或應用。在介紹AIGC之前,我們首先了解AIGC背后的基本技術,這些技術在技術層面上屬于生成式人工智能的范圍。本文將基本技術大致分為兩類:生成技術和創造技術。具體來說,創建技術是指能夠生成各種內容的技術,例如GAN和擴散模型。通用技術不能直接生成內容,但對AIGC的開發至關重要,例如Transformer架構。在本節中,我們將簡要總結AIGC所需的技術。
4 AIGC任務:文本生成
NLP研究自然語言,有兩個基本任務:理解和生成。這兩個任務并不是完全獨立的,因為適當文本的生成通常依賴于對一些文本輸入的理解。例如,語言模型通常將文本序列轉換為另一個文本序列,這構成了文本生成的核心任務,包括機器翻譯、文本摘要和對話系統。除此之外,文本生成向兩個方向發展:可控性和多模態。第一個方向是生成內容。 4.1 文本到文本
4.1.1聊天機器人 對話系統(聊天機器人)的主要任務是在人類和機器之間提供更好的交流[85,299]。根據應用中是否指定任務,對話系統可以分為兩類:(1)任務導向型對話系統(TOD)[323,502,533]和(2)開放域對話系統(OOD)[4,532,541]。具體來說,面向任務的對話系統專注于任務完成和解決特定問題(例如,餐廳預訂和機票預訂)[533]。同時,開放域對話系統通常是數據驅動的,目的是在沒有任務或域限制的情況下與人類聊天[353,533]。面向任務的系統。面向任務的對話系統可以分為模塊化系統和端到端系統。模塊化方法包括四個主要部分: 自然語言理解(NLU)[395,409],對話狀態跟蹤(DST)[382,462],對話策略學習(DPL)[169,483]和自然語言生成(NLG)[25,99]。在用NLU將用戶輸入編碼為語義槽后,DST和DPL決定下一個動作,然后由NLG轉換為自然語言作為最終響應。這四個模塊旨在以可控的方式產生響應,并可以單獨優化。然而,有些模塊可能是不可微的,單個模塊的改進可能不會導致整個系統的改進[533]。為了解決這些問題,端到端方法要么通過使每個模塊可微[139,162]來實現端到端訓練管道,要么在系統中使用單個端到端模塊[498,531]。模塊化系統和端到端系統仍然存在一些挑戰,包括如何提高DST[208,312]的跟蹤效率,以及如何提高具有有限數據的端到端系統的響應質量[145,148,282]。
**Open-domain系統。**開放域系統旨在與沒有任務和域限制的用戶聊天[353,533],可以分為三種類型:基于檢索的系統,生成系統和集成系統[533]。基于檢索的系統總是從響應語料庫中找到現有的響應,而生成系統可以生成可能不會出現在訓練集中的響應。集成系統通過選擇最佳響應或用生成模型優化基于檢索的模型[378,533,546],將基于檢索的方法和生成的方法相結合。之前的工作從多個方面改進了開放域系統,包括對話上下文建模[105,181,250,282],提高響應一致性[9,117,251,483]和多樣性[31,211,335,408]。最近,ChatGPT(參見圖12)取得了前所未有的成功,也屬于開放域對話系統的范圍。除了回答各種問題,ChatGPT還可以用于論文寫作、代碼調試、表生成等。
4.1.2 機器翻譯
顧名思義,機器翻譯自動將文本從一種語言翻譯為另一種語言171,7497。隨著深度學習取代基于規則的[108]和基于統計的[212,213]方法,神經機器翻譯(NMT)需要最少的語言專業知識[399,451],并因其在句子中捕獲長依賴的能力更高[62]而成為一種主流方法。神經機器學習的成功主要歸功于語言模型[34],它以前一個詞為條件來預測一個詞出現的概率。Seq2seq[413]是將編碼器-解碼器RNN結構[191]應用于機器翻譯的開創性工作。當句子變長時,Seq2seq[413]的性能會變差,針對這一問題,[24]中提出了一種注意力機制,通過額外的單詞對齊來幫助翻譯長句子。隨著越來越多的關注,2006年,與谷歌的基于短語的生成系統相比,谷歌的NMT系統幫助減少了約60%的人工翻譯工作量,彌補了人類翻譯和機器翻譯之間的差距[475]。基于CNN的架構也已被研究用于NMT,并進行了多次嘗試[190,192],但未能取得與由注意力[24]增強的RNN相當的性能。Convolutional Seq2seq[120]使CNN與注意力機制兼容,表明CNN可以取得與RNN相當甚至更好的性能。然而,這種改進后來被另一種稱為Transformer[443]的架構超越。使用RNN或Transformer作為架構,NMT通常使用自回歸生成模型,其中貪婪搜索只考慮在推理過程中預測下一個工作概率最高的單詞。NMT的一個趨勢是在低資源設置中取得令人滿意的性能,其中模型是用有限的雙語語料庫訓練的[458]。緩解這種數據稀缺的一種方法是利用輔助語言,如使用其他語言對進行多語言訓練[187,383,547],或以英語作為中間中間中間語言[58,350]的中間中間語言轉換[58,350]。另一種流行的方法是利用預訓練語言模型,如BERT[87]或GPT[338]。例如,在[359]中顯示,使用BERT[87]或RoBERTa[259]初始化模型權重可以顯著提高英德翻譯性能。在不需要微調的情況下,GPT家族模型[40,338,339]也顯示出具有競爭力的性能。最近,ChatGPT在機器翻譯中顯示了其能力,與商業產品(如谷歌翻譯)相比表現出了競爭力[182]。
4.2多模態文本生成 4.2.1圖像到文本。 圖像到文本,也稱為圖像描述,指的是用自然語言描述給定圖像的內容(參見圖14)。該領域的一項開創性工作是神經圖像描述(NIC)[447],它使用CNN作為編碼器來提取輸入圖像的高級表示,然后將這些表示輸入RNN解碼器以生成圖像描述。這種兩步編碼器-解碼器架構已被廣泛應用于后期關于圖像描述的工作中,我們將其分別稱為視覺編碼[407]和語言解碼。本文首先回顧了圖像描述的兩個階段的歷史和最近的趨勢。 **視覺編碼。**提取圖像的有效表示是視覺編碼模塊的主要任務。從NIC[447]開始,使用GoogleNet[417]提取輸入圖像的全局特征,多個工作采用各種CNN骨干網絡作為編碼器,包括[195]中的AlexNet[216]和[92,272]中的VGG網絡[393]。然而,語言模型很難生成具有全局視覺特征的細粒度標題。以下工作介紹了細粒度視覺特征的注意力機制,包括對CNN特征的不同網格[56,264,463,484]或不同視覺區域[16,200,518]的注意力。另一個分支工作[500,536]采用圖神經網絡來編碼不同區域之間的語義和空間關系。然而,人類定義的圖結構可能會限制元素之間的相互作用[407],這可以通過連接所有元素的自注意力方法231,501,530來緩解。 **語言解碼。**在圖像描述中,語言解碼器通過預測給定單詞序列的概率來生成標題[407]。受NLP領域突破的啟發,語言解碼器的骨干從RNN[200, 264, 447, 456]發展到Transformer[132, 149, 231],實現了顯著的性能提升。除了視覺編碼器-語言解碼器架構之外,一個分支工作采用類似BERT的架構,在單個模型的早期階段融合圖像和標題[244,526,542]。例如,[542]采用單個編碼器來學習圖像和文本的共享空間,首先在大型圖像-文本語料庫上進行保留并進行微調,特別是針對圖像描述任務。 4.2.2 語音到文本生成
語音到文本生成,也稱為自動語音識別(ASR),是將口語,特別是語音信號轉換為相應文本的過程173,347。ASR有許多潛在的應用,如語音撥號、計算機輔助語言學習、字幕生成以及Alexa和Siri等虛擬助手,自20世紀50年代以來,ASR一直是一個令人興奮的研究領域[194,270,345],并從隱馬爾可夫模型(HMM)[188, 225]發展到基于DNN的系統[75,127,152,297,473]。
**各種研究主題和挑戰。**已有工作對ASR系統進行了多方面的改進。多個工作討論了語音信號的不同特征提取方法[270],包括時間特征(如離散小波變換[287,419])和譜特征(如最常用的梅爾頻率倒譜系數(MFCC)[61,69,429])。另一個工作分支將系統管道[355]從多模型[268]改進為端到端[161,233,234,296,453]。具體來說,多模型系統[268,270]首先學習聲學模型(例如,將特征映射到音素的音素分類器),然后學習單詞輸出的語言模型[355]。另一方面,端到端模型直接從音頻輸入預測轉錄[161,233,234,296,453]。盡管端到端模型在各種語言和方言中取得了令人印象深刻的性能,但仍然存在許多挑戰。首先,它們在資源不足的語音任務中的應用仍然具有挑戰性,因為獲取大量標注的訓練數據是昂貴和耗時的[104,355]。其次,這些系統可能很難處理具有特殊詞匯表外單詞的語音,并且可能在訓練數據上表現良好,但可能對新的或未見過的數據[104,334]泛化能力不強。此外,訓練數據中的偏差也會影響有監督ASR系統的性能,導致對某些人群或語音風格[35]的準確性較差。 **資源受限的語音任務。**研究人員致力于研究克服ASR系統挑戰的新技術,其中主要討論了語音資源不足的問題,即缺乏語音受損的數據[355]。一個工作分支[321,346]采用多任務學習來優化不同任務的共享編碼器。與此同時,自監督ASR系統最近成為一個不依賴大量標記樣本的活躍研究領域。具體來說,自監督ASR系統首先在大量未標記語音數據上預訓練模型,然后在較小的標記數據集上進行微調,以促進ASR系統的效率。它可以應用于低資源語言,處理不同的說話風格或噪聲條件,并轉錄多種語言[23,71,255,492]。
5 AIGC任務:圖像生成
與文本生成類似,圖像生成的任務也可以根據其輸入控制分為不同的類別。由于輸出是圖像,一個簡單的控制類型是圖像。圖像類型的控制引起了大量的任務,如超分辨率、去模糊、編輯、翻譯等。圖像類型控件的一個限制是缺乏靈活性。相比之下,文本引導控制可以根據人類的自由意志生成任何風格的任何圖像內容。文本到圖像屬于跨模態生成的范疇,因為輸入文本與輸出圖像是不同的模態。 5.1圖像到圖像
5.1.1圖像恢復 圖像恢復解決了一個典型的逆向問題,即從相應的退化版本恢復干凈的圖像,示例如圖16所示。由于退化圖像與純凈圖像之間存在無限種可能的映射關系,因此這種反問題的病態性質是非平凡的。退化有兩個來源:原始圖像中的信息缺失和在干凈的圖像中添加了一些不受歡迎的東西。前一種退化包括拍攝一張低分辨率的照片,從而丟失一些細節信息,裁剪某個區域,并將彩色圖像轉換為灰色形式。恢復任務依次是圖像超分辨率、修復和著色。另一類恢復任務旨在消除不受歡迎的干擾,如去噪,去霧,去模糊等。早期恢復技術主要使用數學和統計建模來消除圖像退化,包括用于去噪的空間濾波器[123,392,529],用于去模糊的核估計[485,489]。最近,基于深度學習的方法[42,59,93,177,248,252,481,486]由于其通用性和比傳統方法優越的視覺質量,在圖像恢復任務中發揮了主導作用。CNN被廣泛用于圖像恢復[94,411,442,459]中作為構建塊,而最近的工作探索了更強大的transformer架構,并在各種任務中取得了令人印象深刻的性能,如圖像超分辨率[247]、著色[218]和修復[240]。也有一些工作將CNN和Transformer的強度結合在一起[103,534,535]。 **復原的生成方法。**典型的圖像恢復模型在重建損失的情況下學習源(退化)圖像和目標(干凈)圖像之間的映射。根據任務的不同,可以通過對干凈的圖像進行各種擾動(包括分辨率下采樣和灰度變換)來生成訓練數據對。為了保持更多的高頻細節并創建更真實的圖像,生成模型被廣泛用于修復,例如超分辨率[223,460,528]和修復[42,252,298]中的GAN。然而,基于gan的模型通常遭受復雜的訓練過程和模式崩潰。這些缺點和DMs的大規模流行導致許多最近的工作將DMs用于圖像恢復任務[199,232,265,349,367,369]。像GAN和DM這樣的生成方法也可以從單個退化圖像中產生多種不同的干凈輸出。 **從單任務到多任務。**現有的大多數復原方法針對不同形式的圖像退化訓練單獨的模型。這限制了它們在實際用例中的有效性,在實際用例中,圖像被退化的組合損壞。為了解決這個問題,一些研究[6,207,391,540]引入了多失真數據集,這些數據集結合了不同強度的各種退化形式。一些研究[207,258,505,509]提出了不同的恢復模型,其中不同的子網絡負責不同的退化。另一項工作[228,242,391,410,540]依賴注意力模塊或引導子網絡來幫助恢復網絡通過不同的退化,允許單個網絡處理多個退化
5.1.2 圖像編輯
圖像編輯是指修改圖像以滿足某種需求,如風格遷移(見圖17),而圖像恢復是為了增強圖像質量。從技術上講,一些圖像恢復任務,如著色,也可能被視為圖像編輯,因為將添加顏色視為所需的需求。現代相機通常具有基本的編輯功能,如銳度調整[524]、自動裁剪[525]、紅眼去除[396]等。然而,在AIGC中,我們對高級圖像編輯任務更感興趣,這些任務以各種形式改變圖像語義,如內容、樣式、對象屬性等。 5.2 多模態圖像生成
文本到圖像(T2I)任務旨在從文本描述生成圖像(見圖??),可以追溯到從標簽或屬性[405,495]生成圖像。AlignDRAW[271]是一項從自然語言生成圖像的開創性工作,令人印象深刻的是,AlignDRAW[271]可以從新穎的文本中生成圖像,如“一個停車標志在藍天中飛翔”。最近,文本到圖像領域的進展可以分為三個分支,包括基于GAN的方法,自回歸方法和基于擴散的方法。
AIGC空間廣闊,商業化落地持續推進
AIGC的落地痛點在于成本高昂的通用大模型與下游垂直應用場景需求的不匹配。ChatGPT熱度持續提升,一方面推動了科技巨頭持續加大AI投入,另一方面也直接帶動下游付費意愿提升,進一步加速AIGC應用落地和商業變現,AIGC產業迎來發展良機。 (1)從內容形態來看,AIGC應用包括文本、音頻、圖像、視頻、代碼、多模態等內容生成形式,根據紅衫資本預測,AIGC將首先在文本和代碼領域落地應用,隨后逐漸拓展至圖像和視頻領域。 (2)從應用價值來看,AIGC應用價值體現在降本增效、提升內容質量、增加內容多樣性、生成個性化內容等方面。在垂直領域,目前國內已有機器寫稿、對話式AI、報告生成等AIGC應用落地,技術價值主要在于替代人工實現降本增效。隨著科技巨頭的持續投入以及技術的迭代升級,AIGC技術應用場景進一步拓寬,技術價值也有望從將本增效向額外價值轉移。 AI賦能價值凸顯,AI應用大有可為 (1)AI+搜索:搜索是互聯網的流量入口,微軟、谷歌、百度均表示將率先將AI技術應用于搜索,未來有望重塑信息生成和呈現方式,成為新的流量入口。 (2)AI寫作:AI寫作可大幅提升效率,在具有較強規律性的結構化寫作方面具有豐富應用場景。目前已在辦公軟件、新聞媒體等專業應用場景商業化落地。 (3)AI對話:AI對話主要用于替代人類完成大量重復性、規則性對話任務,在金融、互聯網、運營商等擁有大量C端用戶的行業擁有廣闊應用前景。ChatGPT在多項測試中已經超過人類,將對話AI提升至新的高度,未來應用空間廣闊。 (4)AI翻譯:在AI技術支持下,機器翻譯效果持續優化,但在廣義理解層面仍面臨挑戰。相比專業搜索工具,ChatGPT具有更強的理解能力,在部分場景的翻譯表現優于谷歌翻譯和DeepL,表現驚艷。 (5)AI作畫:AI作畫可解決視覺內容創作門檻高、耗時長的痛點,對于內容創作的價值凸顯。根據6pen預測,未來五年10%-30%的圖片內容將由AI參與生成,預計2027年市場規模有望超過600億,空間廣闊。 (6)AI視頻:AI已經可以輔助完成視頻生成、替換、剪輯等多項任務,已在短視頻、AI修復等領域廣發應用,下游需求旺盛,未來應用潛力廣闊。
數據、算法、算力共振推動AIGC發展,模型開源及商業化帶來的產品化浪潮及通用人工智能領域的初探推動AIGC破圈。AIGC傳媒相關應用有望超千億。 復盤AIGC算法迭代:競爭中發展,模型開源及商業化推動應用破圈。2017年推出的Transformer架構的并行訓練優勢奠定了大模型訓練的基礎,以GPT為代表的預訓練模型,通過使用無標注數據預訓練及微調,緩解了標注數據不足的問題,并不斷提升參數量級及模型通用性,ChatGPT在此基礎上加入了利用人類反饋強化學習的訓練方法。擴散模型取代GAN成為圖像生成領域的主流模型,CLIP模型推動跨模態生成技術的發展。GPT3的商業化及CLIP及Stable Diffusion模型的開源推動文本生成、文生圖產品化的浪潮。谷歌、Meta持續探索文字生成視頻領域模型。 國內傳媒領域應用有望超千億。Gartner預測至2023年將有20%的內容被生成式AI所創建;至2025年生成式AI產生的數據將占所有數據的10%(目前不到1%)。紅杉預測生成式ai將產生數萬億美元經濟價值。2025年,國內生成式ai應用規模有望突破2000億,我們預測國內傳媒領域應用空間超1000億。 AIGC應用于文本、音頻、跨模態、策略生成,在設計、內容創作、廣告營銷、游戲、企業服務等領域開啟商業化,有望開啟新一輪內容生產力革命。 文本生成:應用于輔助寫作、營銷、社交、瀏覽器、企業級服務、心理咨詢等領域。代表公司Jasper.ai,通過SaaS訂閱收費模式,獲得B端客戶認可,率先實現規模化收入;OpenAI旗下ChatGPT由于其通用性被集成至瀏覽器、辦公自動化軟件、企業級服務產品中,作為增值服務項目。 音頻生成:應用于智能客服、有聲讀物制作、配音、導航、虛擬歌手、作曲等領域。代表公司喜馬拉雅、倒映有聲、標貝科技、StarXMusicXLab等。 跨模態生成:包括文生圖、文生視頻,圖片視頻生成文字等應用。AI繪畫代表產品Midjourney、DALL-E2、Dreamstudio、文心一格,主要按生成次數收費。 策略生成:應用于游戲、自動駕駛、機器人控制、智能交互數字人等領域。游戲領域代表性公司騰訊AILab、網易伏羲、啟元世界、rct.ai、超參數等。
**刷爆的ChatGPT什么算法這么強!臺大李宏毅老師國語講解《ChatGPT (可能)是怎么煉成的 》! **
** **
** **
AIGC多模態跨模態應用逐漸成熟,市場空間廣闊。 廣義的AIGC指具備生成創造能力的AI技術,即生成式AI。可以基于訓練數據和生成算法模型,自主生成創造新的文本、圖像、音樂、視頻等內容。2022年被稱為AIGC元年,未來兼具大模型和多模態模型的AIGC模型有望成為新的技術平臺。據《中國AI數字商業產業展望2021-2025》報告,預測AI數字商業內容的市場規模將從2020年的40億元,增加到2025年的495億元。 ChatGPT產品歷經多代技術演進,產品與商業模式逐漸成熟。 ChatGPT是文本生成式AI,過去的傳統AI偏向于分析能力,主要基于已有內容;現在文本生成式AI基于底層Transformer模型,不斷訓練數據和迭代生成算法模型,歷經GPT-1、GPT-2、GPT-3,模型不斷升級,到ChatGPT的GPT3.5模型,已可以自主生成各種形式的內容。近期收費版ChatGPTPlus版本發布,AI商業化序幕逐漸拉開。 AI商業化落地在即,行業算法側和算力側投資機會有望超預期。 根據數據顯示,ChatGPT總算力消耗約為3640PF-Days,按國內的數據中心算力測算,需要7-8個數據中心才能支持其運行。各模態AI數據訓練到應用均需要算法和算力的加持,未來要想大規模應用,算法訓練和算力部署均需先行。
AIGC成為新的內容生產方式,跨模態生成值得重點關注。區別于PGC與UGC,AIGC是利用人工智能技術自動生成內容的新型生產方式。按照模態區分,AIGC可分為音頻生成、文本生成、圖像生成、視頻生成及圖像、視頻、文本間的跨模態生成,細分場景眾多,其中,跨模態生成需要重點關注。 自然語言處理(NLP)賦予了AI理解和生成能力,大規模預訓練模型是NLP的發展趨勢。NLP的兩個核心任務分別是自然語言理解(NLU)和自然語言生成(NLG)。以ELMo、BERT、GPT為代表的預訓練模型,降低了NLP的技術門檻。ELMo解決了“一詞多義”的問題;BERT通過MLM(類似于完形填空)和NLP(判斷句子是否相連)進行預訓練,增強了上下文的理解能力。GPT通過預測下一個詞,獲得了生成能力;GPT-3在此基礎上使用了更大的數據和更大模型,無需針對下游任務進行傳統的微調,并且采用了小樣本學習提升生成效果。 ChatGPT是NLP發展中具有里程碑式意義的模型之一。ChatGPT是OpenAI從GPT-3.5系列中的模型進行微調產生的聊天機器人模型。它能夠通過學習和理解人類的語言來進行對話,還能根據聊天的上下文進行互動,真正像人類一樣來聊天交流,甚至能完成撰寫郵件、視頻腳本、文案、翻譯、代碼等任務。 生成模型賦予了AI創造力,擴散模型是最前沿的技術之一。AIGC的快速發展歸功于生成算法領域的技術積累。GAN的核心思想是“生成”與“對抗”,相比傳統的深度神經網絡,GAN能產生更好的生成樣本,但是仍需解決應用中的問題。擴散模型較GAN更接近人的思維模式,是基于馬爾科夫鏈,通過學習噪聲來生成數據。擴散模型實現了跨模態應用,包括OpenAI的GLIDE和DALL·E2、谷歌的Imagen、StabilityAI的StableDiffusion等。 人工智能由單模態智能,向多種模態融合方向發展。建立統一的、跨場景、多任務的多模態基礎模型或將成為人工智能發展的主流趨勢之一。CLIP模型將語言信息和圖像信息聯合訓練,能夠鏈接文本和圖片,成為跨模態生成應用的一個重要節點,“CLIP+其他模型”在跨模態生成領域成為一種較為通用的做法。2022年,微軟提出的BEiT-3多模態基礎模型,在視覺-語言任務處理上具備出色表現,包括視覺問答、圖片描述生成和跨模態檢索等。多模態提高了基礎模型的靈活性,使其在其他模態的應用中發揮新的潛質。 未來,值得關注的技術要素包括:長文本生成、開放式文本生成、NeRF模型、擴散模型、跨模態大型預訓練模型(支持的模態數據類型、模態對齊架構設計、支持的下游應用)、小樣本學習及自監督算法、強化學習及環境學習等。
如同蒸汽時代的蒸汽機、電氣時代的發電機、信息時代的計算機和互聯網,人工智能正成為推動人類進入智能時代的決定性力量。全球產業界充分認識到人工智能技術引領新一輪產業變革的重大意義,紛紛轉型發展,搶灘布局人工智能創新生態。人工智能細分賽道持續創新下變革在即,本報告重點關注AIGC領域。
AIGC顛覆傳統內容產出模式,或為web3.0內容創造新引擎。AIGC本質上是一種AI賦能技術,能夠通過其高通量、低門檻、高自由度的生成能力廣泛服務于各類內容的相關場景及生產者。隨著人工智能生成能力的突破進展,內容生產已經從專業生成內容(PGC)、用戶生成內容(UGC),進入到人工智能生成內容(AIGC,AI generated content)時代,AIGC被認為是web3.0的重要基礎設施。AIGC的快速興起源于深度學習技術的快速突破和日益增長的數字內容供給需求;應用價值層面,AIGC有望成為數字內容創新發展新引擎,為數字經濟發展注入新能量。數據+算法+算力三大核心要素,決定AIGC產出質量。①數據,海量優質的應用場景數據是訓練算法精確性關鍵基礎。②算法,神經網絡、深度學習等算法是挖掘數據智能的有效方法。與傳統機器深度機器學習算法不同,神經網絡在學習范式+網絡結構上的迭代提升了AI算法的學習能力,未來多模態大模型或為核心趨勢,賦能產業空間及實踐潛力。③算力,計算機、芯片等載體為AIGC提供基本的計算能力。 AIGC技術場景中,個性化及自動化內容產出為核心價值。①技術成熟度較高結構化領域大部分是在和人力生成內容進行競爭。其中的存量價值來源于同類內容的降本增效,而增量價值則來源于跨模態的內容生成以及AI本身帶來的科技感。對內容渠道的把控將成為核心競爭力。發行商、內容最終消費渠道具有強的產業鏈話語權。②底層技術基本明確/仍待完善的原創性創作領域,本質為AI下的個性化數字內容的自動化構建。該領域重點關注和其配套數據或底層原理是否清晰、商業化路徑。目前AIGC整體影響仍十分有限,主要是中國市場供給端仍處于起步階段。 AIGC應用場景中,數字化程度高及內容需求豐富的領域有廣闊應用空間。隨著AIGC技術快速迭代,其可高效生成不同模態的信息產出(包括文字、音頻、視頻及跨模態),以真實性、多樣性、可控性及綜合性等特征,有望幫助企業提高內容生產的效率,以及為其提供更加豐富多元、動態且可交互的內容,或將率先在傳媒、電商、影視、娛樂等數字化程度高、內容需求豐富的行業取得重大創新發展。 深度學習模型+開源模式加速AIGC普及,海外AIGC已到了“快速發展階段”。①隨著深度學習模型不斷迭代,人工智能生成內容百花齊放,產出效果逐漸逼真直至人類難以分辨。2018年,人工智能生成的畫作在佳士得拍賣行以43.25萬美元成交,成為首個出售的人工智能藝術品;2019年,DeepMind發布DVD-GAN模型用以生成連續視頻;2022年11月,OpenAI上線了智能對話系統(聊天機器人)ChatGPT,引發全球熱潮。ChatGPT的成功離不開參數競賽時代下的“大模型”,顯卡等硬件優化帶來的“大算力基礎”與基于“大數據”的RLHF訓練模式。但由于訓練數據的缺乏及訓練數據的偏差,ChatGPT仍需要高成本的調優及持續訓練,進而實現商業化落地。②“開源模式”加速AIGC產業發展。以深度學習模型CLIP為例,開源模式加速CLIP模型的廣泛應用,使之成為當前最為先進的圖像分類人工智能,并讓更多機器學習從業人員將CLIP模型嫁接到其他AI應用。 中國AIGC仍處“萌芽期”,技術能力與產品形態的成熟、核心場景的確定及產業的接納態度為行業關鍵發展節點。據量子位預測,AIGC在中國發展可分為三個階段:助手階段(摸索磨合期,2021年~2026年):AIGC輔助人類進行生產,優先變現的關鍵在于編輯優化功能,行業創新關鍵能力為素材模塊分拆+個性化推薦;協作階段(推廣應用期,2026年~2028年):人機共創,主要價值為降本增效及提供創意,預計互聯網大廠將普遍布局,競爭熱度提升;原創階段(價值增長期,2028年之后):AIGC將獨立完成內容創作,產生附加價值。中國AIGC企業均在初創階段,機會也許藏在垂直應用領域中,對賽道的選擇十分關鍵。