AIGC發展過程:AI自行生成內容
AIGC(ArtificialIntelligenceGeneratedContent)指的是人工智能系統生成的內容,通常是文字、圖像、音頻或視頻。這類內容可以通過自然語言處理,機器學習和計算機視覺等技術生成,即生成式AI。AI最初設立的目的是讓機器像人類一樣思考解決問題。目前AI的總體目的是通過各種算法解決問題提高生產效率。
AIGC多樣化的內容生成能力使其覆蓋各類內容形式,各類應用場景正隨技術進步逐漸落地。AIGC不僅可覆蓋文本、音頻、圖像、視頻等基本內容模態,還可綜合圖像、視頻、文本進行跨模態生成,并應用于各類細分行業成為具體的生產力要素,例如游戲行業中的AI、NPC、虛擬人的視頻制作與生成等。
AIGC發展過程:GPT助力,進入黃金期
ChatGPT的發展帶動了文字類AI生成,或將在2023年進入黃金時期,圖片類AI生成黃金時期將在2025年左右抵達,3D和視頻類AI生成在2023年可能正處于草稿階段,進入黃金時期或許在2030年。
AIGC產業應用,如在制造業、建筑業等巨型垂直實體領域中,AIGC的C/Content內容將不僅停留在圖片和文字的領域,而是進入信息更為豐富的領域。
自然語言模型是大語言模型的核心。自然語言模型是大模型的核心,支持許多類型的語言任務的執行。ChatGPT和各大主流AIGC模 型主要基于大語言模型,通過深度學習算法來處理和生成自然語言。自然語言模型發展經歷了基于規則、基于統計和基于神經網絡三 個階段,Transformer的出現為以Bert和GPT-3為代表的大語言模型的誕生奠定了模型基礎。? AI到AGI,ChatGPT開啟人工智能新紀元。ChatGPT結合自回歸語言模型+zero shot prompting,帶來AI范式突破,實現AI到AGI 的轉變。相比fine tuning技術,prompting技術能更好的完成生成類任務。ChatGPT在RLHF的幫助下,找到了GPT-3.5和人類自然 語言的合理接口,解鎖了模型的應用場景,改變了人機交互方式。? GPT跨越式發展,探索未來更多可能性。各代GPT青出于藍勝于藍,更新迭代過程中涌現了諸多能力。GPT-4.0更是突破了GPT-3.5 僅支持執行文本類任務的局限性,賦予ChatGPT更優異的上下文理解能力、推理能力、演繹能力,甚至圖文理解能力。GPT也在不斷 的更新迭代中持續突破,解鎖更多能力。? 多行業結合,下游應用遍地開花。ChatGPT以其高級的生成能力和復雜任務處理能力,以從重資產的模型層到輕資產的中間層和應 用層為架構,為游戲行業、視頻類行業、生物醫藥行業等其他行業錦上添花。在ChatGPT的幫助下,各行各業真正的做到了提高效 率、減少成本并實現了功能上質的改變,讓更多用戶受益。
人工智能重塑內容產業的作業模式
不可否認AIGC的出現似乎已經讓大家預見了AI應用的拐點,其創造性與智能性一夜之間刷新了大眾認知。但去偽存真,在市場火爆的背后其真正的應用及商業價值幾何,更待我們冷靜地剖析。基于此,甲子光年智庫特此展開AIGC應用與實踐研究,輸出《AIGC應用與實踐研究展望報告》,期待與各方共同見證AIGC行業的星辰大海。
基于此,本次報告探討了以下幾個問題:
1.AIGC的本質剖析及AIGC背后的新一代人工智能技術革新?
2.基于技術及商業的價值,AIGC將會如何改變內容產業的作業模式,對現有商業模式帶來哪些機遇及沖擊?
3.當下AIGC產業鏈及核心玩家可能是誰,如何在細分領域完成產品及服務?
4.AIGC時代到來,企業及個人需要如何面對?
報告全文如下:
隨著ChatGPT等語言大模型落地,AIGC技術落地在各行各業中得到發展和推進。根據模型的分類,AIGC的應用可被分為單模態和多模態兩類。單模態模型可以助力各個應用,提升原有的能力和生產力。諸如ChatGPT已與Bing結合,使搜索更智能化。同時,搜索引擎又能很好地彌補語言模型預訓練時不具備的數據實時性。單模態模型與操作系統的連接也能改變傳統的人機交互模式,使系統響應更智能,軟件間的數據流通更廣泛;與游戲應用的結合可以使NPC更鮮活,與玩家的對話更真實;應用于文學作品可以激發創作靈感,提高寫作效率,掀起AI電子書熱潮;應用于客服場景可以提升原智能客服的多輪對話能力,個性化回答能力。 多模態的模型是AIGC的發展趨勢,現有的DALL-E或StableDiffusion已經在文本到圖像的跨模態領域很好地落地,可以更容易地生成高質量海報和提升三維場景重建的效果;與視頻剪輯應用的結合降低視頻制作的門檻,拓展影視領域的空間;Google的多模態模型PaLM-E將豐富機器人操作場景,智能化機器人反饋。最新的GPT4多模態模型與Office辦公軟件的結合將顯著提升生產力,使辦公軟件間的聯動更智能;GPT4可以賦能教育科研領域,緩解教育資源短缺,降低獲取知識的門檻;GPT4可以賦能數字人,使數字人落地場景更豐富,交互更擬人;GPT4還能助力應用開發,簡化發開周期,降低開發的門檻。
最近,ChatGPT與DALL-E-2[1]和Codex[2]一起受到了社會的廣泛關注。因此,許多人對相關資源感興趣,并試圖揭開其令人印象深刻的性能背后的背景和秘密。**事實上,ChatGPT和其他生成式AI (GAI)技術屬于人工智能生成內容(AIGC)的范疇,它涉及通過AI模型創建數字內容,如圖像、音樂和自然語言。AIGC的目標是使內容創建過程更加高效和可訪問,允許以更快的速度生產高質量的內容。**AIGC是通過從人類提供的指令中提取和理解意圖信息,并根據其知識和意圖信息生成內容來實現的。近年來,大規模模型在AIGC中變得越來越重要,因為它們提供了更好的意圖提取,從而改善了生成結果。隨著數據和模型規模的增長,模型可以學習的分布變得更加全面和接近現實,從而產生更加真實和高質量的內容。**本文全面回顧了生成模型的歷史,基本組件,以及AIGC的最新進展,從單模態交互和多模態交互。**從單模態的角度,介紹了文本和圖像的生成任務和相關模型。從多模態的角度出發,介紹上述模態之間的交叉應用。最后討論了AIGC存在的開放問題和未來的挑戰。
1. 引言
近年來,人工智能生成內容(Artificial Intelligence Generated Content, AIGC)受到了計算機科學界以外的廣泛關注,全社會開始關注大型科技公司[3]構建的各種內容生成產品,如ChatGPT[4]和DALL-E2[5]。AIGC指的是使用高級生成AI (GAI)技術生成的內容,而不是由人類作者創建的內容,AIGC可以在短時間內自動創建大量內容。例如,ChatGPT是OpenAI開發的用于構建對話式人工智能系統的語言模型,可以有效地理解并以有意義的方式響應人類的語言輸入。此外,DALL-E-2是另一個最先進的GAI模型,也是由OpenAI開發的,它能夠在幾分鐘內從文本描述中創建獨特的高質量圖像,如圖1所示的“一個宇航員以逼真的風格騎馬”。隨著AIGC的卓越成就,許多人認為這將是人工智能的新時代,并將對整個世界產生重大影響。
**從技術上講,AIGC是指給定人工指令,可以幫助教學和指導模型完成任務,利用GAI算法生成滿足指令的內容。**該生成過程通常包括兩個步驟:從人工指令中提取意圖信息和根據提取的意圖生成內容。然而,如之前的研究[6,7]所示,包含上述兩個步驟的GAI模型的范式并不完全新穎。與之前的工作相比,最近的AIGC的核心進展是在更大的數據集上訓練更復雜的生成模型,使用更大的基礎模型架構,并能夠訪問廣泛的計算資源。例如,GPT-3的主框架保持與GPT-2相同,但預訓練數據大小從WebText 8增長到CommonCrawl9,基礎模型大小從1.5B增長到175B。因此,在人類意圖提取等任務上,GPT-3比GPT-2具有更好的泛化能力。
除了數據量和計算能力增加帶來的好處,研究人員還在探索將新技術與GAI算法集成的方法。例如,ChatGPT利用來自人類反饋的強化學習(RLHF)[10-12]來確定給定指令的最適當響應,從而隨著時間的推移提高模型的可靠性和準確性。這種方法使ChatGPT能夠更好地理解人類在長對話中的偏好。同時,在計算機視覺領域,由Stability提出了穩定擴散[13]。AI在2022年也在圖像生成方面取得了巨大成功。與之前的方法不同,生成擴散模型可以通過控制探索和利用之間的權衡來幫助生成高分辨率圖像,從而將生成圖像的多樣性和與訓練數據的相似性和諧地結合起來。
結合這些進展,模型在AIGC任務上取得了顯著進展,并被應用于各個行業,包括藝術[14]、廣告[15]、教育[16]等。在不久的將來,AIGC將繼續成為機器學習的一個重要研究領域。因此,對過去的研究進行廣泛的調研并確定該領域的開放問題至關重要。對AIGC領域的核心技術和應用進行了綜述。 **這是對AIGC的首次全面綜述,從技術和應用兩個方面對GAI進行了總結。之前的研究從不同的角度關注GAI,包括自然語言生成[17],圖像生成[18],多模態機器學習中的生成[7,19]。**然而,之前的工作只關注AIGC的特定部分。本文首先回顧了AIGC中常用的基礎技術。進一步對先進的GAI算法進行了全面的總結,包括單峰生成和多峰生成,如圖2所示。此外,還討論了AIGC的應用和潛在挑戰。最后指出了該領域存在的問題和未來的研究方向。
綜上所述,本文的主要貢獻如下:
據我們所知,我們是第一個為AIGC和AI增強生成過程提供正式定義和徹底調研的人。
回顧了AIGC的歷史和基礎技術,并從單模態生成和多模態生成的角度對GAI任務和模型的最新進展進行了全面分析。
討論了AIGC面臨的主要挑戰以及AIGC未來的研究趨勢。
調研的其余部分組織如下。第二節主要從視覺模態和語言模態兩個方面回顧了AIGC的歷史。第3節介紹了目前在GAI模型訓練中廣泛使用的基本組件。第4節總結了GAI模型的最新進展,其中第4.1節從單模態角度回顧了進展,第4.2節從多模態生成的角度回顧了進展。在多模態生成中,介紹了視覺語言模型、文本音頻模型、文本圖模型和文本代碼模型。第5節和第6節介紹了GAI模型在AIGC中的應用以及與該領域相關的一些重要研究。第7、8節揭示了AIGC技術存在的風險、存在的問題和未來的發展方向。最后,我們在9中總結了我們的研究。2. 生成式人工智能的歷史生成模型在人工智能領域有著悠久的歷史,可以追溯到20世紀50年代,隱馬爾可夫模型(HMM)[20]和高斯混合模型(GMMs)[21]的發展。這些模型生成了語音和時間序列等順序數據。然而,直到深度學習的出現,生成模型才在性能上看到了顯著的改進。
在早期的深度生成模型中,不同的領域通常沒有太多的重疊。在自然語言處理(NLP)中,傳統的生成句子的方法是使用N-gram語言建模[22]學習單詞分布,然后搜索最佳序列。然而,該方法不能有效地適應長句子。為了解決這個問題,循環神經網絡(RNN)[23]后來被引入到語言建模任務中,允許對相對較長的依賴關系進行建模。隨后,長短期記憶(LSTM)[24]和門控循環單元(GRU)[25]的發育,它們利用門控機制在訓練過程中控制記憶。這些方法能夠處理樣本[26]中的約200個標記,與N-gram語言模型相比,這是一個顯著的改進。 同時,在計算機視覺(CV)領域,在基于深度學習的方法出現之前,傳統的圖像生成算法使用紋理合成[27]和紋理映射[28]等技術。這些算法基于手工設計的特征,在生成復雜多樣的圖像方面能力有限。2014年,生成對抗網絡(Generative Adversarial Networks, GANs)[29]被首次提出,在各種應用中取得了令人印象深刻的結果,是該領域的一個重要里程碑。變分自動編碼器(vae)[30]和其他方法,如擴散生成模型[31],也已開發用于對圖像生成過程進行更細粒度的控制和生成高質量圖像的能力
生成模型在不同領域的發展遵循不同的路徑,但最終出現了交叉的問題:transformer架構[32]。Vaswani等人在2017年引入了NLP任務,Transformer后來被應用于CV中,然后成為不同領域許多生成模型的主要骨干[9,33,34]。在NLP領域,許多著名的大型語言模型,如BERT和GPT,采用transformer架構作為其主要的構建塊,比之前的構建塊(如LSTM和GRU)具有優勢。在CV中,Vision Transformer (ViT)[35]和Swin Transformer[36]后來通過將Transformer架構與視覺組件相結合,進一步發展了這一概念,使其可以應用于基于圖像的下游。除了transformer給單個模態帶來的改進之外,這種交叉還使來自不同領域的模型能夠融合在一起,以完成多模態任務。多模態模型的一個例子是CLIP[37]。CLIP是一種視覺-語言聯合模型,將transformer架構與視覺組件相結合,允許它在大量文本和圖像數據上進行訓練。由于它在預訓練時結合了視覺和語言知識,因此也可以作為多模態提示生成中的圖像編碼器。總而言之,基于transformer的模型的出現徹底改變了人工智能的產生,并導致了大規模訓練的可能性。
近年來,研究人員也開始引入基于這些模型的新技術。例如,在NLP中,人們有時喜歡少樣本提示[38],而不是微調,這是指在提示中包括從數據集中選擇的一些示例,以幫助模型更好地理解任務需求。在視覺語言中,研究人員經常將特定模態模型與自監督對比學習目標相結合,以提供更魯棒的表示。在未來,隨著AIGC越來越重要,會有越來越多的技術被引入,讓這個領域充滿活力。
3. 生成式人工智能
我們將介紹最先進的單模態生成模型。這些模型被設計為接受特定的原始數據模態作為輸入,例如文本或圖像,然后以與輸入相同的模態生成預測。我們將討論這些模型中使用的一些最有前途的方法和技術,包括生成語言模型,如GPT3[9]、BART[34]、T5[56]和生成視覺模型,如GAN[29]、VAE[30]和歸一化流[57]。
多模態模型
多模態生成是當今AIGC的重要組成部分。多模態生成的目標是通過學習數據[7]的多模態連接和交互來學習生成原始模態的模型。模態之間的這種連接和相互作用有時是非常復雜的,這使得多模態表示空間與單模態表示空間相比很難學習。然而,隨著前面提到的強大的特定于模式的基礎架構的出現,越來越多的方法被提出來應對這一挑戰。在本節中,我們將介紹視覺語言生成、文本音頻生成、文本圖形生成和文本代碼生成中的最先進的多模態模型。由于大多數多模態生成模型總是與實際應用高度相關,本節主要從下游任務的角度進行介紹。
4. 應用
5. 效率
在過去的十年中,具有神經網絡的深度生成式人工智能模型一直主導著機器學習領域,其崛起歸功于2012年的ImageNet競賽[210],這導致了一場創建更深入和更復雜模型的競賽。這種趨勢也出現在自然語言理解領域,像BERT和GPT-3這樣的模型已經開發出了大量參數。然而,不斷增加的模型占用空間和復雜性,以及訓練和部署所需的成本和資源,給現實世界中的實際部署帶來了挑戰。核心挑戰是效率,可以分解如下:
推理效率: 這與部署用于推理的模型的實際考慮有關,即為給定的輸入計算模型的輸出。推理效率主要與推理期間模型的大小、速度和資源消耗(例如,磁盤和RAM使用)有關。 * 訓練效率: 這涵蓋了影響訓練模型的速度和資源需求的因素,如訓練時間、內存占用和跨多個設備的可伸縮性。它還可能包括考慮在給定任務上實現最佳性能所需的數據量。
自ChatGPT推出以來,國內學術界和科技企業相繼宣布或將推出類似機器人對話模型,有望推動大模型發展。2月7日,百度官宣“文心一言”。2月20日,復旦大學發布了類ChatGPT模型“MOSS”,并面向大眾公開邀請內測,國產大模型有望迎來爆發式增長。 需求和政策兩方面,合力推動AI產業增長。國內應用層面的需求推動AI產業的加速發展。根據IDC數據預測,2021年中國人工智能軟件及應用市場規模為51億美元,預計2026年將會達到211億美元。數據、算法、算力是AI發展的驅動力,其中數據是AI發展的基石,中國數據規模增速有望排名全球第一。政策方面,“十四五”規劃中提到“瞄準人工智能”,“聚焦人工智能關鍵算法”,加快推進“基礎算法”的“突破與迭代應用”;北京、上海、廣州等城市發布相關規劃。 頭部企業采取“模型+工具平臺+生態”三層共建模式,有助于業務的良性循環,也更容易借助長期積累形成競爭壁壘。大模型廠商主要包括百度(文心大模型)、騰訊(HunYuan大模型)、阿里(通義大模型)、商湯、華為(盤古大模型)等企業,也有智源研究院、中科院自動化所等研究機構,同時英偉達等芯片廠商也紛紛入局。大模型增強了AI技術的通用性,助力普惠AI的實現。未來,大模型有望于場景深度融合,配合專業工具和平臺支持應用落地,開放的生態來激發創新,形成良性循環。 技術發展有望促進生產效率提升,并進一步創造新的消費和需求,有利于文娛內容和互聯網行業。在AIGC和ChatGPT方面,我們建議持續關注技術發展和應用情況,把握技術催化和商業化落地帶來的投資機會:1)具備AIGC和ChatGPT的技術探索和應用的公司:百度集團-SW、商湯-W、萬興科技、拓爾思等;2)具有海量內容素材且具有AIGC探索布局的,圖片/文字/音樂/視頻內容及平臺公司騰訊控股,閱文集團、美圖公司、昆侖萬維、湯姆貓、神州泰岳、視覺中國、中文在線、漢儀股份、天娛數科、風語筑等。
結論:大模型的出現促進底層技術迭代,衍生出AIGC應用受到關注;大小模型路線分化加劇,傳統深度學習關注下游場景落地情況
回顧:AI傳統領軍全面下跌,行業多方面挑戰,宏觀經濟下行初期需求增量釋放緩慢。
落地場景需探索,人臉等已經紅海,工業、醫療等尚在早期,AI獨角獸IPO后股價表現較弱,與收入-薪酬匹配度仍然較低有關。
行業熱點在大模型:大規模預訓練+無監督,大幅提升AI效率
以GPT-3為代表的大模型,可以從大量未標記的數據中捕獲知識,極大擴展模型的泛化能力。
但仍存在缺陷:對邏輯理解欠缺,訓練成本過高,普通機構難以復現。
大模型應用:AIGC圖像生成、GPTChat、自動駕駛等成為熱點
隨著模型改進和像素提升,DALL-E2、Stable Diffusion等圖像生產AIGC應用爆發;
InstructGPT在GPTChat工具中應用效果提升,做到與人類進行談話般的交互。
重點行業AI落地場景逐一分析:智能制造、智慧倉儲物流、智慧金融、智慧醫療、智能家居等。成熟的AI應用場景正在涌現,領軍AI公司已有大量標桿案例
**刷爆的ChatGPT什么算法這么強!臺大李宏毅老師國語講解《ChatGPT (可能)是怎么煉成的 》! **
** **
** **
AIGC多模態跨模態應用逐漸成熟,市場空間廣闊。 廣義的AIGC指具備生成創造能力的AI技術,即生成式AI。可以基于訓練數據和生成算法模型,自主生成創造新的文本、圖像、音樂、視頻等內容。2022年被稱為AIGC元年,未來兼具大模型和多模態模型的AIGC模型有望成為新的技術平臺。據《中國AI數字商業產業展望2021-2025》報告,預測AI數字商業內容的市場規模將從2020年的40億元,增加到2025年的495億元。 ChatGPT產品歷經多代技術演進,產品與商業模式逐漸成熟。 ChatGPT是文本生成式AI,過去的傳統AI偏向于分析能力,主要基于已有內容;現在文本生成式AI基于底層Transformer模型,不斷訓練數據和迭代生成算法模型,歷經GPT-1、GPT-2、GPT-3,模型不斷升級,到ChatGPT的GPT3.5模型,已可以自主生成各種形式的內容。近期收費版ChatGPTPlus版本發布,AI商業化序幕逐漸拉開。 AI商業化落地在即,行業算法側和算力側投資機會有望超預期。 根據數據顯示,ChatGPT總算力消耗約為3640PF-Days,按國內的數據中心算力測算,需要7-8個數據中心才能支持其運行。各模態AI數據訓練到應用均需要算法和算力的加持,未來要想大規模應用,算法訓練和算力部署均需先行。
AIGC成為新的內容生產方式,跨模態生成值得重點關注。區別于PGC與UGC,AIGC是利用人工智能技術自動生成內容的新型生產方式。按照模態區分,AIGC可分為音頻生成、文本生成、圖像生成、視頻生成及圖像、視頻、文本間的跨模態生成,細分場景眾多,其中,跨模態生成需要重點關注。 自然語言處理(NLP)賦予了AI理解和生成能力,大規模預訓練模型是NLP的發展趨勢。NLP的兩個核心任務分別是自然語言理解(NLU)和自然語言生成(NLG)。以ELMo、BERT、GPT為代表的預訓練模型,降低了NLP的技術門檻。ELMo解決了“一詞多義”的問題;BERT通過MLM(類似于完形填空)和NLP(判斷句子是否相連)進行預訓練,增強了上下文的理解能力。GPT通過預測下一個詞,獲得了生成能力;GPT-3在此基礎上使用了更大的數據和更大模型,無需針對下游任務進行傳統的微調,并且采用了小樣本學習提升生成效果。 ChatGPT是NLP發展中具有里程碑式意義的模型之一。ChatGPT是OpenAI從GPT-3.5系列中的模型進行微調產生的聊天機器人模型。它能夠通過學習和理解人類的語言來進行對話,還能根據聊天的上下文進行互動,真正像人類一樣來聊天交流,甚至能完成撰寫郵件、視頻腳本、文案、翻譯、代碼等任務。 生成模型賦予了AI創造力,擴散模型是最前沿的技術之一。AIGC的快速發展歸功于生成算法領域的技術積累。GAN的核心思想是“生成”與“對抗”,相比傳統的深度神經網絡,GAN能產生更好的生成樣本,但是仍需解決應用中的問題。擴散模型較GAN更接近人的思維模式,是基于馬爾科夫鏈,通過學習噪聲來生成數據。擴散模型實現了跨模態應用,包括OpenAI的GLIDE和DALL·E2、谷歌的Imagen、StabilityAI的StableDiffusion等。 人工智能由單模態智能,向多種模態融合方向發展。建立統一的、跨場景、多任務的多模態基礎模型或將成為人工智能發展的主流趨勢之一。CLIP模型將語言信息和圖像信息聯合訓練,能夠鏈接文本和圖片,成為跨模態生成應用的一個重要節點,“CLIP+其他模型”在跨模態生成領域成為一種較為通用的做法。2022年,微軟提出的BEiT-3多模態基礎模型,在視覺-語言任務處理上具備出色表現,包括視覺問答、圖片描述生成和跨模態檢索等。多模態提高了基礎模型的靈活性,使其在其他模態的應用中發揮新的潛質。 未來,值得關注的技術要素包括:長文本生成、開放式文本生成、NeRF模型、擴散模型、跨模態大型預訓練模型(支持的模態數據類型、模態對齊架構設計、支持的下游應用)、小樣本學習及自監督算法、強化學習及環境學習等。
ChatGPT引領AI技術新一輪熱潮,預示著NLP技術有望迅速進入平民化應用時代。2022年11月30日,OpenAI公司上線了聊天機器人模型ChatGPT,迅速引發了全球的熱潮。ChatGPT是一種預訓練的語言大模型,采用大量的參數和大量的數據進行訓練,基于人類反饋的強化學習算法,將NLP技術和機器學習結合,極大地提升了模型算法的效率和能力。隨著ChatGPT的熱度不斷攀升,多家科技公司都開始布局ChatGPT相關技術領域,NLP技術有望迅速進入平民化應用時代。
ChatGPT具有良好的商業價值,未來應用空間廣闊。ChatGPT相關技術不僅對眾多的C端應用帶來革新,同時也將對B端應用產生重大影響,企業數字化轉型有望真正從數字化走向智能化,ChatGPT在企業辦公中的應用,具備很大的想象空間。我們認為,協同辦公類應用作為企業各類應用的入口,同時具備知識管理、流程引擎等功能,具備很強卡位價值,在把ChatGPT技術引入后,可以極大提升產品的功能與應用體驗。員工僅需給出想要辦理的流程,由ChatGPT進行智能化辦理,從而改變過去員工需要自行在OA、ERP及業務系統中完成信息錄入、功能查找、業務辦理的現狀,將極大地提升辦公效率和使用體驗。目前微軟已經將ChatGPT應用到了Dynamics365、Teams等產品線,未來將要應用到Bing搜索中,未來的商業價值空間十分可觀。 AIGC有望成為未來人工智能的重要方向,商業化模式仍需摸索。AIGC即人工智能內容生成,ChatGPT就是典型的文本生成式的AIGC,其目前的成功也有望帶動AIGC在圖像、音樂、視頻等其他領域落地。Gartner曾多次將生成式AI列為未來的重要技術趨勢,是當下最引人注目的人工智能技術之一。據Gartner預計,到2025年,生成式人工智能將占所有生成數據的10%,而目前這一比例還不到1%。隨著ChatGPT開啟付費訂閱試點,AIGC的商業化進程正式拉開帷幕。據量子位報告統計,到2030年,AIGC的市場規模將超過萬億人民幣,但由于AIGC目前產業化程度有限,大量業務場景尚未成功變現,商業模式也還處于探索階段。我們認為,在當下時點,AIGC基于其出色的降本增效能力,在企業級市場的應用前景較為明朗和穩定,在C端消費市場的商業模式仍需進一步摸索。
如同蒸汽時代的蒸汽機、電氣時代的發電機、信息時代的計算機和互聯網,人工智能正成為推動人類進入智能時代的決定性力量。全球產業界充分認識到人工智能技術引領新一輪產業變革的重大意義,紛紛轉型發展,搶灘布局人工智能創新生態。人工智能細分賽道持續創新下變革在即,本報告重點關注AIGC領域。
AIGC顛覆傳統內容產出模式,或為web3.0內容創造新引擎。AIGC本質上是一種AI賦能技術,能夠通過其高通量、低門檻、高自由度的生成能力廣泛服務于各類內容的相關場景及生產者。隨著人工智能生成能力的突破進展,內容生產已經從專業生成內容(PGC)、用戶生成內容(UGC),進入到人工智能生成內容(AIGC,AI generated content)時代,AIGC被認為是web3.0的重要基礎設施。AIGC的快速興起源于深度學習技術的快速突破和日益增長的數字內容供給需求;應用價值層面,AIGC有望成為數字內容創新發展新引擎,為數字經濟發展注入新能量。數據+算法+算力三大核心要素,決定AIGC產出質量。①數據,海量優質的應用場景數據是訓練算法精確性關鍵基礎。②算法,神經網絡、深度學習等算法是挖掘數據智能的有效方法。與傳統機器深度機器學習算法不同,神經網絡在學習范式+網絡結構上的迭代提升了AI算法的學習能力,未來多模態大模型或為核心趨勢,賦能產業空間及實踐潛力。③算力,計算機、芯片等載體為AIGC提供基本的計算能力。 AIGC技術場景中,個性化及自動化內容產出為核心價值。①技術成熟度較高結構化領域大部分是在和人力生成內容進行競爭。其中的存量價值來源于同類內容的降本增效,而增量價值則來源于跨模態的內容生成以及AI本身帶來的科技感。對內容渠道的把控將成為核心競爭力。發行商、內容最終消費渠道具有強的產業鏈話語權。②底層技術基本明確/仍待完善的原創性創作領域,本質為AI下的個性化數字內容的自動化構建。該領域重點關注和其配套數據或底層原理是否清晰、商業化路徑。目前AIGC整體影響仍十分有限,主要是中國市場供給端仍處于起步階段。 AIGC應用場景中,數字化程度高及內容需求豐富的領域有廣闊應用空間。隨著AIGC技術快速迭代,其可高效生成不同模態的信息產出(包括文字、音頻、視頻及跨模態),以真實性、多樣性、可控性及綜合性等特征,有望幫助企業提高內容生產的效率,以及為其提供更加豐富多元、動態且可交互的內容,或將率先在傳媒、電商、影視、娛樂等數字化程度高、內容需求豐富的行業取得重大創新發展。 深度學習模型+開源模式加速AIGC普及,海外AIGC已到了“快速發展階段”。①隨著深度學習模型不斷迭代,人工智能生成內容百花齊放,產出效果逐漸逼真直至人類難以分辨。2018年,人工智能生成的畫作在佳士得拍賣行以43.25萬美元成交,成為首個出售的人工智能藝術品;2019年,DeepMind發布DVD-GAN模型用以生成連續視頻;2022年11月,OpenAI上線了智能對話系統(聊天機器人)ChatGPT,引發全球熱潮。ChatGPT的成功離不開參數競賽時代下的“大模型”,顯卡等硬件優化帶來的“大算力基礎”與基于“大數據”的RLHF訓練模式。但由于訓練數據的缺乏及訓練數據的偏差,ChatGPT仍需要高成本的調優及持續訓練,進而實現商業化落地。②“開源模式”加速AIGC產業發展。以深度學習模型CLIP為例,開源模式加速CLIP模型的廣泛應用,使之成為當前最為先進的圖像分類人工智能,并讓更多機器學習從業人員將CLIP模型嫁接到其他AI應用。 中國AIGC仍處“萌芽期”,技術能力與產品形態的成熟、核心場景的確定及產業的接納態度為行業關鍵發展節點。據量子位預測,AIGC在中國發展可分為三個階段:助手階段(摸索磨合期,2021年~2026年):AIGC輔助人類進行生產,優先變現的關鍵在于編輯優化功能,行業創新關鍵能力為素材模塊分拆+個性化推薦;協作階段(推廣應用期,2026年~2028年):人機共創,主要價值為降本增效及提供創意,預計互聯網大廠將普遍布局,競爭熱度提升;原創階段(價值增長期,2028年之后):AIGC將獨立完成內容創作,產生附加價值。中國AIGC企業均在初創階段,機會也許藏在垂直應用領域中,對賽道的選擇十分關鍵。