人工智能生成內容(AIGC)是一種使用人工智能算法創造性地生成、操作和修改有價值和多樣化數據的自動化方法。本文**重點研究了ChatGPT和Dall-E等AIGC應用在移動邊緣網絡(mobile AIGC networks)中的部署,這些應用在維護用戶隱私的同時,提供個性化和定制化的實時AIGC服務。**首先介紹了生成模型的背景和基本原理以及移動AIGC網絡的AIGC服務的生命周期,其中包括數據收集、訓練、微調、推理和產品管理。然后,討論了支持AIGC服務并使用戶能夠在移動邊緣網絡訪問AIGC所需的云邊-移動協同基礎設施和技術。探索了AIGC驅動的移動AIGC網絡的創意應用和用例。此外,還討論了部署移動AIGC網絡所面臨的實現、安全和隱私方面的挑戰。最后,指出了完全實現移動AIGC網絡的未來研究方向和開放問題。
//www.zhuanzhi.ai/paper/4db7f7a43d99cc11e86982637091dba0
1. 引言
圖1移動AIGC網絡概述,包括云層、邊緣層、D2D移動層。AIGC服務的生命周期,包括數據收集、預訓練、微調、推理和產品管理,在核心網絡和邊緣網絡之間循環。
**近年來,人工智能生成內容(artificial intelligence-generated content, AIGC)已成為一種生產、操作和修改數據的新方法。**通過利用AI技術,AIGC將內容生成與傳統的專業生成內容(PGC)和用戶生成內容(UGC)[1] -[3]一起自動化。隨著數據創建的邊際成本降低到幾乎為零,AIGC(例如ChatGPT)有望為人工智能發展和數字經濟提供大量合成數據,為社會提供顯著的生產力和經濟價值。人工智能技術的不斷進步,特別是在大規模和多模態模型[4],[5]領域,推動了AIGC能力的快速增長。這一進展的一個主要例子是DALL-E[6]的開發,這是一個基于OpenAI最先進的GPT-3語言模型的人工智能系統,由1750億個參數組成,旨在通過預測連續的像素來生成圖像。在其最新迭代DALL-E2[7]中,采用擴散模型來減少訓練過程中產生的噪聲,從而生成更精細和新穎的圖像。在使用AIGC模型生成文本到圖像的背景下,語言模型起著指導作用,增強了輸入提示和結果圖像之間的語義一致性。同時,AIGC模型處理現有的圖像屬性和組件,從現有數據集生成無限的合成圖像。
**基于具有數十億個參數的大規模預訓練模型,AIGC服務旨在增強知識和創造性工作領域,這些領域雇用了數十億人。**通過利用生成式人工智能,這些領域可以實現至少10%的內容創造效率提高,可能產生數萬億美元的經濟價值。AIGC可以應用于各種形式的文本生成,從實際應用(如客戶服務查詢和消息)到創造性任務(如活動跟蹤和營銷文案[9])。例如,OpenAI的ChatGPT[10]可以根據用戶提供的提示自動生成有社會價值的內容。通過與ChatGPT進行廣泛而連貫的對話,來自各行各業的人可以在調試代碼、發現健康食譜、編寫腳本和設計營銷活動方面尋求幫助。在圖像生成領域,AIGC模型可以根據現有圖像的屬性和成分處理現有圖像,實現端到端的圖像合成,如直接從現有的[7]圖像生成完整的圖像。此外,AIGC模型在跨模態生成方面具有巨大的潛力,因為它們可以在空間上處理現有的視頻屬性,并同時自動處理多個視頻片段[11]。
與PGC和UGC相比,AIGC在內容創造方面的優勢已經顯而易見。具體來說,生成式AI模型可以在幾秒鐘內產生高質量的內容,并提供為用戶需求量身定制的個性化內容[2]。隨著時間的推移,AIGC的性能得到了顯著提高,這是由增強的模型、增加的數據可用性和更大的計算能力[12]驅動的。一方面,先進的模型[4],如擴散模型,為跨模態AIGC生成提供了更強大的工具。這些進展歸功于生成式人工智能模型的基礎性研究,以及生成式深度神經網絡(DNN)中學習范式和網絡結構的不斷細化。另一方面,隨著網絡日益互聯,用于生成式人工智能訓練和推理的數據和計算能力變得更加容易獲得[9],[13]。例如,需要數千個GPU的AIGC模型可以在云數據中心進行訓練和執行,使用戶能夠通過核心網絡提交頻繁的數據生成請求。
盡管AIGC具有革新現有生產流程的潛力,但在移動設備上訪問AIGC服務的用戶目前缺乏對交互式和資源密集型數據生成服務[14],[25]的支持。首先,可以利用云數據中心強大的計算能力訓練AIGC預訓練模型,如用于ChatGPT的GPT-3和用于ChatGPT Plus的GPT-4。用戶通過在云服務器上執行AIGC模型,通過核心網絡訪問基于云的AIGC服務。然而,由于其遠程特性,云服務具有較高的延遲。因此,在移動邊緣網絡,即圖1所示的移動AIGC網絡上部署交互密集型的AIGC業務,應該是一個更實際的選擇[26]-[28]。具體而言,開發移動AIGC網絡的動機包括:
低延遲:用戶可以訪問移動AIGC網絡[29]中的低延遲服務,而不是將AIGC服務請求定向到核心網內的云服務器。例如,用戶可以通過將預訓練模型下載到邊緣服務器和移動設備進行微調和推理,直接在無線接入網絡(RANs)中獲得AIGC服務,從而支持實時、交互式的AIGC。
本地化和移動性:在移動AIGC網絡中,在網絡邊緣設有計算服務器的基站可以通過本地化服務請求[30]、[31]來微調預訓練模型。此外,用戶的位置可以作為AIGC微調和推理的輸入,解決特定的地理需求。此外,用戶移動性可以集成到AIGC服務提供過程中,實現動態、可靠的AIGC服務提供。
自定義和個性化:本地邊緣服務器可以適應本地用戶需求,允許用戶根據自己的偏好請求個性化服務,同時根據本地服務環境提供定制化服務。一方面,邊緣服務器通過對AIGC服務[2]進行相應微調,可以根據本地用戶群體的需求定制AIGC服務;另一方面,用戶可以通過指定偏好向邊緣服務器請求個性化服務。
隱私和安全:AIGC用戶只需要向邊緣服務器提交服務請求,而不需要將偏好發送到核心網絡內的云服務器。因此,AIGC用戶的隱私和安全可以在AIGC服務的提供過程中得到保護,包括服務的微調和推斷。
如圖1所示,當用戶通過邊緣服務器和移動設備在移動邊緣網絡上訪問AIGC服務時,有限的計算、通信和存儲資源為交付交互式和資源密集型的AIGC服務帶來了挑戰。首先,邊緣服務器上的資源分配必須權衡邊緣服務器AIGC服務的準確性、延遲和能耗。此外,計算密集型的AIGC任務可以從移動設備卸載到邊緣服務器,提高推理延遲和服務可靠性。此外,生成內容的AI模型可以被緩存在邊緣網絡中,類似于內容分發網絡(CDN)[32],[33],以減少訪問模型的延遲。最后,探索移動性管理和激勵機制,在空間和時間上鼓勵用戶參與。與傳統人工智能相比,AIGC技術需要算法的整體技術成熟度、透明性、魯棒性、公正性和洞察力,才能有效地應用于實際。從可持續性的角度來看,AIGC可以使用現有的和合成的數據集作為生成新數據的原材料。然而,當有偏數據被用作原始數據時,這些偏差會持續存在于模型的知識中,這不可避免地導致算法的結果不公平。最后,靜態AIGC模型主要依賴模板來生成機器生成的內容,這些內容可能具有類似的文本和輸出結構。
本文概述了與AIGC和移動邊緣智能相關的研究活動,如圖2所示。鑒于人們對AIGC的興趣日益增加,最近發表了一些相關主題的調研報告。表一列出了這些調查與本文的比較。
**[34]中的研究提供了研究人員和行業發表的當前AIGC模型的全面概述。**作者確定了9個類別,總結了生成式人工智能模型的演變,包括文本到文本、文本到圖像、文本到音頻、文本到視頻、文本到3D、文本到代碼、文本到科學、圖像到文本和其他模型。此外,他們揭示,只有6個具有巨大計算能力和高技能和經驗豐富的團隊可以部署這些最先進的模型,這甚至比類別的數量還要少。按照[34]中開發的生成式AI模型的分類法,其他調研隨后詳細討論了生成式AI模型。在[9]中的研究檢查了現有的生成文本和檢測模型的方法。[18]的研究提供了多模態圖像合成和處理的主要方法、數據集和評估指標的全面概述。[24]的研究基于語音和圖像合成技術,總結了現有的基于深度生成模型的同步語音手勢生成工作。在[16]上的研究探討了與人工智能生成音樂相關的版權法,其中包括人工智能工具、開發者、用戶和公共領域之間的復雜交互。[4]中的研究為高級生成模型提供了全面的指導和比較,包括GAN、基于能量的模型、變分自編碼器(VAE)、自回歸模型、基于流的模型和擴散模型。隨著擴散模型在產生創造性數據方面受到廣泛關注,對[21]的研究給出了擴散模型的基本算法和全面分類。基于這些算法,作者[1]從藝術分析人工智能和藝術創作人工智能兩個角度闡述了藝術與人工智能的互動。此外,作者還在[2]中討論了在元宇宙中應用計算藝術來創建超現實的網絡空間。
圖3:本次調研的大綱,介紹了移動邊緣網絡的AIGC服務提供,并強調了移動邊緣網絡在提供AIGC服務方面的一些基本實現挑戰。
在6G[19]中,針對智能移動網絡,引入了基于邊緣計算系統的移動邊緣智能,包括邊緣緩存、邊緣計算和邊緣智能。[17]研究探討了分布式學習在無線網絡中的部署。研究[15]為聯邦學習提供了指南,并對在移動邊緣網絡中實現聯邦學習(FL)進行了全面概述。作者詳細分析了實現FL所面臨的挑戰,包括通信成本、資源分配、隱私和安全。在[12]中,詳細介紹了邊緣智能和智能邊緣的各種應用場景和技術。此外,[20]研究還討論了6G無線網絡低功耗、低延遲、可靠可信邊緣智能的前景和潛力。[22]研究探索了區塊鏈技術如何用于實現邊緣智能,以及邊緣智能如何支持區塊鏈在移動邊緣網絡的部署。對區塊鏈驅動的邊緣智能、邊緣智能友好的區塊鏈及其在移動邊緣網絡中的實現進行了全面的綜述。[23]還提供了在移動邊緣網絡實現元宇宙的愿景。詳細討論了使能技術和挑戰,包括通信與網絡、計算和區塊鏈。
與現有的調研和教程不同,本文的調研集中于移動AIGC網絡的部署,以提供實時和隱私保護的AIGC服務。介紹了移動邊緣網絡中AIGC和協同基礎設施的發展現狀。隨后,介紹了深度生成模型技術以及在移動AIGC網絡中提供AIGC服務的工作流程。此外,還展示了創造性的應用程序和幾個示范用例。確定了移動AIGC網絡部署的實現挑戰,從資源分配到安全和隱私**。我們的調研貢獻如下**。
-我們首先提供一個教程,建立AIGC服務的定義、生命周期、模型和指標。然后,提出了移動AIGC網絡,即在移動邊緣網絡上提供AIGC服務,與移動邊緣-云協作的通信、計算和存儲基礎設施。
-介紹了移動AIGC網絡中的幾個用例,包括用于文本、圖像、視頻和3D內容生成的創造性AIGC應用程序。總結了基于這些用例構建移動AIGC網絡的優勢。
-確定了實現移動AIGC網絡的關鍵實現挑戰。移動AIGC網絡的實施挑戰不僅來自于動態的信道條件,還來自于AIGC服務中無意義內容、不安全內容規則和隱私泄露。
-最后,分別從網絡與計算、機器學習(ML)和實際實現考慮等角度討論了未來的研究方向和開放問題。
如圖3所示,調研的組織如下。第二節考察了AIGC的背景和基礎。第三部分介紹了移動AIGC網絡的技術和協作基礎設施。第四節討論了移動AIGC網絡的應用和優勢,第五節展示了潛在的用例。第六節討論了實現中的挑戰。第七部分探討了未來的研究方向。第八節提出結論。
為應對數字經濟中數字智能的挑戰,人工智能生成內容(artificial intelligence-generated content, AIGC)應運而生。AIGC通過根據用戶輸入的關鍵字或需求生成內容,使用人工智能來輔助或取代人工內容生成。大型模型算法的發展大大增強了AIGC的能力,這使得AIGC產品成為一種很有前途的生成工具,也為我們的生活增添了便利。AIGC作為一種上游技術,在支持下游應用方面具有無限的潛力。重要的是要分析AIGC當前的功能和缺點,以了解如何在未來的應用中最好地利用它。因此,本文對AIGC的定義、基本條件、前沿功能和高級特性進行了較為全面的綜述。此外,還討論了大規模預訓練模型的優勢和AIGC的產業鏈。此外,文章還探討了AIGC中輔助生成和自動生成之間的區別,并提供了文本生成的示例。本文還探討了AIGC與元宇宙的潛在集成。最后指出了存在的問題和未來的發展方向。1. 引言隨著Web 3.0仍處于蓬勃發展階段[1],人工智能(AI)1已被證明是許多具有挑戰性任務的有效工具,如生成內容、分類和理解。近年來,人工智能的一些進步已經幫助該技術完成了比以前更復雜的任務,例如理解輸入數據,然后生成內容。人工智能生成內容(Artificial Intelligence Generated Content, AIGC)是對專業生成內容(Professional Generated Content, PGC)、用戶生成內容(User Generated Content, UGC)[2]、[3]等傳統內容創作方式的補充。AIGC根據AI技術生成滿足用戶需求的內容。它被認為是一項有前途的技術,有許多應用。因此,了解AIGC的能力和局限性對于充分挖掘其潛力至關重要。
事實上,AIGC的起源可以追溯到更早的時期。其發展歷史大致可以分為三個階段(如圖1所示)。在第一個階段,研究者通過最原始的編程技術控制計算機實現內容的輸出。希勒和艾薩克森在1957年完成了世界上第一首用電腦完成的音樂《伊利亞特組曲》。然后,世界上第一個人機交互機器人Eliza誕生了。Eliza顯示了通過模式匹配和智能短語搜索適當答案的能力,但不反映語義理解。然而,現在大多數人仍然將Eliza視為人工智能的靈感來源。此后二十年,為沉積堆積階段。第二階段假設AIGC的可用性是由于大規模數據庫可用性的提高和計算設備性能的提高。《路》是世界上第一部完全由人工智能創作的小說。隨后,微軟還展示了一個全自動同聲傳譯系統,該系統能夠在短時間內將英語語音翻譯成漢語,準確率達到[4]。然而,算法瓶頸直接限制了AIGC生成豐富內容的能力。第三階段開始于2010年,AIGC進入快速發展階段。Goodfellow[5]提出了一種通用對抗網絡(GAN),利用現有數據生成圖片。在2022年,OpenAI發布了一個新的聊天機器人模型,稱為ChatGPT。它能夠理解人類的語言,并像人類一樣生成文本。月活躍用戶在兩個月內突破1億。20235年1月,每天大約有1300萬獨立訪問者使用ChatGPT。隨著ChatGPT等產品的不斷完善,AIGC顯示出了巨大的應用潛力和商業價值。它引起了企業家、投資者、學者和公眾的廣泛關注。
目前AIGC的內容質量明顯優于以前。此外,AIGC內容的類型也更加豐富,包括文本、圖像、視頻、代碼等。表一列出了一些AIGC型號或各大科技公司開發的經典產品及其應用。ChatGPT是一個基于大型語言模型(LLM)的機器學習系統。在經過幽默的大型文本數據集的訓練后,LLM不僅擅長生成合理的對話,而且還能生成引人注目的片段(如故事和文章)。由于其獨特的人類反饋訓練過程,ChatGPT能夠更精確地理解人類的思維。谷歌聲稱他們即將推出的產品Bard將具有相同的功能,但更側重于生成對話。與ChatGPT相比,Bard可以利用外部知識源,通過提供自然語言問題的答案而不是搜索結果來幫助用戶解決問題。此外,微軟的Turning-NLG是一個擁有170億個參數的LLM,它適用于摘要、翻譯和問答。
擴散模型是圖像生成領域的前沿方法。它的簡單交互和快速生成功能大大降低了進入門檻。幾個流行的應用程序,如Disco Diffusion、Stable Diffusion和Midjourney,已經在社交媒體上產生了指數級的討論和作品展示。NVIDIA是視覺生成研究的先驅。他們的產品(即StyleGAN)是一種最先進的高分辨率圖像合成方法,專門用于圖像生成、藝術和設計。此外,由于不同行業對生成圖片的不同要求,StyleGAN為幾個初創公司提供了機會。例如,Looka專注于logo和網站設計,而Lensa專注于頭像生成。GAN已經能夠生成極其逼真的圖像。DeepMind正試圖將其應用于生成視頻領域。他們提出的模型稱為雙視頻鑒別器GAN (DVD-GAN)[6],可以通過計算高效的鑒別器分解生成更長和更高分辨率的視頻。DVD-GAN是對現實視頻生成的探索。
為了給相關學者和研究人員提供更多的見解和思路,本文重點關注AIGC相關問題,并總結了該領域的新興概念。此外,討論了未來AIGC可能遇到的潛在挑戰和問題,如在道德標準上缺乏全球共識,以及人工智能濫用和濫用的潛在風險。最后,對AIGC的發展和部署提出了展望。我們認為AIGC將為人類實現更便捷的服務和更高的生活質量。本文的主要貢獻如下。
本文給出了AIGC的定義,并討論了其關鍵條件。然后,通過闡述AIGC的3個前沿功能和6個高級特征來展示AIGC帶來的巨大影響。
進一步詳細描述了AIGC的產業鏈,并列出了AIGC中采用的大型預訓練模型的幾個優點。
為揭示AIGC中輔助生成和自動生成之間的差異,本文對文本生成、人工智能輔助寫作和人工智能生成寫作示例進行了深入的討論和分析。
從實際應用的角度,總結了AIGC的優缺點,然后介紹了AIGC與Metaverse的結合。
最后,指出了AIGC目前需要解決的幾個問題,并提出了未來應用的一些方向。
2. 人工智能生成內容(AIGC) 內涵
人工智能生成內容(AIGC)是指由機器生成的博客、營銷材料、文章、產品描述等內容。如圖3所示,AIGC經歷了三種不同的內容生成模式。在PGC模式下,內容由專業團隊[7]、[8]生成。PGC的優點是生成的內容大多是高質量的,但生產周期長,難以滿足產出的數量需求。在UGC模式下,用戶可以選擇多種創作工具自行完成內容生成[9]、[10]。UGC的優勢在于使用這些創意工具可以降低創作的門檻和成本,提高用戶參與創作的積極性。UGC的劣勢在于創作者水平參差不齊,產出內容的質量難以保證。AIGC可以克服PGC和UGC在數量和質量上的不足。它有望成為未來內容生成的主要模式。在AIGC模式中,AI技術利用專業知識提高內容生成的質量,也節省了時間。
如圖4所示,AIGC由三個關鍵部分組成: 數據、硬件和算法。音頻、文本和圖像等高質量數據是訓練算法的基本構建塊。數據量和數據源對[20]預測的準確性有至關重要的影響。硬件,特別是計算能力,構成了AIGC的基礎設施。隨著人們對計算能力需求的不斷增長,更快、更強大的芯片以及云計算解決方案已經變得必不可少。硬件應該能夠處理tb級的數據和具有數百萬個參數的算法。加速芯片與云計算的結合對于提供高效運行大型模型[21]所需的計算能力起著至關重要的作用。最終,算法的性能決定了內容生成的質量,而數據和硬件的支持對于實現最優結果至關重要。
AIGC產業鏈是一個從上游到下游相互關聯的生態系統。如圖8所示,下游應用嚴重依賴上游產品的基礎支持。數據供應商、算法機構、硬件開發機構是上游AIGC的主要組成部分。數據供應商利用網絡爬行技術從新聞網站、博客和社交媒體收集大量文本。然后,利用自然語言處理技術[48]對這些野生數據進行自動標記或處理。算法機構通常由一群經驗豐富的計算機科學家和數學家組成,他們具有深厚的理論背景和實踐經驗。他們可以開發高效準確的算法來解決各種復雜問題。硬件開發機構專注于開發專用芯片、處理器、加速器卡等硬件設備,以加速AI算法的計算速度和響應能力。
大規模人工智能模型是人工智能向通用智能發展的一個重要里程碑。大規模模型的使用明確表明AIGC具有更強的泛化能力。盡管通用數據的激增和可靠數據的缺乏帶來了挑戰,但深度學習完全依賴模型從數據中自動學習,從而顯著提高性能。大規模模型同時具有大規模和預訓練的特點,需要在為實際任務建模之前對大量廣義數據進行預訓練。這些模型被稱為大規模預訓練模型[53]。事實上,AI的大規模模型可以看作是對人類大腦的模擬,這是AI的靈感來源[54]。事實上,人腦是一個具有基本認知能力[55]的大規模模型。人類大腦可以高效地處理來自不同感官的信息,并同時執行不同的認知任務。因此,人工智能大規模模型不僅期望具有眾多參與者,而且能夠有效地理解多模態信息,跨模態感知,并同時在不同任務之間遷移或執行。人工智能大規模模型理解人類思維準確率的提高歸功于基于人類反饋數據訓練模型[56]的系統。
如圖9所示,開發大規模預訓練模型的過程可以分為三個主要步驟。第一步是收集解釋性數據來訓練監督學習策略。第二步涉及收集比較數據來訓練獎勵模型,這使模型能夠做出更準確的預測。最后一步是收集解釋性數據,使用增強學習技術優化模型。這將提高模型的性能和效率
3. 應用
隨著硬件和算法的快速發展,AIGC的應用前景更加廣闊。我們認為AIGC最具潛力的方向包括跨模態生成、搜索引擎優化、媒體制作、電商、電影制作等領域,如圖13所示。
4. 結論
近年來,在海量高質量數據和高性能硬件的支持下,許多用于大型模型的算法得到了快速發展。這些算法不僅具有理解文本的能力,而且具有輔助或自動生成豐富內容的能力。ChatGPT等應用實例展示了AIGC技術的商業價值和應用性能,在短時間內引起了眾多一線企業的廣泛關注和投資。本文簡要介紹了AIGC技術,并闡述了它的特點。此外,還對AIGC能力的優勢和劣勢進行了比較分析。然而,AIGC的發展仍然面臨著許多挑戰和機遇。本文還對AIGC面臨的挑戰和未來方向提出了見解。最后,希望本文的綜述能為學術界、產業界和企業界的發展提供有益的思路,為AIGC領域的進一步探索提供有價值的思考方向和見解。
Artificial Intelligence-Generated Content (AIGC) is an automated method for generating, manipulating, and modifying valuable and diverse data using AI algorithms creatively. This survey paper focuses on the deployment of AIGC applications, e.g., ChatGPT and Dall-E, at mobile edge networks, namely mobile AIGC networks, that provide personalized and customized AIGC services in real time while maintaining user privacy. We begin by introducing the background and fundamentals of generative models and the lifecycle of AIGC services at mobile AIGC networks, which includes data collection, training, finetuning, inference, and product management. We then discuss the collaborative cloud-edge-mobile infrastructure and technologies required to support AIGC services and enable users to access AIGC at mobile edge networks. Furthermore, we explore AIGCdriven creative applications and use cases for mobile AIGC networks. Additionally, we discuss the implementation, security, and privacy challenges of deploying mobile AIGC networks. Finally, we highlight some future research directions and open issues for the full realization of mobile AIGC networks.
1、ChatGPT火爆的背后:算法革新+算力支持+數據共振 ChatGPT引起全球熱烈反響,上線僅五天用戶突破百萬,ChatGPT在文本交互和語言理解方面能力的顯著進步或為通用人工智能的實現帶來曙光。究其先進性根本,ChatGPT在以往基礎上推進算法革新優化,輔以強大算力支持,并以大規模數據共振,協同助推這一劃時代產品誕生。OpenAI以B端提供API接口流量+C端訂閱收費模式,探索ChatGPT商業化路徑。展望未來AI將橫縱向并行,結合技術深化與能力邊界拓展,進一步鋪開應用面。 2、數字內容生產新方式——AIGC AIGC的興起推動人類叩響強人工智能之門,可應用于文本、音頻、圖片、視頻、跨模態、策略生成等,有望開啟新一輪內容生產力革命。隨著Transformer、DiffusionModel等算力模型的迭代,推動AIGC在設計、內容創作、游戲智能、機器交互等領域實現降本增效。 3、新時代生產力工具,AIGC賦能內容生產 基于AI生成內容技術,AIGC已在游戲、廣告營銷、影視、媒體、互聯網、娛樂等領域初顯成效,并展現出較大的潛力。 AIGC將推動游戲生產范式升級,并豐富游戲資產生成,高效輔助游戲測試,使制作成本顯著降低,全流程賦能游戲買量; AIGC貫穿廣告營銷全流程,將優化案頭工作環節,提供更專業的個性化營銷方案,并充實廣告素材,實現廣告自動化生成; AIGC提升影視行業全管線效率。影視劇本創作已初見成效,多AI技術將助力電影中期拍攝,后期制作將更快完成; AIGC帶給媒體行業人機協作方案。新聞寫作編排效率提升,傳媒向智媒轉向開啟新篇章; AIGC提供互聯網行業豐富內容,和更便捷的服務。ChatGPT賦能智慧搜索,互為供給加速發展內容平臺發展,虛擬結合激發電商沉浸式體驗; AIGC為娛樂行業提供了更多樣的體驗。人際交互娛樂邁入新臺階,AIGC或成元宇宙之匙。
最近,ChatGPT與DALL-E-2[1]和Codex[2]一起受到了社會的廣泛關注。因此,許多人對相關資源感興趣,并試圖揭開其令人印象深刻的性能背后的背景和秘密。**事實上,ChatGPT和其他生成式AI (GAI)技術屬于人工智能生成內容(AIGC)的范疇,它涉及通過AI模型創建數字內容,如圖像、音樂和自然語言。AIGC的目標是使內容創建過程更加高效和可訪問,允許以更快的速度生產高質量的內容。**AIGC是通過從人類提供的指令中提取和理解意圖信息,并根據其知識和意圖信息生成內容來實現的。近年來,大規模模型在AIGC中變得越來越重要,因為它們提供了更好的意圖提取,從而改善了生成結果。隨著數據和模型規模的增長,模型可以學習的分布變得更加全面和接近現實,從而產生更加真實和高質量的內容。**本文全面回顧了生成模型的歷史,基本組件,以及AIGC的最新進展,從單模態交互和多模態交互。**從單模態的角度,介紹了文本和圖像的生成任務和相關模型。從多模態的角度出發,介紹上述模態之間的交叉應用。最后討論了AIGC存在的開放問題和未來的挑戰。
1. 引言
近年來,人工智能生成內容(Artificial Intelligence Generated Content, AIGC)受到了計算機科學界以外的廣泛關注,全社會開始關注大型科技公司[3]構建的各種內容生成產品,如ChatGPT[4]和DALL-E2[5]。AIGC指的是使用高級生成AI (GAI)技術生成的內容,而不是由人類作者創建的內容,AIGC可以在短時間內自動創建大量內容。例如,ChatGPT是OpenAI開發的用于構建對話式人工智能系統的語言模型,可以有效地理解并以有意義的方式響應人類的語言輸入。此外,DALL-E-2是另一個最先進的GAI模型,也是由OpenAI開發的,它能夠在幾分鐘內從文本描述中創建獨特的高質量圖像,如圖1所示的“一個宇航員以逼真的風格騎馬”。隨著AIGC的卓越成就,許多人認為這將是人工智能的新時代,并將對整個世界產生重大影響。
**從技術上講,AIGC是指給定人工指令,可以幫助教學和指導模型完成任務,利用GAI算法生成滿足指令的內容。**該生成過程通常包括兩個步驟:從人工指令中提取意圖信息和根據提取的意圖生成內容。然而,如之前的研究[6,7]所示,包含上述兩個步驟的GAI模型的范式并不完全新穎。與之前的工作相比,最近的AIGC的核心進展是在更大的數據集上訓練更復雜的生成模型,使用更大的基礎模型架構,并能夠訪問廣泛的計算資源。例如,GPT-3的主框架保持與GPT-2相同,但預訓練數據大小從WebText 8增長到CommonCrawl9,基礎模型大小從1.5B增長到175B。因此,在人類意圖提取等任務上,GPT-3比GPT-2具有更好的泛化能力。
除了數據量和計算能力增加帶來的好處,研究人員還在探索將新技術與GAI算法集成的方法。例如,ChatGPT利用來自人類反饋的強化學習(RLHF)[10-12]來確定給定指令的最適當響應,從而隨著時間的推移提高模型的可靠性和準確性。這種方法使ChatGPT能夠更好地理解人類在長對話中的偏好。同時,在計算機視覺領域,由Stability提出了穩定擴散[13]。AI在2022年也在圖像生成方面取得了巨大成功。與之前的方法不同,生成擴散模型可以通過控制探索和利用之間的權衡來幫助生成高分辨率圖像,從而將生成圖像的多樣性和與訓練數據的相似性和諧地結合起來。
結合這些進展,模型在AIGC任務上取得了顯著進展,并被應用于各個行業,包括藝術[14]、廣告[15]、教育[16]等。在不久的將來,AIGC將繼續成為機器學習的一個重要研究領域。因此,對過去的研究進行廣泛的調研并確定該領域的開放問題至關重要。對AIGC領域的核心技術和應用進行了綜述。 **這是對AIGC的首次全面綜述,從技術和應用兩個方面對GAI進行了總結。之前的研究從不同的角度關注GAI,包括自然語言生成[17],圖像生成[18],多模態機器學習中的生成[7,19]。**然而,之前的工作只關注AIGC的特定部分。本文首先回顧了AIGC中常用的基礎技術。進一步對先進的GAI算法進行了全面的總結,包括單峰生成和多峰生成,如圖2所示。此外,還討論了AIGC的應用和潛在挑戰。最后指出了該領域存在的問題和未來的研究方向。
綜上所述,本文的主要貢獻如下:
據我們所知,我們是第一個為AIGC和AI增強生成過程提供正式定義和徹底調研的人。
回顧了AIGC的歷史和基礎技術,并從單模態生成和多模態生成的角度對GAI任務和模型的最新進展進行了全面分析。
討論了AIGC面臨的主要挑戰以及AIGC未來的研究趨勢。
調研的其余部分組織如下。第二節主要從視覺模態和語言模態兩個方面回顧了AIGC的歷史。第3節介紹了目前在GAI模型訓練中廣泛使用的基本組件。第4節總結了GAI模型的最新進展,其中第4.1節從單模態角度回顧了進展,第4.2節從多模態生成的角度回顧了進展。在多模態生成中,介紹了視覺語言模型、文本音頻模型、文本圖模型和文本代碼模型。第5節和第6節介紹了GAI模型在AIGC中的應用以及與該領域相關的一些重要研究。第7、8節揭示了AIGC技術存在的風險、存在的問題和未來的發展方向。最后,我們在9中總結了我們的研究。2. 生成式人工智能的歷史生成模型在人工智能領域有著悠久的歷史,可以追溯到20世紀50年代,隱馬爾可夫模型(HMM)[20]和高斯混合模型(GMMs)[21]的發展。這些模型生成了語音和時間序列等順序數據。然而,直到深度學習的出現,生成模型才在性能上看到了顯著的改進。
在早期的深度生成模型中,不同的領域通常沒有太多的重疊。在自然語言處理(NLP)中,傳統的生成句子的方法是使用N-gram語言建模[22]學習單詞分布,然后搜索最佳序列。然而,該方法不能有效地適應長句子。為了解決這個問題,循環神經網絡(RNN)[23]后來被引入到語言建模任務中,允許對相對較長的依賴關系進行建模。隨后,長短期記憶(LSTM)[24]和門控循環單元(GRU)[25]的發育,它們利用門控機制在訓練過程中控制記憶。這些方法能夠處理樣本[26]中的約200個標記,與N-gram語言模型相比,這是一個顯著的改進。 同時,在計算機視覺(CV)領域,在基于深度學習的方法出現之前,傳統的圖像生成算法使用紋理合成[27]和紋理映射[28]等技術。這些算法基于手工設計的特征,在生成復雜多樣的圖像方面能力有限。2014年,生成對抗網絡(Generative Adversarial Networks, GANs)[29]被首次提出,在各種應用中取得了令人印象深刻的結果,是該領域的一個重要里程碑。變分自動編碼器(vae)[30]和其他方法,如擴散生成模型[31],也已開發用于對圖像生成過程進行更細粒度的控制和生成高質量圖像的能力
生成模型在不同領域的發展遵循不同的路徑,但最終出現了交叉的問題:transformer架構[32]。Vaswani等人在2017年引入了NLP任務,Transformer后來被應用于CV中,然后成為不同領域許多生成模型的主要骨干[9,33,34]。在NLP領域,許多著名的大型語言模型,如BERT和GPT,采用transformer架構作為其主要的構建塊,比之前的構建塊(如LSTM和GRU)具有優勢。在CV中,Vision Transformer (ViT)[35]和Swin Transformer[36]后來通過將Transformer架構與視覺組件相結合,進一步發展了這一概念,使其可以應用于基于圖像的下游。除了transformer給單個模態帶來的改進之外,這種交叉還使來自不同領域的模型能夠融合在一起,以完成多模態任務。多模態模型的一個例子是CLIP[37]。CLIP是一種視覺-語言聯合模型,將transformer架構與視覺組件相結合,允許它在大量文本和圖像數據上進行訓練。由于它在預訓練時結合了視覺和語言知識,因此也可以作為多模態提示生成中的圖像編碼器。總而言之,基于transformer的模型的出現徹底改變了人工智能的產生,并導致了大規模訓練的可能性。
近年來,研究人員也開始引入基于這些模型的新技術。例如,在NLP中,人們有時喜歡少樣本提示[38],而不是微調,這是指在提示中包括從數據集中選擇的一些示例,以幫助模型更好地理解任務需求。在視覺語言中,研究人員經常將特定模態模型與自監督對比學習目標相結合,以提供更魯棒的表示。在未來,隨著AIGC越來越重要,會有越來越多的技術被引入,讓這個領域充滿活力。
3. 生成式人工智能
我們將介紹最先進的單模態生成模型。這些模型被設計為接受特定的原始數據模態作為輸入,例如文本或圖像,然后以與輸入相同的模態生成預測。我們將討論這些模型中使用的一些最有前途的方法和技術,包括生成語言模型,如GPT3[9]、BART[34]、T5[56]和生成視覺模型,如GAN[29]、VAE[30]和歸一化流[57]。
多模態模型
多模態生成是當今AIGC的重要組成部分。多模態生成的目標是通過學習數據[7]的多模態連接和交互來學習生成原始模態的模型。模態之間的這種連接和相互作用有時是非常復雜的,這使得多模態表示空間與單模態表示空間相比很難學習。然而,隨著前面提到的強大的特定于模式的基礎架構的出現,越來越多的方法被提出來應對這一挑戰。在本節中,我們將介紹視覺語言生成、文本音頻生成、文本圖形生成和文本代碼生成中的最先進的多模態模型。由于大多數多模態生成模型總是與實際應用高度相關,本節主要從下游任務的角度進行介紹。
4. 應用
5. 效率
在過去的十年中,具有神經網絡的深度生成式人工智能模型一直主導著機器學習領域,其崛起歸功于2012年的ImageNet競賽[210],這導致了一場創建更深入和更復雜模型的競賽。這種趨勢也出現在自然語言理解領域,像BERT和GPT-3這樣的模型已經開發出了大量參數。然而,不斷增加的模型占用空間和復雜性,以及訓練和部署所需的成本和資源,給現實世界中的實際部署帶來了挑戰。核心挑戰是效率,可以分解如下:
推理效率: 這與部署用于推理的模型的實際考慮有關,即為給定的輸入計算模型的輸出。推理效率主要與推理期間模型的大小、速度和資源消耗(例如,磁盤和RAM使用)有關。 * 訓練效率: 這涵蓋了影響訓練模型的速度和資源需求的因素,如訓練時間、內存占用和跨多個設備的可伸縮性。它還可能包括考慮在給定任務上實現最佳性能所需的數據量。
AIGC成為新的內容生產方式,跨模態生成值得重點關注。區別于PGC與UGC,AIGC是利用人工智能技術自動生成內容的新型生產方式。按照模態區分,AIGC可分為音頻生成、文本生成、圖像生成、視頻生成及圖像、視頻、文本間的跨模態生成,細分場景眾多,其中,跨模態生成需要重點關注。 自然語言處理(NLP)賦予了AI理解和生成能力,大規模預訓練模型是NLP的發展趨勢。NLP的兩個核心任務分別是自然語言理解(NLU)和自然語言生成(NLG)。以ELMo、BERT、GPT為代表的預訓練模型,降低了NLP的技術門檻。ELMo解決了“一詞多義”的問題;BERT通過MLM(類似于完形填空)和NLP(判斷句子是否相連)進行預訓練,增強了上下文的理解能力。GPT通過預測下一個詞,獲得了生成能力;GPT-3在此基礎上使用了更大的數據和更大模型,無需針對下游任務進行傳統的微調,并且采用了小樣本學習提升生成效果。 ChatGPT是NLP發展中具有里程碑式意義的模型之一。ChatGPT是OpenAI從GPT-3.5系列中的模型進行微調產生的聊天機器人模型。它能夠通過學習和理解人類的語言來進行對話,還能根據聊天的上下文進行互動,真正像人類一樣來聊天交流,甚至能完成撰寫郵件、視頻腳本、文案、翻譯、代碼等任務。 生成模型賦予了AI創造力,擴散模型是最前沿的技術之一。AIGC的快速發展歸功于生成算法領域的技術積累。GAN的核心思想是“生成”與“對抗”,相比傳統的深度神經網絡,GAN能產生更好的生成樣本,但是仍需解決應用中的問題。擴散模型較GAN更接近人的思維模式,是基于馬爾科夫鏈,通過學習噪聲來生成數據。擴散模型實現了跨模態應用,包括OpenAI的GLIDE和DALL·E2、谷歌的Imagen、StabilityAI的StableDiffusion等。 人工智能由單模態智能,向多種模態融合方向發展。建立統一的、跨場景、多任務的多模態基礎模型或將成為人工智能發展的主流趨勢之一。CLIP模型將語言信息和圖像信息聯合訓練,能夠鏈接文本和圖片,成為跨模態生成應用的一個重要節點,“CLIP+其他模型”在跨模態生成領域成為一種較為通用的做法。2022年,微軟提出的BEiT-3多模態基礎模型,在視覺-語言任務處理上具備出色表現,包括視覺問答、圖片描述生成和跨模態檢索等。多模態提高了基礎模型的靈活性,使其在其他模態的應用中發揮新的潛質。 未來,值得關注的技術要素包括:長文本生成、開放式文本生成、NeRF模型、擴散模型、跨模態大型預訓練模型(支持的模態數據類型、模態對齊架構設計、支持的下游應用)、小樣本學習及自監督算法、強化學習及環境學習等。
ChatGPT引領AI技術新一輪熱潮,預示著NLP技術有望迅速進入平民化應用時代。2022年11月30日,OpenAI公司上線了聊天機器人模型ChatGPT,迅速引發了全球的熱潮。ChatGPT是一種預訓練的語言大模型,采用大量的參數和大量的數據進行訓練,基于人類反饋的強化學習算法,將NLP技術和機器學習結合,極大地提升了模型算法的效率和能力。隨著ChatGPT的熱度不斷攀升,多家科技公司都開始布局ChatGPT相關技術領域,NLP技術有望迅速進入平民化應用時代。
ChatGPT具有良好的商業價值,未來應用空間廣闊。ChatGPT相關技術不僅對眾多的C端應用帶來革新,同時也將對B端應用產生重大影響,企業數字化轉型有望真正從數字化走向智能化,ChatGPT在企業辦公中的應用,具備很大的想象空間。我們認為,協同辦公類應用作為企業各類應用的入口,同時具備知識管理、流程引擎等功能,具備很強卡位價值,在把ChatGPT技術引入后,可以極大提升產品的功能與應用體驗。員工僅需給出想要辦理的流程,由ChatGPT進行智能化辦理,從而改變過去員工需要自行在OA、ERP及業務系統中完成信息錄入、功能查找、業務辦理的現狀,將極大地提升辦公效率和使用體驗。目前微軟已經將ChatGPT應用到了Dynamics365、Teams等產品線,未來將要應用到Bing搜索中,未來的商業價值空間十分可觀。 AIGC有望成為未來人工智能的重要方向,商業化模式仍需摸索。AIGC即人工智能內容生成,ChatGPT就是典型的文本生成式的AIGC,其目前的成功也有望帶動AIGC在圖像、音樂、視頻等其他領域落地。Gartner曾多次將生成式AI列為未來的重要技術趨勢,是當下最引人注目的人工智能技術之一。據Gartner預計,到2025年,生成式人工智能將占所有生成數據的10%,而目前這一比例還不到1%。隨著ChatGPT開啟付費訂閱試點,AIGC的商業化進程正式拉開帷幕。據量子位報告統計,到2030年,AIGC的市場規模將超過萬億人民幣,但由于AIGC目前產業化程度有限,大量業務場景尚未成功變現,商業模式也還處于探索階段。我們認為,在當下時點,AIGC基于其出色的降本增效能力,在企業級市場的應用前景較為明朗和穩定,在C端消費市場的商業模式仍需進一步摸索。
2022年,從引爆AI作畫領域的DALL-E 2、Stable Diffusion等AI模型,到以ChatGPT為代表的接近人類水平的對話機器人,AIGC不斷刷爆網絡,其強大的內容生成能力給人們帶來了巨大的震撼。學術界和產業界也都形成共識:AIGC絕非曇花一現,其底層技術和產業生態已經形成了新的格局。
就內容生產而言,AIGC作為新的生產力引擎,讓我們從過去的PGC、UGC,已經不可避免地進入AIGC時代。AIGC代表著AI技術從感知、理解世界到生成、創造世界的躍遷,正推動人工智能迎來下一個時代。 經過了2022年的預熱,2023年AIGC領域將迎來更大發展。AIGC生成內容的類型不斷豐富、質量不斷提升,也將有更多的企業積極擁抱AIGC。在這個背景下,騰訊研究院正式發布**《AIGC發展趨勢報告2023:迎接人工智能的下一個時代》**。報告從技術發展和產業生態、應用趨勢、治理挑戰等維度,對AIGC的發展趨勢進行了深入思考。 本文為報告核心內容摘要(文末附下載):
AIGC的大爆發不僅有賴于AI技術的突破創新,還離不開產業生態快速發展的支撐。在技術創新方面,生成算法、預訓練模型、多模態技術等AI技術匯聚發展,為AIGC的爆發提供了肥沃的技術土壤。
** **
圖:AIGC技術累積融合 **第一,基礎的生成算法模型不斷突破創新。**比如為人熟知的GAN、Transformer、擴散模型等,這些模型的性能、穩定性、生成內容質量等不斷提升。得益于生成算法的進步,AIGC現在已經能夠生成文字、代碼、圖像、語音、視頻、3D物體等各種類型的內容和數據。 **第二,預訓練模型,也即基礎模型、大模型,引發了AIGC技術能力的質變。**雖然過去各類生成模型層出不窮,但是使用門檻高、訓練成本高、內容生成簡單和質量偏低,遠遠不能滿足真實內容消費場景中的靈活多變、高精度、高質量等需求。而預訓練模型能夠適用于多任務、多場景、多功能需求,能夠解決以上諸多痛點。預訓練模型技術也顯著提升了AIGC模型的通用化能力和工業化水平,同一個AIGC模型可以高質量地完成多種多樣的內容輸出任務,讓AIGC模型成為自動化內容生產的“工廠”和“流水線”。正因如此,谷歌、微軟、OpenAI等企業紛紛搶占先機,推動人工智能進入預訓練模型時代。 **第三,多模態技術推動了AIGC的內容多樣性,進一步增強了AIGC模型的通用化能力。**多模態技術使得語言文字、圖像、音視頻等多種類型數據可以互相轉化和生成。比如CLIP模型,它能夠將文字和圖像進行關聯,如將文字“狗”和狗的圖像進行關聯,并且關聯的特征非常豐富。這為后續文生圖、文生視頻類的AIGC應用的爆發奠定了基礎。 未來,算法的進步將帶來更多激動人心的應用,語言模型會得到進一步發展,可以自我持續學習的多模態AI將日益成為主流,這些因素會進一步推動AIGC領域的蓬勃發展。 **在產業生態方面,AIGC領域正在加速形成三層產業生態并持續創新發展,正走向模型即服務(MaaS)的未來。**目前,AIGC產業生態體系的雛形已現,呈現為上中下三層架構。
** **
第一層是基礎層,以預訓練模型為基礎搭建的AIGC技術基礎設施層。在國外,以OpenAI、Stability.ai為代表,通過受控API、開源等方式輸出模型能力。 第二層是中間層,是在預訓練模型基礎上,通過專門的調試和訓練,快速抽取形成垂直化、場景化、定制化的小模型和應用工具層,可以實現工業流水線式部署,同時兼具按需使用、高效經濟的優勢。比如,知名的二次元畫風生成模型Novel-AI,以及各種風格的角色生成器等,就是基于Stable Diffusion開源進行的二次開發。隨著AIGC模型加速成為新的技術平臺,模型即服務(Model-as-a-Service,MaaS)開始成為現實,預計將對商業領域產生巨大影響。 第三層是應用層,依托底層模型和中間層的垂直模型,各廠商進一步開放面向C端和B端用戶的各種各樣的AIGC產品和服務,滿足海量用戶的內容創建和消費需求。例如群聊機器人、文本生成軟件、頭像生成軟件等AIGC消費工具。 目前,從提供預訓練的AI大模型的基礎設施層公司到專注打造垂直領域內AIGC工具的中間層公司、再到直接面對消費者和終端用戶提供產品和服務的應用層公司,美國圍繞AIGC生長出繁榮的生態,技術創新引發的應用創新浪潮迭起;中國也有望憑借領先的AIGC技術賦能千行百業。
AIGC領域目前呈現AIGC的內容類型不斷豐富、內容質量不斷提升、技術的通用性和工業化水平越來越強等趨勢,這使得AIGC在消費互聯網領域日趨主流化,涌現了寫作助手、AI繪畫、對話機器人、數字人等爆款級應用,支撐著傳媒、電商、娛樂、影視等領域的內容需求。目前AIGC也正在向產業互聯網、社會價值領域擴張應用。**
**
圖:AIGC應用現狀概覽(引用自紅杉資本) **在消費互聯網領域,AIGC牽引數字內容領域的全新變革。**目前AIGC的爆發點主要是在內容消費領域,已經呈現百花齊放之勢。AIGC生成的內容種類越來越豐富,而且內容質量也在顯著提升,產業生態日益豐富。這其中有三個值得關注的趨勢: **第一,AIGC有望成為新型的內容生產基礎設施,塑造數字內容生產與交互新范式,持續推進數字文化產業創新。**過去AI在內容消費領域的作用主要體現在推薦算法成為了新型的傳播基礎設施。推薦算法對數字內容傳播,短視頻為主的數字內容新業態發展,起到了顛覆式的變革作用。而現在,隨著AIGC生成的內容種類越來越豐富,內容的質量不斷提升,AIGC將作為新型的內容生產基礎設施對既有的內容生成模式產生變革影響。 **第二,AIGC的商業化應用將快速成熟,市場規模會迅速壯大。**當前AIGC已經率先在傳媒、電商、影視、娛樂等數字化程度高、內容需求豐富的行業取得重大發展,市場潛力逐漸顯現。比如,在廣告領域,騰訊混元AI大模型能夠支持廣告智能制作,即利用AIGC將廣告文案自動生成為廣告視頻,大大降低了廣告視頻制作成本。巨大的應用前景將帶來市場規模的快速增長,根據6pen預測,未來五年10%-30%的圖片內容由AI參與生成,有望創造超過600億以上市場規模。也有國外商業咨詢機構預測,2030年AIGC市場規模將達到1100億美元。 **第三,AIGC還將作為生產力工具,不斷推動聊天機器人、數字人、元宇宙等領域發展。**AIGC技術讓聊天機器人接近人類水平日益成為現實,當前以ChatGPT為代表的聊天機器人已經在刺激搜索引擎產業的神經,未來人們獲取信息是否會更多通過聊天機器人而非搜索引擎?這已經使谷歌等公司面臨的巨大壓力。AIGC也在大大提升數字人的制作效能,并且使其更神似人。比如騰訊AI LAB的虛擬歌手AI艾靈,能夠基于AIGC實現作詞和歌曲演唱。在元宇宙領域,AIGC在構建沉浸式空間環境、提供個性化內容體驗、打造智能用戶交互等方面發揮重要作用。比如,扎克伯格在元宇宙的島嶼上,可以通過發出語音命令生成創造海灘、變換天氣,添加不同的場景等。只有借助AGIC,元宇宙才可能以低成本、高效率的方式滿足海量用戶的不同內容需求。 **在產業互聯網領域,基于AIGC技術的合成數據(synthetic data)迎來重大發展,合成數據將牽引人工智能的未來。**MIT科技評論將AI合成數據列為2022年10大突破性技術之一;Gartner也預測稱,到2030年合成數據將徹底取代真實數據,成為訓練AI的主要數據來源。
圖:合成數據發展預測(來源:Gartner) 合成數據的用途是成為真實世界數據的廉價替代品,用來訓練、測試、驗證AI模型。AIGC技術的持續創新,讓合成數據迎來新的發展契機,開始迸發出更大的產業發展和商業應用活力。這主要體現在以下四個方面: **第一,合成數據為AI模型訓練開發提供強大助推器,推動實現AI 2.0。**過去用真實世界數據訓練AI模型,存在數據采集和標注的成本高昂,數據質量較難保障、數據多樣化不足、隱私保護挑戰等多方面問題。而合成數據可以很好的解決這些問題。使用合成數據不僅能更高效地訓練AI模型,而且可以讓AI在合成數據構建的虛擬仿真世界中自我學習、進化,極大擴展AI的應用可能性。從某種意義上也可以說合成數據讓AI模型訓練從1.0階段發展到2.0階段。 **第二,合成數據助力破解AI“深水區”的數據難題,持續拓展產業互聯網應用空間。**目前,合成數據正迅速向交通、金融、醫療、零售、工業等諸多產業領域拓展應用,幫助破解產業互聯網應用中的數據難題。比如,騰訊自動駕駛團隊研發的仿真系統TAD SIM可以自動生成各種交通場景數據,助力自動駕駛系統測試、開發。在醫療領域,美國國立衛生研究院和合成數據服務商合作,基于其COVID-19病人病歷數據庫,合成了不具有可識別性的替代數據,可供世界范圍內的研究人員自由分享和使用。
圖:騰訊自動駕駛數字孿生仿真平臺
**第三,正是由于合成數據對人工智能未來發展的巨大價值,合成數據正加速成為一個新產業賽道,科技大廠和創新企業紛紛搶先布局。**目前,全球合成數據創業企業也已經達到100家,英偉達、亞馬遜、微軟等頭部科技企業也在加速布局,涌現了合成數據即服務(SDaaS,synthetic data as a service)這一全新商業模式。
**第四,合成數據加速構建AI賦能、數實融合的大型虛擬世界。**合成數據指向的終極應用形態是借助游戲引擎、3D圖形、AIGC技術構建的數實融合的大型虛擬世界。基于合成數據構建的大型虛擬世界,為測試、開發新的人工智能應用,提供了一個安全、可靠、高效以及最重要的是——低成本的、可重復利用的環境,將成為AI數實融合的關鍵載體,包括為AI開發提供數據和場景、試驗田等。比如騰訊開悟的AI開放研究環境,已經吸引了國內外眾多決策智能領域的研究團隊使用。
**在社會價值領域,AIGC也在助力可持續社會價值的實現。**比如,在醫療健康方面,AI語音生成幫助病人“開口說話”。語音合成軟件制造商Lyrebird為漸凍癥患者設計的語音合成系統實現“聲音克隆”,幫助患者重新獲得“自己的聲音”。AI數字人也能幫助老年癡呆癥患者與他們可能記得的年輕面孔或者逝去的親人互動。此外,AIGC也可以用于文物修復,助力文物保護傳承。騰訊公司利用360度沉浸式展示技術、智能音視頻技術、人工智能等技術手段,對敦煌古壁畫進行數字化分析與修復。在國外,DeepMind合作開發的深度神經網絡模型Ithaca可以修復殘缺的歷史碑文。
圖:騰訊利用AIGC技術手段,助力敦煌古壁畫修復 總之,隨著AIGC模型的通用化水平和工業化能力的持續提升,AIGC的根本影響在于,將極大降低內容生產和交互的門檻和成本,有望帶來一場自動化內容生產與交互變革,引起社會的成本結構的重大改變,進而在各行各業引發巨震。未來,“AIGC+”將持續大放異彩,深度賦能各行各業高質量發展。
以可信AIGC** 積極應對科技治理問題與挑戰,****擁抱人工智能的下一個時代**發展總是與挑戰并生,AIGC的發展也面臨許多科技治理問題的挑戰。目前,主要是知識產權、安全、倫理和環境四個方面的挑戰。
首先,AIGC引發的新型版權侵權風險,已經成為整個行業發展所面臨的緊迫問題。因版權爭議,國外藝術作品平臺ArtStation上的畫師們掀起了抵制AIGC生成圖像的活動。其次,安全問題始終存在于科技發展應用之中。在AIGC中,主要表現為信息內容安全、AIGC濫用引發詐騙等新型違法犯罪行為,以及AIGC的內生安全等。較為著名的案例是,詐騙團隊利用AIGC換臉偽造埃隆·馬斯克的視頻,半年詐騙價值超過2億人民幣的數字貨幣。再次,算法歧視等倫理問題依然存在。比如,DALL·E 2具有顯著的種族和性別刻板印象。最后是環境影響,AIGC模型訓練消耗大量算力,碳排放量驚人。此前就有研究表明,單一機器學習模型訓練所產生的碳排放,相當于普通汽車壽命期內碳排放量的5倍。
圖:騰訊優圖實驗室推出FaceIn人臉防偽產品,能夠自動檢測精準識別視頻、圖像中是否應用人臉偽造技術 **為了應對以上挑戰,面向人工智能的下一個時代,人們需要更加負責任地、以人為本地發展應用AIGC技術,打造可信AIGC生態。**面對AIGC技術應用可能帶來的風險挑戰,社會各界需要協同參與、共同應對,通過法律、倫理、技術等方面的多元措施支持構建可信AI生態。在立法方面,網信辦等三部門出臺的《互聯網信息服務深度合成管理規定》針對深度合成技術服務提出的要求和管理措施,諸如禁止性要求、標識要求、安全評估等,亦適用于AIGC。接下來,需要著重從以下方面持續推進AIGC的政策和治理。
其一,政府部門需要結合AIGC技術的發展應用情況,制定并明晰AIGC的知識產權與數據權益保護規則。目前,AIGC的知識產權與數據權益保護規則的不明確,在某種程度上導致甚至加劇了AI領域的亂象。
其二,研發應用AIGC技術的主體需要積極探索自律管理措施,例如,秉持不作惡、科技向善等目的,制定適宜的政策(消極要求和積極要求),采取控制和安全措施保障AIGC的安全可控應用,采取內容識別、內容溯源等技術確保AIGC的可靠來源。
其三,打造安全可信的AIGC應用,需要深入推進AI倫理治理。例如,行業組織可以制定可信AIGC的倫理指南,更好地支持AIGC健康可持續發展;AIGC領域的創新主體需要考慮通過倫理委員會等方式,推進落實AI風險管理、倫理審查評估等,在AIGC應用中實現“倫理嵌入設計”(ethics by design)。
其四,社會各界需要攜手應對AIGC領域的能源消耗問題,推行綠色AI的發展理念,致力于打造綠色可持續、環境友好型的AI模型,實現智能化與低碳化融合發展。
未來已來,讓我們擁抱AIGC,擁抱人工智能的下一個時代,打造更美好的未來。
****
如同蒸汽時代的蒸汽機、電氣時代的發電機、信息時代的計算機和互聯網,人工智能正成為推動人類進入智能時代的決定性力量。全球產業界充分認識到人工智能技術引領新一輪產業變革的重大意義,紛紛轉型發展,搶灘布局人工智能創新生態。人工智能細分賽道持續創新下變革在即,本報告重點關注AIGC領域。
AIGC顛覆傳統內容產出模式,或為web3.0內容創造新引擎。AIGC本質上是一種AI賦能技術,能夠通過其高通量、低門檻、高自由度的生成能力廣泛服務于各類內容的相關場景及生產者。隨著人工智能生成能力的突破進展,內容生產已經從專業生成內容(PGC)、用戶生成內容(UGC),進入到人工智能生成內容(AIGC,AI generated content)時代,AIGC被認為是web3.0的重要基礎設施。AIGC的快速興起源于深度學習技術的快速突破和日益增長的數字內容供給需求;應用價值層面,AIGC有望成為數字內容創新發展新引擎,為數字經濟發展注入新能量。數據+算法+算力三大核心要素,決定AIGC產出質量。①數據,海量優質的應用場景數據是訓練算法精確性關鍵基礎。②算法,神經網絡、深度學習等算法是挖掘數據智能的有效方法。與傳統機器深度機器學習算法不同,神經網絡在學習范式+網絡結構上的迭代提升了AI算法的學習能力,未來多模態大模型或為核心趨勢,賦能產業空間及實踐潛力。③算力,計算機、芯片等載體為AIGC提供基本的計算能力。 AIGC技術場景中,個性化及自動化內容產出為核心價值。①技術成熟度較高結構化領域大部分是在和人力生成內容進行競爭。其中的存量價值來源于同類內容的降本增效,而增量價值則來源于跨模態的內容生成以及AI本身帶來的科技感。對內容渠道的把控將成為核心競爭力。發行商、內容最終消費渠道具有強的產業鏈話語權。②底層技術基本明確/仍待完善的原創性創作領域,本質為AI下的個性化數字內容的自動化構建。該領域重點關注和其配套數據或底層原理是否清晰、商業化路徑。目前AIGC整體影響仍十分有限,主要是中國市場供給端仍處于起步階段。 AIGC應用場景中,數字化程度高及內容需求豐富的領域有廣闊應用空間。隨著AIGC技術快速迭代,其可高效生成不同模態的信息產出(包括文字、音頻、視頻及跨模態),以真實性、多樣性、可控性及綜合性等特征,有望幫助企業提高內容生產的效率,以及為其提供更加豐富多元、動態且可交互的內容,或將率先在傳媒、電商、影視、娛樂等數字化程度高、內容需求豐富的行業取得重大創新發展。 深度學習模型+開源模式加速AIGC普及,海外AIGC已到了“快速發展階段”。①隨著深度學習模型不斷迭代,人工智能生成內容百花齊放,產出效果逐漸逼真直至人類難以分辨。2018年,人工智能生成的畫作在佳士得拍賣行以43.25萬美元成交,成為首個出售的人工智能藝術品;2019年,DeepMind發布DVD-GAN模型用以生成連續視頻;2022年11月,OpenAI上線了智能對話系統(聊天機器人)ChatGPT,引發全球熱潮。ChatGPT的成功離不開參數競賽時代下的“大模型”,顯卡等硬件優化帶來的“大算力基礎”與基于“大數據”的RLHF訓練模式。但由于訓練數據的缺乏及訓練數據的偏差,ChatGPT仍需要高成本的調優及持續訓練,進而實現商業化落地。②“開源模式”加速AIGC產業發展。以深度學習模型CLIP為例,開源模式加速CLIP模型的廣泛應用,使之成為當前最為先進的圖像分類人工智能,并讓更多機器學習從業人員將CLIP模型嫁接到其他AI應用。 中國AIGC仍處“萌芽期”,技術能力與產品形態的成熟、核心場景的確定及產業的接納態度為行業關鍵發展節點。據量子位預測,AIGC在中國發展可分為三個階段:助手階段(摸索磨合期,2021年~2026年):AIGC輔助人類進行生產,優先變現的關鍵在于編輯優化功能,行業創新關鍵能力為素材模塊分拆+個性化推薦;協作階段(推廣應用期,2026年~2028年):人機共創,主要價值為降本增效及提供創意,預計互聯網大廠將普遍布局,競爭熱度提升;原創階段(價值增長期,2028年之后):AIGC將獨立完成內容創作,產生附加價值。中國AIGC企業均在初創階段,機會也許藏在垂直應用領域中,對賽道的選擇十分關鍵。
AI視覺產業背景:AI視覺又稱計算機視覺,得益于深度學習技術的快速發展,已于安防、金融、制造、零售等多領域實現規模化商用。2022年,AI視覺相關投融資熱潮全面復蘇,通用技術、工業與零售賽道熱度高企,持續受到資本青睞。2021年我國AI視覺產品的市場規模占整個人工智能行業的49.6%,達到990億元。從資本熱度、市場規模、場景泛用、帶動作用來說,AI視覺已成為AI產業發展的主戰場,未來增量動力依然強勁。
端邊云協同的需求趨勢:數字經濟時代,物聯網感知數據量激增,邊緣計算剛需場景涌現。邊緣計算可在本地提供IT服務、計算能力,減少上傳的數據量、節省網絡操作、服務交付的時間延遲,提高傳輸效率。企業可以選擇將算力下沉至更貼近設備端的邊緣計算,衍生出端-邊-云的協同新模式。 端邊云協同的AI視覺產業:產品模式一般可分為標準化SaaS產品與定制化解決方案兩類。行業客戶需根據自身IT信息化水平、需求定制化程度、產品付費意愿、適用場景需求等因素考量選擇。具體到邊緣側部署上,AI攝像頭出于功耗、散熱等因素考量,不會內置過多算法,可處理簡要前端場景;若對時延要求高且算法需求復雜的應用場景,則需搭建邊緣盒子或邊緣服務器。本篇報告根據行業特點與場景需求,對安防、工業、零售、機器人、農業領域展開討論。 端邊云協同的技術與生態趨勢:1)端邊云協同的AI視覺產業發展依賴于聯邦學習、增量學習、協同推理等邊緣AI技術發展;2)端邊云協同的AI視覺應用對算力和網絡部署提出了要求,算力網絡技術發展將助力超低時延類AI視覺應用;3)邊緣計算將進入黃金發展期,在滿足靈活響應、敏捷部署、時延成本的業務需求外,未來需進一步關注邊緣服務的安全、可靠、可信等能力,構建“可信邊緣計算”生態
近日,在由未來移動通信論壇和紫金山實驗室共同主辦的全球6G技術大會期間,發布了《面向6G的數字孿生技術白皮書》。
數字孿生依賴感知和控制,伴隨著6G技術、AI/ML以及安全技術的發展和成熟,有助于建立更完善有效的數字化模型,貫通信息孤島構成數字孿生社會。
數字孿生未來應用場景廣闊,將極大地賦能未來的6G網絡以及工業、農業、城市等眾多行業領域,為工業制造、農業生產、城市治理、社會服務和人們生活帶來無限的可能和便利。數字孿生技術也會不斷演化和演進,滿足人類生活共同體的新目標和新需求。
隨著潛在的第六代技術的出現,數字孿生可以成為6G的新驅動力。它可以廣泛應用于網絡、工業、農業和人體等領域。數字孿生技術是多種配套技術的有機結合。此外還介紹了一些采用數字孿生的解決方案,如移動網絡、智能交通和物聯網(IOT)。意圖感知數字孿生6G網絡可以是一個全生命周期的解決方案,由知識圖譜驅動。
數字孿生依賴感知和控制,伴隨著6G技術、AI/ML以及安全技術的發展和成熟,有助于建立更完善有效的數字化模型,貫通信息孤島構成數字孿生社會,產生的人類生活共同體[18],實現可持續發展。
數字孿生未來應用場景廣闊,將極大地賦能未來的6G網絡以及工業、農業、城市等眾多行業領域,為工業制造、農業生產、城市治理、社會服務和人們生活帶來無限的可能和便利。數字孿生技術也會不斷演化和演進,滿足人類生活共同體的新目標和新需求。
數字孿生應用于6G網絡,從建模孿生網絡、獲取數據、智能計算等支撐技術到克服因大量數據采集、傳輸導致成本增加、能耗增大不利影響,可能產生新的技術突破,存在標準化潛在需求。