2022年,從引爆AI作畫領域的DALL-E 2、Stable Diffusion等AI模型,到以ChatGPT為代表的接近人類水平的對話機器人,AIGC不斷刷爆網絡,其強大的內容生成能力給人們帶來了巨大的震撼。學術界和產業界也都形成共識:AIGC絕非曇花一現,其底層技術和產業生態已經形成了新的格局。
就內容生產而言,AIGC作為新的生產力引擎,讓我們從過去的PGC、UGC,已經不可避免地進入AIGC時代。AIGC代表著AI技術從感知、理解世界到生成、創造世界的躍遷,正推動人工智能迎來下一個時代。 經過了2022年的預熱,2023年AIGC領域將迎來更大發展。AIGC生成內容的類型不斷豐富、質量不斷提升,也將有更多的企業積極擁抱AIGC。在這個背景下,騰訊研究院正式發布**《AIGC發展趨勢報告2023:迎接人工智能的下一個時代》**。報告從技術發展和產業生態、應用趨勢、治理挑戰等維度,對AIGC的發展趨勢進行了深入思考。 本文為報告核心內容摘要(文末附下載):
AIGC的大爆發不僅有賴于AI技術的突破創新,還離不開產業生態快速發展的支撐。在技術創新方面,生成算法、預訓練模型、多模態技術等AI技術匯聚發展,為AIGC的爆發提供了肥沃的技術土壤。
** **
圖:AIGC技術累積融合 **第一,基礎的生成算法模型不斷突破創新。**比如為人熟知的GAN、Transformer、擴散模型等,這些模型的性能、穩定性、生成內容質量等不斷提升。得益于生成算法的進步,AIGC現在已經能夠生成文字、代碼、圖像、語音、視頻、3D物體等各種類型的內容和數據。 **第二,預訓練模型,也即基礎模型、大模型,引發了AIGC技術能力的質變。**雖然過去各類生成模型層出不窮,但是使用門檻高、訓練成本高、內容生成簡單和質量偏低,遠遠不能滿足真實內容消費場景中的靈活多變、高精度、高質量等需求。而預訓練模型能夠適用于多任務、多場景、多功能需求,能夠解決以上諸多痛點。預訓練模型技術也顯著提升了AIGC模型的通用化能力和工業化水平,同一個AIGC模型可以高質量地完成多種多樣的內容輸出任務,讓AIGC模型成為自動化內容生產的“工廠”和“流水線”。正因如此,谷歌、微軟、OpenAI等企業紛紛搶占先機,推動人工智能進入預訓練模型時代。 **第三,多模態技術推動了AIGC的內容多樣性,進一步增強了AIGC模型的通用化能力。**多模態技術使得語言文字、圖像、音視頻等多種類型數據可以互相轉化和生成。比如CLIP模型,它能夠將文字和圖像進行關聯,如將文字“狗”和狗的圖像進行關聯,并且關聯的特征非常豐富。這為后續文生圖、文生視頻類的AIGC應用的爆發奠定了基礎。 未來,算法的進步將帶來更多激動人心的應用,語言模型會得到進一步發展,可以自我持續學習的多模態AI將日益成為主流,這些因素會進一步推動AIGC領域的蓬勃發展。 **在產業生態方面,AIGC領域正在加速形成三層產業生態并持續創新發展,正走向模型即服務(MaaS)的未來。**目前,AIGC產業生態體系的雛形已現,呈現為上中下三層架構。
** **
第一層是基礎層,以預訓練模型為基礎搭建的AIGC技術基礎設施層。在國外,以OpenAI、Stability.ai為代表,通過受控API、開源等方式輸出模型能力。 第二層是中間層,是在預訓練模型基礎上,通過專門的調試和訓練,快速抽取形成垂直化、場景化、定制化的小模型和應用工具層,可以實現工業流水線式部署,同時兼具按需使用、高效經濟的優勢。比如,知名的二次元畫風生成模型Novel-AI,以及各種風格的角色生成器等,就是基于Stable Diffusion開源進行的二次開發。隨著AIGC模型加速成為新的技術平臺,模型即服務(Model-as-a-Service,MaaS)開始成為現實,預計將對商業領域產生巨大影響。 第三層是應用層,依托底層模型和中間層的垂直模型,各廠商進一步開放面向C端和B端用戶的各種各樣的AIGC產品和服務,滿足海量用戶的內容創建和消費需求。例如群聊機器人、文本生成軟件、頭像生成軟件等AIGC消費工具。 目前,從提供預訓練的AI大模型的基礎設施層公司到專注打造垂直領域內AIGC工具的中間層公司、再到直接面對消費者和終端用戶提供產品和服務的應用層公司,美國圍繞AIGC生長出繁榮的生態,技術創新引發的應用創新浪潮迭起;中國也有望憑借領先的AIGC技術賦能千行百業。
AIGC領域目前呈現AIGC的內容類型不斷豐富、內容質量不斷提升、技術的通用性和工業化水平越來越強等趨勢,這使得AIGC在消費互聯網領域日趨主流化,涌現了寫作助手、AI繪畫、對話機器人、數字人等爆款級應用,支撐著傳媒、電商、娛樂、影視等領域的內容需求。目前AIGC也正在向產業互聯網、社會價值領域擴張應用。**
**
圖:AIGC應用現狀概覽(引用自紅杉資本) **在消費互聯網領域,AIGC牽引數字內容領域的全新變革。**目前AIGC的爆發點主要是在內容消費領域,已經呈現百花齊放之勢。AIGC生成的內容種類越來越豐富,而且內容質量也在顯著提升,產業生態日益豐富。這其中有三個值得關注的趨勢: **第一,AIGC有望成為新型的內容生產基礎設施,塑造數字內容生產與交互新范式,持續推進數字文化產業創新。**過去AI在內容消費領域的作用主要體現在推薦算法成為了新型的傳播基礎設施。推薦算法對數字內容傳播,短視頻為主的數字內容新業態發展,起到了顛覆式的變革作用。而現在,隨著AIGC生成的內容種類越來越豐富,內容的質量不斷提升,AIGC將作為新型的內容生產基礎設施對既有的內容生成模式產生變革影響。 **第二,AIGC的商業化應用將快速成熟,市場規模會迅速壯大。**當前AIGC已經率先在傳媒、電商、影視、娛樂等數字化程度高、內容需求豐富的行業取得重大發展,市場潛力逐漸顯現。比如,在廣告領域,騰訊混元AI大模型能夠支持廣告智能制作,即利用AIGC將廣告文案自動生成為廣告視頻,大大降低了廣告視頻制作成本。巨大的應用前景將帶來市場規模的快速增長,根據6pen預測,未來五年10%-30%的圖片內容由AI參與生成,有望創造超過600億以上市場規模。也有國外商業咨詢機構預測,2030年AIGC市場規模將達到1100億美元。 **第三,AIGC還將作為生產力工具,不斷推動聊天機器人、數字人、元宇宙等領域發展。**AIGC技術讓聊天機器人接近人類水平日益成為現實,當前以ChatGPT為代表的聊天機器人已經在刺激搜索引擎產業的神經,未來人們獲取信息是否會更多通過聊天機器人而非搜索引擎?這已經使谷歌等公司面臨的巨大壓力。AIGC也在大大提升數字人的制作效能,并且使其更神似人。比如騰訊AI LAB的虛擬歌手AI艾靈,能夠基于AIGC實現作詞和歌曲演唱。在元宇宙領域,AIGC在構建沉浸式空間環境、提供個性化內容體驗、打造智能用戶交互等方面發揮重要作用。比如,扎克伯格在元宇宙的島嶼上,可以通過發出語音命令生成創造海灘、變換天氣,添加不同的場景等。只有借助AGIC,元宇宙才可能以低成本、高效率的方式滿足海量用戶的不同內容需求。 **在產業互聯網領域,基于AIGC技術的合成數據(synthetic data)迎來重大發展,合成數據將牽引人工智能的未來。**MIT科技評論將AI合成數據列為2022年10大突破性技術之一;Gartner也預測稱,到2030年合成數據將徹底取代真實數據,成為訓練AI的主要數據來源。
圖:合成數據發展預測(來源:Gartner) 合成數據的用途是成為真實世界數據的廉價替代品,用來訓練、測試、驗證AI模型。AIGC技術的持續創新,讓合成數據迎來新的發展契機,開始迸發出更大的產業發展和商業應用活力。這主要體現在以下四個方面: **第一,合成數據為AI模型訓練開發提供強大助推器,推動實現AI 2.0。**過去用真實世界數據訓練AI模型,存在數據采集和標注的成本高昂,數據質量較難保障、數據多樣化不足、隱私保護挑戰等多方面問題。而合成數據可以很好的解決這些問題。使用合成數據不僅能更高效地訓練AI模型,而且可以讓AI在合成數據構建的虛擬仿真世界中自我學習、進化,極大擴展AI的應用可能性。從某種意義上也可以說合成數據讓AI模型訓練從1.0階段發展到2.0階段。 **第二,合成數據助力破解AI“深水區”的數據難題,持續拓展產業互聯網應用空間。**目前,合成數據正迅速向交通、金融、醫療、零售、工業等諸多產業領域拓展應用,幫助破解產業互聯網應用中的數據難題。比如,騰訊自動駕駛團隊研發的仿真系統TAD SIM可以自動生成各種交通場景數據,助力自動駕駛系統測試、開發。在醫療領域,美國國立衛生研究院和合成數據服務商合作,基于其COVID-19病人病歷數據庫,合成了不具有可識別性的替代數據,可供世界范圍內的研究人員自由分享和使用。
圖:騰訊自動駕駛數字孿生仿真平臺
**第三,正是由于合成數據對人工智能未來發展的巨大價值,合成數據正加速成為一個新產業賽道,科技大廠和創新企業紛紛搶先布局。**目前,全球合成數據創業企業也已經達到100家,英偉達、亞馬遜、微軟等頭部科技企業也在加速布局,涌現了合成數據即服務(SDaaS,synthetic data as a service)這一全新商業模式。
**第四,合成數據加速構建AI賦能、數實融合的大型虛擬世界。**合成數據指向的終極應用形態是借助游戲引擎、3D圖形、AIGC技術構建的數實融合的大型虛擬世界。基于合成數據構建的大型虛擬世界,為測試、開發新的人工智能應用,提供了一個安全、可靠、高效以及最重要的是——低成本的、可重復利用的環境,將成為AI數實融合的關鍵載體,包括為AI開發提供數據和場景、試驗田等。比如騰訊開悟的AI開放研究環境,已經吸引了國內外眾多決策智能領域的研究團隊使用。
**在社會價值領域,AIGC也在助力可持續社會價值的實現。**比如,在醫療健康方面,AI語音生成幫助病人“開口說話”。語音合成軟件制造商Lyrebird為漸凍癥患者設計的語音合成系統實現“聲音克隆”,幫助患者重新獲得“自己的聲音”。AI數字人也能幫助老年癡呆癥患者與他們可能記得的年輕面孔或者逝去的親人互動。此外,AIGC也可以用于文物修復,助力文物保護傳承。騰訊公司利用360度沉浸式展示技術、智能音視頻技術、人工智能等技術手段,對敦煌古壁畫進行數字化分析與修復。在國外,DeepMind合作開發的深度神經網絡模型Ithaca可以修復殘缺的歷史碑文。
圖:騰訊利用AIGC技術手段,助力敦煌古壁畫修復 總之,隨著AIGC模型的通用化水平和工業化能力的持續提升,AIGC的根本影響在于,將極大降低內容生產和交互的門檻和成本,有望帶來一場自動化內容生產與交互變革,引起社會的成本結構的重大改變,進而在各行各業引發巨震。未來,“AIGC+”將持續大放異彩,深度賦能各行各業高質量發展。
以可信AIGC** 積極應對科技治理問題與挑戰,****擁抱人工智能的下一個時代**發展總是與挑戰并生,AIGC的發展也面臨許多科技治理問題的挑戰。目前,主要是知識產權、安全、倫理和環境四個方面的挑戰。
首先,AIGC引發的新型版權侵權風險,已經成為整個行業發展所面臨的緊迫問題。因版權爭議,國外藝術作品平臺ArtStation上的畫師們掀起了抵制AIGC生成圖像的活動。其次,安全問題始終存在于科技發展應用之中。在AIGC中,主要表現為信息內容安全、AIGC濫用引發詐騙等新型違法犯罪行為,以及AIGC的內生安全等。較為著名的案例是,詐騙團隊利用AIGC換臉偽造埃隆·馬斯克的視頻,半年詐騙價值超過2億人民幣的數字貨幣。再次,算法歧視等倫理問題依然存在。比如,DALL·E 2具有顯著的種族和性別刻板印象。最后是環境影響,AIGC模型訓練消耗大量算力,碳排放量驚人。此前就有研究表明,單一機器學習模型訓練所產生的碳排放,相當于普通汽車壽命期內碳排放量的5倍。
圖:騰訊優圖實驗室推出FaceIn人臉防偽產品,能夠自動檢測精準識別視頻、圖像中是否應用人臉偽造技術 **為了應對以上挑戰,面向人工智能的下一個時代,人們需要更加負責任地、以人為本地發展應用AIGC技術,打造可信AIGC生態。**面對AIGC技術應用可能帶來的風險挑戰,社會各界需要協同參與、共同應對,通過法律、倫理、技術等方面的多元措施支持構建可信AI生態。在立法方面,網信辦等三部門出臺的《互聯網信息服務深度合成管理規定》針對深度合成技術服務提出的要求和管理措施,諸如禁止性要求、標識要求、安全評估等,亦適用于AIGC。接下來,需要著重從以下方面持續推進AIGC的政策和治理。
其一,政府部門需要結合AIGC技術的發展應用情況,制定并明晰AIGC的知識產權與數據權益保護規則。目前,AIGC的知識產權與數據權益保護規則的不明確,在某種程度上導致甚至加劇了AI領域的亂象。
其二,研發應用AIGC技術的主體需要積極探索自律管理措施,例如,秉持不作惡、科技向善等目的,制定適宜的政策(消極要求和積極要求),采取控制和安全措施保障AIGC的安全可控應用,采取內容識別、內容溯源等技術確保AIGC的可靠來源。
其三,打造安全可信的AIGC應用,需要深入推進AI倫理治理。例如,行業組織可以制定可信AIGC的倫理指南,更好地支持AIGC健康可持續發展;AIGC領域的創新主體需要考慮通過倫理委員會等方式,推進落實AI風險管理、倫理審查評估等,在AIGC應用中實現“倫理嵌入設計”(ethics by design)。
其四,社會各界需要攜手應對AIGC領域的能源消耗問題,推行綠色AI的發展理念,致力于打造綠色可持續、環境友好型的AI模型,實現智能化與低碳化融合發展。
未來已來,讓我們擁抱AIGC,擁抱人工智能的下一個時代,打造更美好的未來。
****
1、ChatGPT火爆的背后:算法革新+算力支持+數據共振 ChatGPT引起全球熱烈反響,上線僅五天用戶突破百萬,ChatGPT在文本交互和語言理解方面能力的顯著進步或為通用人工智能的實現帶來曙光。究其先進性根本,ChatGPT在以往基礎上推進算法革新優化,輔以強大算力支持,并以大規模數據共振,協同助推這一劃時代產品誕生。OpenAI以B端提供API接口流量+C端訂閱收費模式,探索ChatGPT商業化路徑。展望未來AI將橫縱向并行,結合技術深化與能力邊界拓展,進一步鋪開應用面。 2、數字內容生產新方式——AIGC AIGC的興起推動人類叩響強人工智能之門,可應用于文本、音頻、圖片、視頻、跨模態、策略生成等,有望開啟新一輪內容生產力革命。隨著Transformer、DiffusionModel等算力模型的迭代,推動AIGC在設計、內容創作、游戲智能、機器交互等領域實現降本增效。 3、新時代生產力工具,AIGC賦能內容生產 基于AI生成內容技術,AIGC已在游戲、廣告營銷、影視、媒體、互聯網、娛樂等領域初顯成效,并展現出較大的潛力。 AIGC將推動游戲生產范式升級,并豐富游戲資產生成,高效輔助游戲測試,使制作成本顯著降低,全流程賦能游戲買量; AIGC貫穿廣告營銷全流程,將優化案頭工作環節,提供更專業的個性化營銷方案,并充實廣告素材,實現廣告自動化生成; AIGC提升影視行業全管線效率。影視劇本創作已初見成效,多AI技術將助力電影中期拍攝,后期制作將更快完成; AIGC帶給媒體行業人機協作方案。新聞寫作編排效率提升,傳媒向智媒轉向開啟新篇章; AIGC提供互聯網行業豐富內容,和更便捷的服務。ChatGPT賦能智慧搜索,互為供給加速發展內容平臺發展,虛擬結合激發電商沉浸式體驗; AIGC為娛樂行業提供了更多樣的體驗。人際交互娛樂邁入新臺階,AIGC或成元宇宙之匙。
自ChatGPT推出以來,國內學術界和科技企業相繼宣布或將推出類似機器人對話模型,有望推動大模型發展。2月7日,百度官宣“文心一言”。2月20日,復旦大學發布了類ChatGPT模型“MOSS”,并面向大眾公開邀請內測,國產大模型有望迎來爆發式增長。 需求和政策兩方面,合力推動AI產業增長。國內應用層面的需求推動AI產業的加速發展。根據IDC數據預測,2021年中國人工智能軟件及應用市場規模為51億美元,預計2026年將會達到211億美元。數據、算法、算力是AI發展的驅動力,其中數據是AI發展的基石,中國數據規模增速有望排名全球第一。政策方面,“十四五”規劃中提到“瞄準人工智能”,“聚焦人工智能關鍵算法”,加快推進“基礎算法”的“突破與迭代應用”;北京、上海、廣州等城市發布相關規劃。 頭部企業采取“模型+工具平臺+生態”三層共建模式,有助于業務的良性循環,也更容易借助長期積累形成競爭壁壘。大模型廠商主要包括百度(文心大模型)、騰訊(HunYuan大模型)、阿里(通義大模型)、商湯、華為(盤古大模型)等企業,也有智源研究院、中科院自動化所等研究機構,同時英偉達等芯片廠商也紛紛入局。大模型增強了AI技術的通用性,助力普惠AI的實現。未來,大模型有望于場景深度融合,配合專業工具和平臺支持應用落地,開放的生態來激發創新,形成良性循環。 技術發展有望促進生產效率提升,并進一步創造新的消費和需求,有利于文娛內容和互聯網行業。在AIGC和ChatGPT方面,我們建議持續關注技術發展和應用情況,把握技術催化和商業化落地帶來的投資機會:1)具備AIGC和ChatGPT的技術探索和應用的公司:百度集團-SW、商湯-W、萬興科技、拓爾思等;2)具有海量內容素材且具有AIGC探索布局的,圖片/文字/音樂/視頻內容及平臺公司騰訊控股,閱文集團、美圖公司、昆侖萬維、湯姆貓、神州泰岳、視覺中國、中文在線、漢儀股份、天娛數科、風語筑等。
AIGC空間廣闊,商業化落地持續推進
AIGC的落地痛點在于成本高昂的通用大模型與下游垂直應用場景需求的不匹配。ChatGPT熱度持續提升,一方面推動了科技巨頭持續加大AI投入,另一方面也直接帶動下游付費意愿提升,進一步加速AIGC應用落地和商業變現,AIGC產業迎來發展良機。 (1)從內容形態來看,AIGC應用包括文本、音頻、圖像、視頻、代碼、多模態等內容生成形式,根據紅衫資本預測,AIGC將首先在文本和代碼領域落地應用,隨后逐漸拓展至圖像和視頻領域。 (2)從應用價值來看,AIGC應用價值體現在降本增效、提升內容質量、增加內容多樣性、生成個性化內容等方面。在垂直領域,目前國內已有機器寫稿、對話式AI、報告生成等AIGC應用落地,技術價值主要在于替代人工實現降本增效。隨著科技巨頭的持續投入以及技術的迭代升級,AIGC技術應用場景進一步拓寬,技術價值也有望從將本增效向額外價值轉移。 AI賦能價值凸顯,AI應用大有可為 (1)AI+搜索:搜索是互聯網的流量入口,微軟、谷歌、百度均表示將率先將AI技術應用于搜索,未來有望重塑信息生成和呈現方式,成為新的流量入口。 (2)AI寫作:AI寫作可大幅提升效率,在具有較強規律性的結構化寫作方面具有豐富應用場景。目前已在辦公軟件、新聞媒體等專業應用場景商業化落地。 (3)AI對話:AI對話主要用于替代人類完成大量重復性、規則性對話任務,在金融、互聯網、運營商等擁有大量C端用戶的行業擁有廣闊應用前景。ChatGPT在多項測試中已經超過人類,將對話AI提升至新的高度,未來應用空間廣闊。 (4)AI翻譯:在AI技術支持下,機器翻譯效果持續優化,但在廣義理解層面仍面臨挑戰。相比專業搜索工具,ChatGPT具有更強的理解能力,在部分場景的翻譯表現優于谷歌翻譯和DeepL,表現驚艷。 (5)AI作畫:AI作畫可解決視覺內容創作門檻高、耗時長的痛點,對于內容創作的價值凸顯。根據6pen預測,未來五年10%-30%的圖片內容將由AI參與生成,預計2027年市場規模有望超過600億,空間廣闊。 (6)AI視頻:AI已經可以輔助完成視頻生成、替換、剪輯等多項任務,已在短視頻、AI修復等領域廣發應用,下游需求旺盛,未來應用潛力廣闊。
**刷爆的ChatGPT什么算法這么強!臺大李宏毅老師國語講解《ChatGPT (可能)是怎么煉成的 》! **
** **
** **
AIGC多模態跨模態應用逐漸成熟,市場空間廣闊。 廣義的AIGC指具備生成創造能力的AI技術,即生成式AI。可以基于訓練數據和生成算法模型,自主生成創造新的文本、圖像、音樂、視頻等內容。2022年被稱為AIGC元年,未來兼具大模型和多模態模型的AIGC模型有望成為新的技術平臺。據《中國AI數字商業產業展望2021-2025》報告,預測AI數字商業內容的市場規模將從2020年的40億元,增加到2025年的495億元。 ChatGPT產品歷經多代技術演進,產品與商業模式逐漸成熟。 ChatGPT是文本生成式AI,過去的傳統AI偏向于分析能力,主要基于已有內容;現在文本生成式AI基于底層Transformer模型,不斷訓練數據和迭代生成算法模型,歷經GPT-1、GPT-2、GPT-3,模型不斷升級,到ChatGPT的GPT3.5模型,已可以自主生成各種形式的內容。近期收費版ChatGPTPlus版本發布,AI商業化序幕逐漸拉開。 AI商業化落地在即,行業算法側和算力側投資機會有望超預期。 根據數據顯示,ChatGPT總算力消耗約為3640PF-Days,按國內的數據中心算力測算,需要7-8個數據中心才能支持其運行。各模態AI數據訓練到應用均需要算法和算力的加持,未來要想大規模應用,算法訓練和算力部署均需先行。
AIGC成為新的內容生產方式,跨模態生成值得重點關注。區別于PGC與UGC,AIGC是利用人工智能技術自動生成內容的新型生產方式。按照模態區分,AIGC可分為音頻生成、文本生成、圖像生成、視頻生成及圖像、視頻、文本間的跨模態生成,細分場景眾多,其中,跨模態生成需要重點關注。 自然語言處理(NLP)賦予了AI理解和生成能力,大規模預訓練模型是NLP的發展趨勢。NLP的兩個核心任務分別是自然語言理解(NLU)和自然語言生成(NLG)。以ELMo、BERT、GPT為代表的預訓練模型,降低了NLP的技術門檻。ELMo解決了“一詞多義”的問題;BERT通過MLM(類似于完形填空)和NLP(判斷句子是否相連)進行預訓練,增強了上下文的理解能力。GPT通過預測下一個詞,獲得了生成能力;GPT-3在此基礎上使用了更大的數據和更大模型,無需針對下游任務進行傳統的微調,并且采用了小樣本學習提升生成效果。 ChatGPT是NLP發展中具有里程碑式意義的模型之一。ChatGPT是OpenAI從GPT-3.5系列中的模型進行微調產生的聊天機器人模型。它能夠通過學習和理解人類的語言來進行對話,還能根據聊天的上下文進行互動,真正像人類一樣來聊天交流,甚至能完成撰寫郵件、視頻腳本、文案、翻譯、代碼等任務。 生成模型賦予了AI創造力,擴散模型是最前沿的技術之一。AIGC的快速發展歸功于生成算法領域的技術積累。GAN的核心思想是“生成”與“對抗”,相比傳統的深度神經網絡,GAN能產生更好的生成樣本,但是仍需解決應用中的問題。擴散模型較GAN更接近人的思維模式,是基于馬爾科夫鏈,通過學習噪聲來生成數據。擴散模型實現了跨模態應用,包括OpenAI的GLIDE和DALL·E2、谷歌的Imagen、StabilityAI的StableDiffusion等。 人工智能由單模態智能,向多種模態融合方向發展。建立統一的、跨場景、多任務的多模態基礎模型或將成為人工智能發展的主流趨勢之一。CLIP模型將語言信息和圖像信息聯合訓練,能夠鏈接文本和圖片,成為跨模態生成應用的一個重要節點,“CLIP+其他模型”在跨模態生成領域成為一種較為通用的做法。2022年,微軟提出的BEiT-3多模態基礎模型,在視覺-語言任務處理上具備出色表現,包括視覺問答、圖片描述生成和跨模態檢索等。多模態提高了基礎模型的靈活性,使其在其他模態的應用中發揮新的潛質。 未來,值得關注的技術要素包括:長文本生成、開放式文本生成、NeRF模型、擴散模型、跨模態大型預訓練模型(支持的模態數據類型、模態對齊架構設計、支持的下游應用)、小樣本學習及自監督算法、強化學習及環境學習等。
如同蒸汽時代的蒸汽機、電氣時代的發電機、信息時代的計算機和互聯網,人工智能正成為推動人類進入智能時代的決定性力量。全球產業界充分認識到人工智能技術引領新一輪產業變革的重大意義,紛紛轉型發展,搶灘布局人工智能創新生態。人工智能細分賽道持續創新下變革在即,本報告重點關注AIGC領域。
AIGC顛覆傳統內容產出模式,或為web3.0內容創造新引擎。AIGC本質上是一種AI賦能技術,能夠通過其高通量、低門檻、高自由度的生成能力廣泛服務于各類內容的相關場景及生產者。隨著人工智能生成能力的突破進展,內容生產已經從專業生成內容(PGC)、用戶生成內容(UGC),進入到人工智能生成內容(AIGC,AI generated content)時代,AIGC被認為是web3.0的重要基礎設施。AIGC的快速興起源于深度學習技術的快速突破和日益增長的數字內容供給需求;應用價值層面,AIGC有望成為數字內容創新發展新引擎,為數字經濟發展注入新能量。數據+算法+算力三大核心要素,決定AIGC產出質量。①數據,海量優質的應用場景數據是訓練算法精確性關鍵基礎。②算法,神經網絡、深度學習等算法是挖掘數據智能的有效方法。與傳統機器深度機器學習算法不同,神經網絡在學習范式+網絡結構上的迭代提升了AI算法的學習能力,未來多模態大模型或為核心趨勢,賦能產業空間及實踐潛力。③算力,計算機、芯片等載體為AIGC提供基本的計算能力。 AIGC技術場景中,個性化及自動化內容產出為核心價值。①技術成熟度較高結構化領域大部分是在和人力生成內容進行競爭。其中的存量價值來源于同類內容的降本增效,而增量價值則來源于跨模態的內容生成以及AI本身帶來的科技感。對內容渠道的把控將成為核心競爭力。發行商、內容最終消費渠道具有強的產業鏈話語權。②底層技術基本明確/仍待完善的原創性創作領域,本質為AI下的個性化數字內容的自動化構建。該領域重點關注和其配套數據或底層原理是否清晰、商業化路徑。目前AIGC整體影響仍十分有限,主要是中國市場供給端仍處于起步階段。 AIGC應用場景中,數字化程度高及內容需求豐富的領域有廣闊應用空間。隨著AIGC技術快速迭代,其可高效生成不同模態的信息產出(包括文字、音頻、視頻及跨模態),以真實性、多樣性、可控性及綜合性等特征,有望幫助企業提高內容生產的效率,以及為其提供更加豐富多元、動態且可交互的內容,或將率先在傳媒、電商、影視、娛樂等數字化程度高、內容需求豐富的行業取得重大創新發展。 深度學習模型+開源模式加速AIGC普及,海外AIGC已到了“快速發展階段”。①隨著深度學習模型不斷迭代,人工智能生成內容百花齊放,產出效果逐漸逼真直至人類難以分辨。2018年,人工智能生成的畫作在佳士得拍賣行以43.25萬美元成交,成為首個出售的人工智能藝術品;2019年,DeepMind發布DVD-GAN模型用以生成連續視頻;2022年11月,OpenAI上線了智能對話系統(聊天機器人)ChatGPT,引發全球熱潮。ChatGPT的成功離不開參數競賽時代下的“大模型”,顯卡等硬件優化帶來的“大算力基礎”與基于“大數據”的RLHF訓練模式。但由于訓練數據的缺乏及訓練數據的偏差,ChatGPT仍需要高成本的調優及持續訓練,進而實現商業化落地。②“開源模式”加速AIGC產業發展。以深度學習模型CLIP為例,開源模式加速CLIP模型的廣泛應用,使之成為當前最為先進的圖像分類人工智能,并讓更多機器學習從業人員將CLIP模型嫁接到其他AI應用。 中國AIGC仍處“萌芽期”,技術能力與產品形態的成熟、核心場景的確定及產業的接納態度為行業關鍵發展節點。據量子位預測,AIGC在中國發展可分為三個階段:助手階段(摸索磨合期,2021年~2026年):AIGC輔助人類進行生產,優先變現的關鍵在于編輯優化功能,行業創新關鍵能力為素材模塊分拆+個性化推薦;協作階段(推廣應用期,2026年~2028年):人機共創,主要價值為降本增效及提供創意,預計互聯網大廠將普遍布局,競爭熱度提升;原創階段(價值增長期,2028年之后):AIGC將獨立完成內容創作,產生附加價值。中國AIGC企業均在初創階段,機會也許藏在垂直應用領域中,對賽道的選擇十分關鍵。
全真互聯時代正在悄然到來,加速線上線下的跨時空融合,作為全真互聯的重要入口,數字人可以推動線上和線下更加全面地一體化,打造出沉浸式的“全真”體驗與可操作的“互聯”交互。進入2022年以來,數字人在諸多應用場景大放光彩,特別是在北京冬奧會的開幕式表演、氣象播報、手語解說中頻頻現身,使其用戶基礎不斷擴大。爆點事件推動數字人產業被用戶不斷加深認知,數字人形態、技術及應用受到大量關注,而支持產業快速發展的底層元素則包括技術的發展、用戶新需求、生態完善和標準的支持等。
伴隨著全真互聯的到來,未來數字人應用還將具有哪些可能性,技術路線會產生哪些變化? 騰訊研究院、騰訊云智能和創業黑馬合作,先后對數十家從事數字人的企業進行深度調研與跟蹤訪談 ,分析產業發展現狀,底層驅動力、未來方向和挑戰等。形成****《數字人產業發展趨勢報告(2023)》****(文末附下載二維碼)。從數字人的價值定位、核心技術、行業應用、C端發展、產業聚集 等十個不同維度進行剖析,挖掘出產業發展的十大趨勢。
****趨勢1:數字人制造和運營服務的B端市場不斷擴大,將面向更廣大的C端用戶提供服務,各類數字人價值定位和商業模式有差異。****數字人的最終服務對象為C端用戶,在B端的應用領域從電影動畫向廣告營銷、電商直播、虛擬偶像等領域不斷擴展。未來,以虛擬分身為代表的應用潛力巨大。從需求角度,數字人制造和運營服務在B端市場不斷擴大領域和規模,面向更廣大的C端用戶提供服務,而制作方式也從PGC向UGC發展。在20世紀80年代電影、動畫等領域早期的手繪數字人最先出現,伴隨著21世紀初計算機動畫和動捕技術的成熟,內容/IP型數字人大量應用在影視行業中,主要是增強影視中觀眾的體驗效果,隨后逐漸在文娛、市場營銷、文旅、虛擬偶像等場景推廣應用。近年,伴隨AI驅動技術的成熟,功能服務型數字人陸續出現,主要應用于行業服務場景,如金融數字人客服、傳媒數字人口播等。在虛擬空間中的虛擬分身數字人大范圍出現相對較晚,虛擬空間的技術和產品還在發展中,待產業進一步完善,此類應用潛力巨大,是數字人市場的增量空間。
****趨勢2:技術集綜合迭代驅動數字人形似人,制作效能將繼續提升。****多元技術推動數字人外形更像真人:建模技術發展推動超寫實數字人制作門檻、成本和周期進一步下降;物理仿真算法迭代推動服裝動態展示趨向真實;渲染引擎迭代和GPU算力提升推動數字人畫面更加精細和實時化;算法的優化推動專業動捕設備趨向便捷化,視覺動捕在C端應用潛力更大;面部捕捉技術向更簡單的硬件、更細膩的表情、更自動化的流程方向發展。
****趨勢3:AI技術驅動數字人多模態交互更神似人,并逐步覆蓋數字人全流程。****當前數字人對語言理解還是以文本為主,動作合成上聲唇同步較為完善:(1)AI驅動數字人是指數字人等語音表達、面部表情和動作形態等通過深度學習模型進行運算,并將其結果實時或者離線驅動,并進行渲染。目前主流的 方式是圍繞NLP能力通過文本驅動,本質是通過ASR-NLP-TTS等AI技術進行感知-決策-表達的閉環來驅動數字人交互,同時需要預先設置相關的知 識圖譜或問答庫等,與數字人的對話系統對接,但目前NLP在通用性場景的能力還需要進一步完善。 (2)計算機視覺(CV)目前數字人聲唇同步技術相對完善,在游戲中已經大量應用;而其他表情和動作還需要描述性的數據或者標簽驅動,尚未智能合成, 表情動作也是是AI驅動未來發展的重點方向。 未來AI技術的重點方向是在輸入端實現多模態感知輸入,在輸出端提升多模態交互能力,綜合提升數字人的表現力,從目前的基于文本的交互,轉化為基 于語義的交互,特別是需要強化對人情緒的感知和表達。此外除了利用ASR-NLP-TTS等技術驅動數字人交互外,AI技術也應用在2D數字人的視頻生成、3D數字人的建模、視頻驅動、物理仿真等多個環節。
****趨勢4:數字人技術與SLAM、3D交互、體積視頻、空間音頻等技術深度融合,渲染將從本地到云端。****數字人作為3D呈現的一種方式,未來將與其他3D技術如SLAM(即時定位與地圖構建)、體積視頻、空間音頻等融合,進一步完善數字人和真實空間的交互。例如在直播場景中虛擬/真實空間中真人和數字人的交互,數字人對真實空間的感知等。同時由于數字人對渲染能力要求較高,未來云端渲染是重要的方向,將推動云服務商從算力(CPU)云服務,到渲染力(GPU)的云服務。但成本仍是云渲染普及的關鍵阻礙,需要突破。
****趨勢5:千行千面的數字人將成為人機交互新入口,但深度上仍需挖掘。****AI驅動的數字人通過AI能力建立人與大數據的連接,提高效率并滿足人情感交流需求,提升用戶體驗,將成為人機交互新入口:應用廣度上:目前使用文字或語音交互的場景都可用AI數字人軟著陸的方式替代,不需要改變原有的業務邏輯和商業模式,大眾接受成本較低,并提供更好的用戶體驗,未來應用場景非常廣泛,可以與各種領域相結合,服務規模化和標準化。應用深度上:數字人作為企業的數字資產,是對員工工作的增強,具有生產力的屬性,可以進一步釋放生產力,同時降本增效。未來數字人將根據不同行業的業務特點和應用場景進行更深度結合,孵化千行千面的數字員工,提供差異化服務。
****趨勢6:UGC數字人將加速出現,成為未來產業的增量空間。****未來1-2年技術門檻和成本將快速下降,會出現更開放的創作者生態、更豐富的UGC內容和商業模式,UGC將成為數字人的增量空間,同時也是數字人在C端應用的主要生產方式
********趨勢7:數字人仍以2D顯示設備為主,3D顯示設備成為特定領域的新解法。****數字人的顯示載體包括手機、平板電腦、AR/VR眼鏡、智慧大屏或線下一體機等多種終端設備。PC、手機、智慧大屏、銀行VTM機等2D主流顯示設備仍是數字人顯示的主要載體。數字人和3D的數字內容,對于裸眼3D、VR、AR等3D顯示設備的普及具有推動重要。特別在VR/AR設備中,6dof交互更突出數字人特點,因此會在特定領域成為新解法,如在XR設備中的線上演唱會、展會和會議等應用場景。
****趨勢8:在場是數字人發展的高級階段,將與應用場景深度耦合。****離線階段--目前數字人產業正處于快速發展期間:離線渲染、非交互類型的數字人仍是主流,在數字化營銷、文娛等領域應用廣泛;AI驅動的數字人在行業服務中,虛擬分身數字人在虛擬空間中處于爆發前期。在線階段--伴隨數字人快速發展和大量使用,用戶將很快進入體驗突破階段,在此階段利用AI驅動提供初級的實時交互和實時渲染技術不斷突破在場階段--實時交互,更加智能的數字人,并結合更深的行業理解,帶來更真實的沉浸感和更大的價值。
****趨勢9:藝術和技術雙輪驅動,北京有望成為產業新高地。****作為科技產品,數字人需要技術研發、人工智能、產品設計、運營、融資環境等多方面人才,因此互聯網發展較好的區域,如北京、杭州、上海、深圳等互聯網和數字內容高地,將成為數字人產業的重要聚居地。在眾多因素中,藝術和科技是最強驅動力,北京藝術資源相對集中,擁有中國傳媒大學、中央美術學院頭部藝術類院校和專家資源;科技產業優勢突出,互聯網企業數量較多,聚集了大量技術研發、AI算法等方面的人才;同時政府高度重視數字人產業,第一個發布數字人發展政策。在產業和政策的推動下,有望成為數字人產業聚焦的新高地。
********趨勢10.:數字人版權保護及行業合規體系需同步建設,推動實現可用、可靠、可知、可控。****數字人行業總體還在快速發展階段,發展和生存是企業的重點和方向,數字人著作權、外觀設計專利、商標等知識產權保護體系亟待完善。面向未來,數字人會正朝幾個方向加速迭代:一是外貌更加精致,形象更加逼真,動作更加自然,即“皮囊更好看”,跨越恐怖谷效應后,會使人覺得數字人和真人無異,有利于建立良好的心理連接;二是隨著AI技術的不斷完善,數字人多模態感知和交互的能力會得到顯著提升,數字人未來有可能具備記憶力和判斷力,從而更加智能,行為和思想上更趨于接近人,擁有“有趣的靈魂”。此外,數字人產業的加速發展,也需要渲染、動捕等行業開發工具、云渲染等技術支持體系的進一步完善,從而大幅提升制作效能,有效降低制作時間和成本。目前,很多技術已經接近商業化大規模推廣的臨界點,數字人產業有望進入全真互聯的新階段:將可能作為我們的分身,成為數字世界的交互入口,為我們帶來更智能、更沉浸的“在場”體驗。
報告目錄如下:(一) 發展現狀1. 網紅數字人推動C端直觀認知和概念普及2. 融資事件頻繁及專項政策的出臺進一步加深對產業的認知3. 技術發展是數字人第一推動力4. Z世代用戶崛起,數字人和虛擬空間為互聯網原生一代提供新體驗5. 頭部企業從工具、平臺和應用多維度入局,引領數字人產業發展6. 標準制定引導產業規范發展**(二) 產業趨勢1. 價值定位:**數字人制造和運營服務的B端市場不斷擴大,將面向更廣大的C端用戶提供服務,各類數字人價值定位和商業模式有差異。**2. 技術迭代:**技術集綜合迭代驅動數字人形似人,制作效能將繼續提升。**3. AI賦能:**AI技術驅動數字人多模態交互更神似人,并逐步覆蓋數字人全流程。**4. 融合發展:**數字人技術與SLAM、3D交互、體積視頻、空間音頻等技術深度融合,渲染將從本地到云端。**5. 行業應用:**千行千面的數字人將成為人機交互新入口,但深度上仍需挖掘。**6. C端模式:**UGC數字人將加速出現,成為未來產業的增量空間。**7. 硬件載體:**數字人仍以2D顯示設備為主,3D顯示設備成為特定領域的新解法。**8. 發展路徑:**在場是數字人發展的高級階段,將與應用場景深度耦合。**9. 產業集聚:藝術和技術雙輪驅動,北京有望成為產業新高地。10. 合規前置:數字人版權保護及行業合規體系需同步建設,推動實現可用、可靠、可知、可控。(三) 應用案例1. 典型產品:**數字人播報SaaS工具、數字人UGC制作工具、數字人生產工具、快速數字分身生成工具、C端數字人直播工具、布料實時仿真工具、AI驅動數字人直播工具、視頻實時驅動產品、 AI 驅動業務中臺、虛擬空間產品2. **新型顯示:**AR眼鏡、裸眼3D屏幕、沉浸式裸眼3D交互3. **解決方案:**騰訊云數字人整體解決方案、中之人驅動直播方案、超寫實數字人制作方案、高品質數字人制作和直播方案4. **行業應用:金融、傳媒、文旅、云展廳、科教、泛娛、影視、市場營銷、公益**
? 導 讀
**白皮書跟蹤梳理了人工智能生成內容的發展演進,重點從技術、應用、治理等維度對人工智能生成內容進行了分析,并從政府、行業、企業、社會等層面,給出了我國發展和治理人工智能生成內容(AIGC)的建議。
**
全文共計1843字,預計閱讀時間8分鐘
來源 | 中國信息通信研究院和京東探索研究院(轉載請注明來源)編輯 | 趙超
白皮書主要內容/核心觀點
01
**白皮書對人工智能生成內容(AIGC)的概念與內涵進行了多層次的深刻理解與清晰明確的分析定義。**白皮書圍繞人工智能生成內容(AIGC)的歷史沿革、興起背景、技術能力、應用價值等維度進行了橫向與縱向的思考與整理,明確了技術與應用的邊界與組成,為未來的行業發展提供方向參考。
02
**白皮書對人工智能生成內容(AIGC)當前技術發展和能力體系做出全面梳理,認為深度神經網絡技術在大模型和多模態兩個方向上的持續突破,推動AIGC技術演化出孿生、編輯、創作三大前沿能力。**白皮書所提煉的AIGC技術能力體系,既涵蓋了相關技術的最新進展和未來發展方向,也囊括了助力AIGC應用創新和產品落地的三大核心能力。 03
**白皮書整理總結了人工智能生成內容(AIGC)行業應用現狀,提出人工智能生成內容(AIGC)率先在傳媒、電商、影視、娛樂等數字化程度高、內容需求豐富的行業取得重大創新發展,并正加速與各行各業的結合。**白皮書重點分析了人工智能生成內容(AIGC)在傳媒、電商、影視等行業和場景的應用情況,探討了以虛擬數字人等為代表的新業態和新應用。
04
**本白皮書對我國人工智能生成內容發展中所存在的問題進行了客觀分析,即人工智能生成內容(AIGC)的關鍵技術、企業管理和政策監管尚未完善,并提出建議對策。**白皮書從技術算法、企業管理、政策監管等視角,梳理了人工智能生成內容(AIGC)所暴露出的版權糾紛、虛假信息傳播等各種問題,并從政府、行業、企業、社會等層面,給出了人工智能生成內容(AIGC)發展和治理建議。
白皮書全文如下
2022年7月28日,2022全球數字經濟大會“人工智能驅動未來產業論壇”在京召開。
會上,中國信息通信研究院副院長魏亮與深度學習技術及應用國家工程研究中心主任王海峰聯合發布了《深度學習平臺發展報告(2022年)》。報告對深度學習平臺發展階段、體系架構、技術趨勢和應用路徑進行分析闡述,并展望了未來演進方向。
報告認為,伴隨技術、產業、政策等各方環境成熟,人工智能已經跨過技術理論積累和工具平臺構建的發力儲備期,開始步入以規模應用與價值釋放為目標的產業賦能黃金十年。隨著人工智能的規模化落地,基于深度學習框架上下延伸、構建智能生態平臺成為國內外科技巨頭的共同選擇。
報告指出,深度學習平臺市場正處于快速發展期,我國開發框架在市場與生態方面持續發力,已逐步進入行業滲透和融合應用階段,支撐構建一批更加符合本地產業特色和場景需求的解決方案。以飛槳為代表的國產框架基于我國產業實踐與應用創新需求,在社區生態構建上持續發力、優勢漸顯,在平臺服務規模和技術應用能力方面更已具備領先優勢,不斷夯實AI工業大生產的基礎,有力推動了我國實體經濟的高質量發展。
展望黃金十年,報告提出深度學習平臺能力將圍繞技術實力、功能體驗、生態模式三個維度演進迭代。以深度學習平臺為牽引的全行業智能化轉型拉開帷幕,幫助企業乃至國家在數字社會與智能經濟時代獲得發展先機。構建基于深度學習平臺的人工智能產業生態,需要政府、科研機構、人工智能企業和傳統行業企業等各方通力協作配合,共同營造積極健康的產業生態。
掃碼獲取報告
報告目錄
**一、**開啟產業賦能黃金十年
(一) 人工智能處于工程化應用歷史性機遇期 (二) 深挖深度學習技術潛力是發展主旋律,規模化應用面臨多元挑戰 (三) 平臺化生態布局成為業界共識 (四) 深度學習平臺展現驅動產業賦能升級的巨大潛力
二、深度學習平臺體系架構
(一) 深度學習平臺三要素體系 (二) 深度學習平臺核心作用
三、深度學習平臺的技術創新重點
(一) 開源開發框架,深度學習平臺的基礎核心
四、 深度學習平臺的產業生態與應用路徑
(一) 我國開發框架在市場與生態方面持續發力 (二) 多類生態建設共同促進深度學習平臺繁榮發展
五、 總結與展望
人工智能作為新一輪科技革命和產業變革的戰略性技術,正在對經濟發展、社會進步、全球治理等方面產生重大而深遠影響,加快人工智能基礎設施布局已成全球主要國家戰略重點。
人工智能基礎設施作為“新基建”的重要部分,我國重視并積極支持人工智能基礎設施建設發展,在公共數據集、行業資源庫、計算平臺、AI 芯片、算法學習框架、開放 AI 平臺、網絡基礎設施等人工智能基礎設施方面重點布局。報告認為人工智能基礎設施是以算力要素能力、數據要素能力、算法要素能力構成的基礎能力平臺為底座,以應用開放平臺等為主要載體,以賦能制造、醫療、交通等重點行業和領域智能化轉型為目標,為實現壯大智能經濟、構建智能社會的專有服務設施能力體系。當前,我國人工智能基礎設施尚處于初期,發展迅猛,其發揮的效力及釋放的價值還有很大的想象空間。