**內容簡介:**ChatGPT的火爆出圈使得AI生成(AIGC)技術受到了全社會前所未有的廣泛關注。此消彼長之下,傳統的知識工程遭受了諸多質疑。在多模態智能領域,AIGC的能力不斷提升,多模態知識工程工作應該何去何從?是否仍有價值?在本次分享中,講者將探討當前AIGC技術耀眼“光芒”背后的“暗面”,思考與展望AIGC時代的多模態知識工程研究。
關于AIGC時代的多模態知識工程思考與展望,我們將從以下六個方面展開介紹: 第一部分,我們回顧一下AIGC技術的發展歷程和它帶來的劃時代影響力; 第二部分,我們對AIGC技術的不足(阿克琉斯之踵)之處進行分析與總結; 第三部分,我們將介紹多模態認知智能的框架和兩種實現路徑,并進行對比分析;第四~六部分,我們會展望當前AIGC大模型和MMKG多模態圖譜間如何競與合。
01
AIGC時代:未來已來
隨著人工智能總體階段的發展,生成式人工智能技術(AIGC)也在不斷迭代。從20世紀50年代到90年代中期,是AIGC的早期萌芽階段,這一時期受限于技術水平,AIGC僅限于小范圍實驗。這一時期的AIGC典型事件包括:1950年,艾倫·圖靈提出的著名的“圖靈測試”,給出判斷機器是否具有“智能”的方法;1966年,世界上第一款可人機對話機器人“Eliza”的問世;以及在80年代中期IBM公司創造的語音控制打字機“Tangora”的出現。
而從20世紀90年代到21世紀10年代中期,AIGC處于沉淀積累階段,這一階段的AIGC技術從實驗性向實用性轉變,但仍因受限于算法瓶頸,無法直接進行內容生成。這一階段的AIGC典型事件則包括2007年世界上第一部完全由人工智能創作的小說《1 the road》的問世;以及2012年微軟開發的全自動同聲傳譯系統的出現,它能夠將英文語音自動翻譯成中文語音。
自21世紀10年代中期至今,是AIGC快速發展的階段,得益于深度學習算法不斷迭代,人工智能生成內容百花齊放。2014年,Goodfellow提出的生成對抗網絡GAN用于生成圖像;2019年,英偉達發布StyleGAN模型可以自動生成高質量圖片;2019年DeepMind發布DVD-GAN用于生成連續性視頻,直到2022年,OpenAI發布ChatGPT模型生成流暢的自然語言文本。
可以說,ChatGPT的爆紅出圈宣告了AIGC時代的到來。
現在的AIGC技術可以生成的內容包括文本、圖像、音頻和視頻等。如今,已經有很多強大的算法被發明出來,如用于圖像生成的Stable Diffusion算法。此外,還有很多走在技術前沿的創業公司不斷推動AIGC技術的應用落地,如Jasper AI的AI寫作軟件和midjourney的AI繪畫工具的發明都在解放著人類的內容創作生產力。這些共同促進了一個萬物皆可AI生成的AIGC時代。
右圖是一張來自互聯網的趣味圖片——機器人一家三口在人類博物館中觀賞人類的最后一篇推文“GPT-5也沒啥了不起的”——表達了創作者對當今AIGC技術飛速發展的隱隱擔憂。
那么,我們首先看一下多模態大模型的分類與發展脈絡。如上圖所示,多模態大模型發展非常迅速,我們可以將多模態大模型簡單分為多模態統一大模型和多模態文圖生成大模型,前者用于統一的多模態生成和理解,后者特指具備強大的多模態文到圖生成能力的大模型。
當前,文圖生成大模型已經可以生成逼真、高清以及風格化的意境圖像。
還有一些文圖生成大模型,如斯坦福大學提出的ControlNet,其生成能力更加精致、可控。它不僅可以生成各類質地細膩、細節精致的圖片,也可以通過簡筆畫來對圖像生成進行操控。
AIGC大模型生成的視頻在某種程度上也可謂自然流暢、栩栩如生。
我們還看到Google發布的PaLM-E模型,展現了多模態AIGC大模型驅動的具身智能的情景。這個具備5620億參數的具身多模態大模型,可以將真實世界的傳感器信號與文本輸入相結合,建立語言和感知的鏈接,可以用自然語言操控機器人完成操作規劃、視覺問答等任務。
AIGC的驚艷效果不禁讓很多人對符號主義(知識工程)的研究產生了疑問。Rich Sutton在著名文章《苦澀的教訓》中提出,唯一導致AI進步的因素是更多的數據和更有效的計算。而DeepMind的研究主任Nando de Freitas也宣稱,“AI現在完全取決于規模,AI領域更難的挑戰已經解決了,游戲結束了!”。我們也看到,在大多數領域,大模型已經(暫時)戰勝了精心設計的知識工程。然而,AI的流派之爭真的結束了嗎?
02
AIGC的阿克****琉斯之踵
第二部分,讓我們來看一下當前AIGC大模型實際存在的一些問題。
盡管今天的ChatGPT(包括GPT-4)很強大,它的諸多問題仍舊難以忽視: 第一、強語言弱知識的問題,ChatGPT無法理解用戶查詢中的知識性錯誤,它具備強大的語言能力,但知識能力仍舊較弱; 第二、實時信息自更新慢,新舊知識難以區分,目前ChatGPT的知識還停留在2021年,而每一次信息更新都需要成本高昂的重新訓練; 第三、其邏輯推理能力并不可靠,應該說尚不具備復雜數學邏輯推理與專業邏輯推理能力; 第四、由于缺乏領域知識,它也無法真正為領域類問題提供專業靠譜的答案。
當前的多模態大模型的跨模態生成能力也尚不完善。上圖是我們用文圖生成大模型Stable Diffusion生成的一些案例。具體來說,當前的文圖生成存在組合泛化、屬性泄露、方位理解混亂、語義理解錯誤等問題。因此,盡管我們看到AIGC跨模態生成的視覺效果驚艷,但往往存在較大的模態間信息不對稱問題。
此外,當前多模態大模型的多模態理解能力也存在問題。上圖是來自BLIP2進行視覺問答任務的錯誤樣例。我們看到: 1)模型由于缺乏事實知識,無法知曉球拍上的“w”圖案是品牌“Wilson”的logo,因而錯誤回答成“nike”; 2)模型由于欠缺邏輯推理能力,不理解圖像場景和問題的邏輯關系,因而回答錯誤; 3)模型由于常識儲備不足,對某個具體場景(沖浪)下的意圖理解犯了常識性錯誤。
讓我們再來看一下Google的具身多模態大模型PaLM-E,雖然依賴如此大規模的參數實現了初步的機器人操控,但其demo視頻中所展示的空間范圍、物品種類、規劃和操作任務的復雜度等都非常有限。我們可以想象,如果要在真實世界的復雜場景中達到實用級別,PaLM-E的參數規模是否還需要增大百倍、千倍甚至萬倍?如果一味用海量參數存儲所有知識,那么智慧涌現的代價是否過于昂貴?
至此,我們對多模態大模型做個簡單的小結。首先,多模態大模型的本質是“用語言解釋視覺,用視覺完善語言”。換句話說,我們要將文本中的語言符號知識,與視覺中的可視化信息建立統計關聯。所謂“用語言解釋視覺”,就是將語言中蘊含的符號知識體系和邏輯推理能力延伸至對視覺內容的理解;而所謂“用視覺完善語言”,是指豐富的視覺信息可以成為符號知識體系和邏輯推理能力的重要完善和補充。
我們知道,多模態大模型能發揮重大作用的重要前提是: 1)具有海量高質量圖文配對數據; 2)文字富含事實知識和常識; 3)其邏輯推理過程可顯式化被學習。
而我們所面臨的現實情況卻是: 1)數據量大但質量差,信息不對稱; 2)純文字中的知識與常識也不完備; 3)其邏輯推理是隱性難以學習的。
正因為這些理想與現實間的差距,導致了前面提到的多模態大模型的種種問題與不足。綜上,我們認為,統計大模型始終難以較低成本,全面、準確地掌握人類知識、常識和邏輯推理能力。
03
多模態認知智能
第三部分,我們引出多模態認知智能,其研究旨在解決前一部分提到的問題。
上圖是我們提出的一個多模態認知智能的研究框架。總的來說,多模態認知智能主要研究基于多模態數據的知識獲取、表示、推理與應用。在多模態知識獲取層面,我們從語料中通過抽取、生成、群智等方法獲取知識或者從語言模型中萃取知識。在多模態知識表示層面,可以使用多模態圖譜、常識圖譜、語言模型、大規模知識網絡等方法進行知識表示。基于多模態知識表示,可以進一步支撐多模態理解、推理和元認知等能力,從而賦能諸如跨模態搜索、推薦、問答、生成等多模態知識的應用。
多模態認知智能目前有兩種實現路徑。一種是多****模態大模型,其代表了聯結主義和經驗主義的思想,從海量預訓練數據中學習概率關聯,是簡單而魯棒的,它屬于統計學習范疇,具備端到端、干預少和“數”盡其用的優勢,其劣勢在于難以學習到從因到果、從主到次、從整體到部分、從概括到具體、從現象到本質、從具體到一般等邏輯關系。
另一種實現路徑是多模態知識工程,其代表了符號主義的思想,從精選數據和專家知識中學習符號關聯,是精細而脆弱的,它往往通過專家系統和知識圖譜實現,具備易推理、可控、可干預、可解釋的優點,但是它的劣勢主要在于將數據轉換成符號知識的過程往往伴隨著巨大的信息損失,而其中隱性知識等難以表達的知識往往是信息損失的主體。
結合多模態大模型和多模態知識工程的優劣勢分析,我們認為:在AIGC大模型時代,多模態知識工程依然不可或缺。
當前,多模態知識工程的主要形式之一是多模態知識圖譜(MMKG)。多模態知識圖譜是在傳統知識圖譜的基礎上,增加多種模態數據以豐富符號知識表達的方法,其多模態數據包括但不限于圖像、視頻、語言、代碼等。多模態知識圖譜可以將符號接地到具象的視覺等模態對象上,實現跨模態語義對齊。
目前多模知識圖譜的主流形式有兩種。 一種是A-MMKG,其中多模態數據僅作為文字符號實體的關聯屬性存在; 另一種是N-MMKG,其中多模態數據也可作為圖譜中的實體存在,可與現有實體發生廣泛關聯。
至此,我們進一步分析AIGC多模態大模型和大規模多模態知識圖譜各自的優缺點。
多模態大模型的優點是:
1)關聯推理能力強:可以學習掌握大量跨模態知識模式,隱空間的關聯推理能力強,具有很強的泛化能力; 2)多任務通吃:一套大模型處理各類跨模態任務; 3)人工成本低:不依賴人工schema設計與數據標注; 4)適配能力強:可通過調優訓練或prompt對話等方式來適配新的領域和任務。
而其不足之處在于:
1)可靠程度低:所生成的內容可靠性堪憂,存在誤差累積、隱私泄露等問題,無法勝任高精度嚴肅場景需求; 2)知識推理弱:沒有真正掌握數據背后的知識,缺乏知識推理能力,更無因果推理能力; 3)可解釋性弱:雖有CoT加持,但可解釋性仍然不足; 4)訓練成本高:需要消耗大量計算資源和時間來進行訓練,需要強大的計算設備和高效的算法。
**而與之對應的,**多模態知識圖譜的優點是:
1)專業可信度高:其結構和關系清晰,易于理解和解釋,可為人類決策提供參考,通常為某個具體應用場景構建,可提供更精準和針對性的知識支持; 2)可解釋性好:以結構化形式表示知識 ,知識的可訪問性、可重用性、可解釋性好,對人類友好; 3)可擴展性強:知識圖譜的內容可以隨著應用場景的需要進行不斷擴展和更新,可以不斷完善和改進。
而多模態知識圖譜的缺點在于:
1)推理能力弱:只能表示已有的知識和關系,對于未知或不確定的領域難以進行有效的知識建模和推理; 2)人工成本高:其構建需要依賴于人工或半自動的方式進行知識抽取和建模,難以實現完全自動化; 3)架構調整難:其基本schema架構通常是靜態的,不易根據新的數據或場景進行修改和調整。
由上分析可見:多模態大模型的優點常常是多模態知識圖譜的不足,而多模態大模型的不足又往往是多模態知識圖譜的優勢。因此,我們認為:當前階段,大模型與知識圖譜仍應繼續保持競合關系,互相幫助,互為補充。
04
AIGC for MMKG
第四部分,我們思考與展望一下AIGC大模型如何輔助MMKG的構建與應用。
第一,AIGC大模型為知識獲取降本增效。
(1)通過知識誘導(萃取),可以快速獲取大量知識或常識。例如,我們可以從語言大模型中誘導語言知識和關系知識;我們也可以從多模態大模型中誘導跨模態對齊知識和視覺常識知識。
(2)AIGC大模型的出現使得零樣本、少樣本、開放知識抽取成為可能。例如,我們可以利用ChatGPT對話大模型的理解和生成能力,從給定文本中抽取三元組知識;我們也可以利用多模態AIGC大模型的跨模態生成和理解能力,從給定圖文數據中抽取多模態知識。
(3)AIGC大模型可以顯著增強垂域多模態知識獲取能力。GPT-4、ChatPDF模型等已經顯示了強大的領域知識抽取能力,如基于多模態文檔的知識抽取。
第二,AIGC大模型助圖譜設計一臂之力。
大模型在部分領域上擁有領域常識知識,可以輔助完成schema的半自動化設計。在多模態場景中,也有一些嘗試,例如可以用多模態AIGC大模型生成cms領域的schema。
第三,AIGC大模型為知識推理保駕護航。
基于大模型的跨模態生成與推理能力,可以輔助完成KG表示學習、圖譜補全等任務。
第四,AIGC大模型為知識融合掃清障礙。
利用大模型的泛化能力和海量知識,可以輔助完成多模態知識圖譜融合。利于對于兩個MMKG的對齊,多模態AIGC大模型在兩者之間可以生成實體知識或語義層面的特征,輔助完成實體對齊。
第五,AIGC大模型為****知識更新舔磚加瓦。
基于大模型的常識知識和通用抽取能力可以輔助MMKG進行知識更新。可以利用多模態AIGC大模型從新事實中輔助抽取新知識;當新知識抽取完成后,可以借助多模態AIGC大模型輔助更新多模態知識圖譜。此外,還可以借助多模態AIGC大模型輔助過期事實檢測,從而將過期知識從知識圖譜中刪除。
第六,AIGC大模型為知識問答錦上添花。
利用大模型的語言理解能力和解析能力,可以幫助更好的構建多模態知識問答系統。在ChatGPT的知識問答評測結果顯示其在很多問題類型上效果顯著,且跨語言低資源情況下具有碾壓級效果,但是其數值類問題效果不及SOTA。因此,使用AIGC大模型助力MM-KGQA和K-VQA等任務,可以提升問題解析能力,強化知識推理能力,提供外部知識輔助等。
05
MMKG for AIGC
第五部分,我們總結與展望一下MMKG如何助力AIGC大模型的提升與完善。
第一,MMKG參與AIGC大模型的生成能力評估**。**
基于多模態知識圖譜中的知識構建測試集,可對大模型的生成能力進行各方面評估。例如利用各類百科知識圖譜進行事實性檢驗評估,也可以利用各類MMKG構建測試集進行符號推理能力評估、視覺常識推理能力評估、非語言推理能力評估等。
第二,MMKG引導AIGC大模型的可控約束生成。
已有工作在文本AIGC模型中引入指定約束(如包含/避免某主題)進行可控生成。可以展望未來會出現多模態知識引導大模型約束生成的工作。比如對于圖像生成,可通過將文本鏈接到多模態知識圖譜的具體實體,提供實體圖像信息,幫助正確生成實體對應圖像;對于文本生成,通過鏈接到多模態知識圖譜的具體實體,提供實體關系屬性和實體圖像等實體畫像信息,幫助正確生成符合實體性質和特點的文本。
第三,MMKG幫助AIGC大模型進行知識編輯。
目前已有在文本大模型上的知識編輯的相關工作。可以預見,未來也會出現利用多模態知識圖譜來對多模態大模型進行知識編輯的研究工作。
第四,MMKG輔助AIGC大模型的領域(任務)適配。
用多模態知識圖譜做領域知識微調可以將大模型的能力適配到領域任務。例如,在電商領域跨模態檢索場景,常常存在語義不匹配的問題。這種情況下,大模型如何低成本、高效率地解決該領域的具體問題是其應用落地的關鍵。我們與阿里合作的這篇工作提出了通過微調大模型,加上多模態知識輔助的方式,實現了大模型的輕量級領域適配。
06
AIGC+MMKG
第六部分,我們展望一下AIGC大模型和MMKG如何進一步合作。
我們認為,走向通用人工智能需要AIGC大模型和MMKG攜手并進。在未來,基于知識工程和統計模型的語言認知和多模態感知將會相互結合,并且借助MMKG和AIGC大模型,共同走向多模態認知的發展道路上。從視覺感知和語言認知到多模態認知,從連接主義和符號主義到神經符號主義,通用人工智能必將是一條融合之路。
AIGC和MMKG的第一種融合方式是注入知識以增強預訓練大模型**。**目前知識增強的預訓練語言模型已有多種路徑實現。在多模態知識增強預訓練的方向上,也有工作將場景圖知識融入視覺語言預訓練模型的預訓練過程中以增強跨模態語言理解能力。未來還有很多方式方法來將MMKG中的知識以更多方式融入到大模型當中。
AIGC和MMKG的第二種融合方式是基于知識檢索增強的多模態生成**。**例如,給定文本提示,訪問外部多模態知識庫以檢索相關圖文對,將其用作生成圖像的參考。
AIGC和MMKG的第三種融合方式是因果知識增強的多模態生成**。**已有工作利用因果圖譜中的因果關系和圖推理能力,輔助大模型的因果決策,通過在因果圖譜上的檢索、推理和融合將因果信息融入大模型推理中。可以展望,未來因果知識也可被用在對多模態大模型的理解與生成能力優化上。
AIGC和MMKG的第四種融合方式是個性化知識接入的多模態生成**。**在未來,或許每個個體或企業都會擁有AI私有化助手,那么如何管理個性化多模態知識,諸如個人畫像知識圖譜、企業畫像知識圖譜、價值觀知識圖譜、自媒體知識圖譜等,將這些知識以一種可插拔式的方式接入AIGC大模型中,提高大模型的個性化生成能力將是非常值得探索的方向。
實際上,Microsoft 365 Copilot就可以看作是知識庫與大模型良好協作的一款劃時代產品。借助Microsoft Graph(可以看做是一種知識庫)與AIGC大模型的協作融合,助力Word、PowerPoint、Excel的生產力大提升。
此外,在行業落地層面,AIGC大模型和MMKG的融合更具價值**。**由于利用海量通用語料和通用知識訓練的通用大模型與行業應用場景之間依然存在鴻溝,因此需要進行行業數據挖掘和行業特色知識獲取來進一步訓練更加實用的行業大模型。
基于上述原因,行業落地往往需要多層次的模型,并有效與知識庫和外部工具進行配合,才能真正解決好行業問題。通用多模態預訓練生成大模型、行業領域預訓練模型、任務小模型以及行業知識庫、外部工具將構成一個模型共同體,協作解決行業復雜問題。
07
總 結
最后總結一下本次分享的主要觀點。首先,AIGC技術的發展必將加速邁向通用人工智能的步伐。但是僅憑AIGC技術無法真正實現通用人工智能。在多模態領域,MMKG的構建與應用仍具重要價值。我們認為,AIGC和MMKG應該相互借力,我們分別從AIGC用于MMKG、MMKG用于AIGC、MMKG和AIGC如何融合三方面給出了二者競合方式的探索和展望。未來,符號知識和統計模型的競合方式有待進一步深入探索。
(在此感謝輔助完成分享PPT材料的課題組同學們,包括陳石松、朱祥茹、王續武、查志偉、王小丹、趙一聰、鄒健。演講稿的文字記錄與整理由查志偉同學完成。)
分享人簡介
李直旭,復旦大學研究員、博士生導師,上海市數據科學重點實驗室主任助理,復旦大學知識工場實驗室執行副主任,曾兼任科大訊飛蘇州研究院副院長,博士畢業于澳大利亞昆士蘭大學。主要研究方向為認知智能與知識工程、多模態知識圖譜、大數據分析與挖掘等。在領域主流期刊和國際會議上發表論文150余篇,主持十余項國家和省部級科研項目。
ChatGPT快速滲透, AI產業迎發展新機 ChatGPT是由OpenAI公司開發的人工智能聊天機器人程序, 于2022年11月發布, 推出不久便在全球范圍內爆火。根據World of Engineering數據顯示, ChatGPT達到1億用戶量用時僅2個月, 成為史上用戶增長速度最快的消費級應用程序。與之相比, TikTok達到1億用戶用了9個月, Instagram則花了2年半的時間。從用戶體驗來看, ChatGPT不僅能實現流暢的文字聊天, 還可以勝任翻譯、 作詩、 寫新聞、 做報表、 編代碼等相對復雜的語言工作。 ChatGPT爆火的背后是人工智能算法的迭代升級。ChatGPT是基于GPT-3.5微調得到的新版本模型, 能夠借助人類反饋的強化學習(RLHF) 技術來指導模型訓練, 實現模型輸出與人類預期的需求, 使對話內容更加人性化和富有邏輯性。從2008年第一代生成式預訓練模型GPT-1誕生以來, GPT系列模型幾乎按照每年一代的速度進行迭代升級, 未來隨著大語言模型(LLM) 技術的不斷突破, AI相關應用有望加速落地, AI產業或將迎來新一輪發展機遇。 ChatGPT激起AI浪潮,大算力芯片迎來產業機遇 ChatGPT是生成式人工智能技術(AIGC) 的一種, 與傳統的決策/分析式AI相比, 生成式AI并非通過簡單分析已有數據來進行分析與決策, 而是在學習歸納已有數據后進行演技創造, 基于歷史進行模仿式、 縫合式創作, 生成全新的內容。AIGC的應用非常廣泛, 包括自然語言生成、 圖像生成、 視頻生成、 音樂生成、 藝術創作等領域。 AIGC產業鏈主要分為上游算力硬件層、 中游數據/算法軟件層和下游行業應用層。硬件層依靠高性能AI芯片、 服務器和數據中心為AIGC模型的訓練提供算力支持, 是承載行業發展的基礎設施;數據/算法層軟件層主要負責AI數據的采集、 清洗、 標注及模型的開發與訓練, 多方廠商入局自然語言處理、 計算機視覺、 多模態模型等領域;行業應用層目前主要涉及搜索、 對話、推薦等場景, 未來有望在多個行業呈現井噴式革新。 多模態賦能下游行業智慧化升級 多模態大模型有望成為AI主流, 賦能下游行業智能升級。生成式AI主要依賴于人工智能大模型, 如Transformer、 BERT、GPT系列等。這些模型通常包含數十億至數萬億個參數, 需要龐大的數據集進行訓練, 致使AI算力的需求也呈現出指數級的增長。多模態是一種全新的交互、 生成模式, 集合了圖像、 語音、 文本等方式, 因其可以結合多種數據類型和模態的學習,將有望徹底改變我們與機器互動的方式, 快速占據人工智能主導地位。我們認為多模態大模型長期來看不僅可以從成本端降本增效, 需求端也將通過快速滲透推廣為下游行業帶來持續增長需求, 從而快速推動下游行業智慧化應用升級。 模型更新升級帶動下游行業不斷發展 從GPT-1到ChatGPT, 模型參數與訓練數據量不斷增加, 所需算力資源不斷提升: GPT-1:最早的GPT模型之一, 包含了1.17億個參數, 預訓練數據量約為5GB。 GPT-2:參數數量達到了1.5億個, 預訓練數據量達40GB。 GPT-3:是目前為止最大的語言模型之一, 包含了1750億個參數, 預訓練數據量為45TB。 ChatGPT:基于GPT-3模型的變種之一, 參數量預計與GPT-3相近。 GPT-4性能提升顯著, AIGC應用市場空間廣闊 多模態模型是實現人工智能應用的關鍵。3月14日OpenAI發布GPT-4多模態大模型, 擁有1) 強大的識圖能力;2) 文字輸入限制提升至2.5萬字;3) 回答準確性顯著提高;4) 能夠生成歌詞、 創意文本、 實現風格變化。在各種專業和學術基準上,GPT-4已具備與人類水平相當表現。如在模擬律師考試中, 其分數在應試者前10%, 相比下GPT-3.5在倒數10%左右。多模態大模型在整體復雜度及交互性上已有較大提升, 模型升級有望加速細分垂直應用成熟, 賦能下游智慧化升級, 帶動需求快速增長。 AIGC下游市場滲透率低, 增長空間廣闊。根據 Gartner數據, 目前由人工智能生成的數據占所有數據的 1%以下, 預計2023年將有 20%的內容被生成式AI 所創建, 2025 年人工智能生成數據占比將達到 10%。根據前瞻產業研究院數據, 2025年中國生成式商業AI應用規模將達2070億元, CAGR(2020-2025) 為84.06%。
主要觀點: ChatGPT帶來大模型時代變革,數據要素重要性提升 ChatGPT是由OpenAI研發的一種語言AI模型,其特點在于使用海量語料庫來生成與人類相似的反應。初代GPT模型參數1.17億,GPT2模型、GPT3模型參數分別達到15億、1750億。不斷提升的參數量級,使得ChatGPT3當前已經能夠應用在商業、研究和開發活動中。 當前此類參數體量龐大的模型,成為各大科技廠商研發重點。大模型的基礎為高質量大數據。ChatGPT的前身GPT-3就使用了3,000億單詞、超過40T的數據。此類大數據基礎的前提為三部分1)有效場景下的采集數據;2)大數據的存儲、清洗和標注;3)數據質量檢驗。 大模型發展之下,算力與網絡設施建設成為剛需 算力:ChatGPT類人工智能需要更充足的算力支持其處理數據,帶來更多高性能的算力芯片需求。英偉達表示,GPT-3需要512顆V100顯卡訓練7個月,或者1024顆A100芯片訓練一個月。2012年以來,AI訓練任務中的算力增長(所需算力每3.5月翻一倍)已經超越摩爾定律(晶體管數量每18月翻一倍)。 網絡設施:以微軟Azure為例,其AI基礎設施由互聯的英偉達AmpereA100TensorCoreGPU組成,并由QuantuminfiniBand交換機提供橫向擴展能力。服務器節點多、跨服務器通信需求巨大,網絡帶寬性能成為GPU集群系統的瓶頸,解決方式包括增加單節點通信帶寬與降低網絡收斂比,帶來光模塊、交換機等需求。 下游應用場景豐富,多行業落地可期 1)“生成式AI(generativeAI)”在互聯網及元宇宙領域市場化空間較為廣闊。基于現行的NLP算法發展程度及數據集規模。在不久的將來,生成式AI有較大可能在“智能客服”和“搜索引擎”進行增值,并有希望以“插件”的形式賦能現有的“生產力工具鏈(工程軟件/音視頻制作工具等)”。 2)AI在制造業的應用可分為三方面:a)智能裝備:指具有感知、分析、推理、決策、控制功能的制造裝備,典型代表有工業機器人、協作機器人、數控機床等;b)智能工廠:重點在于實現工廠的辦公、管理及生產自動化,典型的代表場景有協作機器人、智能倉儲物流系統等;c)智能服務:指個性化定制、遠程運維及預測性維護等。 3)人工智能在智能汽車領域的應用包括:a)智能駕駛依托AI,將從駕駛輔助發展至自動駕駛;b)智能座艙在AI支持下,從出行工具演變為出行管家。
來源:華政政管學院
2023年2月23日,華東政法大學政治學研究院和人工智能與大數據指數研究院在上海正式發布“人工智能通用大模型(ChatGPT)的進展、風險與應對”研究報告(以下簡稱“報告”),并采取線上線下相結合的方式舉辦了報告發布會暨研討會。該報告聚焦于以ChatGPT為代表的人工智能通用大模型及其社會影響,在深入分析其發展現狀的基礎上,對于各類治理風險進行了總體評估,并提出了應對風險的策略與具體建議。
(報告封面)報告首先指出,ChatGPT代表了人工智能通用大模型的最新進展,顯示了大模型的巨大影響力。一般而言,大模型是指容量較大、用于深度學習任務的模型,通常具有海量的參數和復雜的架構,具有涌現性、擴展性和復合性的特征。從發展歷程來看,大模型經歷了單語言預訓練模型、多語言預訓練模型與多模態預訓練模型的發展階段。在發展過程中,大模型呈現出“大模型”和“小模型”協進、通用化與專用化并行、平臺化與簡易化并進的發展趨勢。報告對于當前各國發展通用大模型的能力進行了比較分析。報告指出,美國作為傳統的科技強國,在大模型發展方面具有顯著的優勢,美國各巨頭科技公司均有相關雄厚的技術資源和能力。中國雖然在大模型發展上正在迎頭趕上,各科技公司紛紛加入了大模型開發和應用的隊伍,但總體而言,與美國相比仍然存在一定的差距。同時,報告還從原創能力、技術配套、制度環境三個主要方面詳細分析了中美之間的發展差距和具體影響因素。在此基礎上,報告深入評估了通用大模型的發展和應用場景擴散給人類社會帶來的治理風險和挑戰。例如,在技術方面,大模型存在著魯棒性不足、可解釋性低、算法偏見等風險;在社會方面,大模型可能加劇數字鴻溝、侵犯個人隱私、誘發網絡犯罪、沖擊教育體系;在經濟方面,大模型將加速寡頭壟斷、推動產業結構重塑、替代傳統就業、推動世界分工的重組;在政治方面,大模型將給政治決策、輿論引導、監管機制與國際關系帶來新的沖擊。最后,報告針對通用大模型可能造成的治理風險提出了前瞻性的應對策略。報告從構建法律之治、增強競爭能力、加強市場應用、防范失業風險、推動教育改革、維護政治安全等方面,提出了應對風險的具體原則、制度建構和相關舉措。
**刷爆的ChatGPT什么算法這么強!臺大李宏毅老師國語講解《ChatGPT (可能)是怎么煉成的 》! **
** **
** **
AIGC多模態跨模態應用逐漸成熟,市場空間廣闊。 廣義的AIGC指具備生成創造能力的AI技術,即生成式AI。可以基于訓練數據和生成算法模型,自主生成創造新的文本、圖像、音樂、視頻等內容。2022年被稱為AIGC元年,未來兼具大模型和多模態模型的AIGC模型有望成為新的技術平臺。據《中國AI數字商業產業展望2021-2025》報告,預測AI數字商業內容的市場規模將從2020年的40億元,增加到2025年的495億元。 ChatGPT產品歷經多代技術演進,產品與商業模式逐漸成熟。 ChatGPT是文本生成式AI,過去的傳統AI偏向于分析能力,主要基于已有內容;現在文本生成式AI基于底層Transformer模型,不斷訓練數據和迭代生成算法模型,歷經GPT-1、GPT-2、GPT-3,模型不斷升級,到ChatGPT的GPT3.5模型,已可以自主生成各種形式的內容。近期收費版ChatGPTPlus版本發布,AI商業化序幕逐漸拉開。 AI商業化落地在即,行業算法側和算力側投資機會有望超預期。 根據數據顯示,ChatGPT總算力消耗約為3640PF-Days,按國內的數據中心算力測算,需要7-8個數據中心才能支持其運行。各模態AI數據訓練到應用均需要算法和算力的加持,未來要想大規模應用,算法訓練和算力部署均需先行。
**刷爆的ChatGPT什么算法這么強!臺大李宏毅老師國語講解《ChatGPT (可能)是怎么煉成的 》! **
** **
** **
1. 我們如何評價ChatGPT的出現?
當我們看到微軟CEO納德拉說到“AIGC堪比工業革命”,比爾蓋茨評價ChatGPT的歷史意義重大,甚至不亞于“PC或互聯網誕生”時,我們辯證性地思考這個問題:細數人類社會經歷的三次工業革命,第一次以蒸汽機為代表,機械生產取代了雙手;第二次以發電機而代表,電器成為補充和取代蒸汽機的新能源;第三次以計算機為代表,促成了各種各樣“人-機控制系統”的形成,使得起初的機械化、電氣化邁入進階的自動化。就目前我們看到這三次革命的成果,基本都呈現“機器幫助人”,且存在物理實體的意識型態。不同于前三次,我們有理由猜測第四次工業革命是一個具有前所未有的算力的“超級機器”,它不僅僅可以在體力上協助人類,同時可以在智力上取代人類的部分/全部功能。ChatGPT的出現,從用戶體驗的角度,仿佛一定程度上觸碰到了這個門檻,因為它是那般順暢,滿足了用戶大部分的提問需求,且在一分鐘內呈現答案。在此之前,AI人工智能早已并不陌生,AlphaGo贏下李世石,但這一次,真正讓人們體會到傳統的腦力工作者,幾乎無法在效率的比拼上贏過機器。ChatGPT的出現,更像是Iphone之于手機市場,以用戶最容易上手,接近0教育成本的對話形式,成功打造了爆品。商業社會往往需要成功案例的打造,而ChatGPT在微軟生態的火速應用,以及訂閱模式的跑通確定了人工智能的可行性,證明了業務模式的有效性和可復制性。從這一點論述,ChatGPT確實具備里程碑式意義。 2.ChatGPT是否足夠完美,完美到接近與“自然人”的臨界點? 根據我們長時間的使用感受,ChatGPT有它的可取之處:當你需要建議時,它可以提供具有一定新穎性、趣味性的邏輯框架,在內容上啟發創造力與靈感,系統性地梳理思路;當你的語句或者文案不夠有新意時,它可以賦予句子新的生機,大大減少人們構思寫作的時間;當程序員花了大量的時間構思邏輯框架與代碼時,由于編程環境中很多功能的寫法是有定式的,它可以大大減少這種類型代碼的寫作時間,為程序員提高生產效率,而程序員可以將更多時間放在理解需求和構建框架上,而節省執行層面的時間。而缺點也較為明顯:目前提供的信息并不完全準確,利用概率生成的模型有很大概率存在張冠李戴的情況,通常需要二次確認;它很難做增量信息的知識更新;它只可以做大而全的東西,而無法精確到執行層;同時,ChatGPT的某些回答帶有政治、價值傾向性,對用戶有一定的誤導性,所以在當前的情況下,ChatGPT仍然有很多改進優化的空間。 3.生成式AI如何做商業化變現?它將如何對傳統行業進行挑戰、升級或是顛覆呢? 我們認為它將挑戰文案寫作類型的工作,全面升級搜索行業的存在形態,顛覆低技術與內容創造類職業。1.根據上文我們提到,ChatGPT擅長文字美化,細節優化與提供建議,一定程度上它可以輔助文案工作者更快、更好的完成創作,助力企業大大減少創作花費的成本與精力,尤其是相關的人力成本。因此我們預計新聞業、互聯網營銷業以及互聯網寫作類的人群將受到挑戰與沖擊。2.搜索行業的呈現形式將發生大變化,而用戶獲取信息的方式以及交互形式也將發生本質性變化。新版Bing和Edge瀏覽器融合ChatGPT后,呈現檢索+生成兩種信息類型,提供實時信息,理解用戶需求后進行一定的邏輯推斷,并自動撰寫內容。根據Statcounter的數據,谷歌在全球搜索引擎市場占有93%的份額,而Bing或借助ChatGPT攪動搜索的競爭格局。3.根據上文的分析,每一次的工業革命意味著“機器幫助人”的形態更進一步,所以我們大膽猜想AI或取代一部分低技術,且重復勞動類職業,如數據分析、電話客服,文員等,同時AIGC也將賦能內容產業,“AIGC+新聞”、“AIGC+影視”、“AIGC+娛樂”的模式也將顛覆原有的產業框架,大幅縮短創作周期,提高生產力。 4.中國AIGC的發展如何及相關的投資標的總結。 ①中國的擅長項在于AI的語音、圖像、視頻識別,因為中國有大量的數據可以對AI進行訓練,獨立運營的公司目前還較少,大多作為公司的附屬業務,變現模式尚不明朗,客戶群體主要集中于B端,如何將AIGC進行商業化應用是目前最主要的矛盾。
ChatGPT系列報告:
**刷爆的ChatGPT什么算法這么強!臺大李宏毅老師國語講解《ChatGPT (可能)是怎么煉成的 》! **
** **
** **
【芯片算力】▲芯片需求=量↑x價↑,AIGC拉動芯片產業量價齊升。1)量:AIGC帶來的全新場景+原場景流量大幅提高;2)價:對高端芯片的需求將拉動芯片均價。ChatGPT的“背后英雄”:芯片,看好國內GPU、CPU、FPGA、AI芯片及光模塊產業鏈。 相關標的:海光信息、景嘉微、龍芯中科、中國長城、安路科技、復旦微電、紫光國微、寒武紀、瀾起科技、德科立、天孚通信、中際旭創。 【深度學習框架】深度學習框架是人工智能算法的底層開發工具,是人工智能時代的操作系統,當前深度學習框架發展趨勢是趨于大模型訓練,對深度學習框架的分布式訓練能力提出了要求,國產深度學習框架迎來發展機遇。 相關標的:百度、海天瑞聲、商湯科技、微軟、谷歌、Meta。 【深度學習大模型】ChatGPT是基于OpenAI公司開發的InstructGPT模型的對話系統,GPT系列模型源自2017年誕生的Transformer模型,此后大模型數量激增,參數量進入千億時代,國內百度也發布了ERNIE系列模型并有望運用于即將發布的文心一言(ERNIEBot)對話系統,未來國內廠商有望在模型算法領域持續發力。 相關標的:百度、科大訊飛、商湯科技、谷歌、微軟。 【應用】ChatGPT火爆全球的背后,可以窺見伴隨人工智能技術的發展,數字內容的生產方式向著更加高效邁進。ChatGPT及AIGC未來有望在包括游戲、廣告營銷、影視、媒體、互聯網、娛樂等各領域應用,優化內容生產的效率與創意,加速數實融合與產業升級。 相關標的:百度、騰訊、阿里巴巴、網易、昆侖萬維、閱文集團、捷成股份、視覺中國、風語筑、中文在線、三七互娛、吉比特、天娛數科。 【通信】AIGC類產品未來有望成為5G時代新的流量入口,率先受益的有望是AIGC帶來的底層基礎算力爆發式增長。 相關標的:包括算力調度(運營商)、算力供給(運營商、奧飛數據、數據港)、算力設備(浪潮信息、聯想集團、紫光股份、中興通訊、銳捷網絡、天孚通信、光庫科技、中際旭創、新易盛)、算力散熱(英維克、高瀾股份)。
AIGC成為新的內容生產方式,跨模態生成值得重點關注。區別于PGC與UGC,AIGC是利用人工智能技術自動生成內容的新型生產方式。按照模態區分,AIGC可分為音頻生成、文本生成、圖像生成、視頻生成及圖像、視頻、文本間的跨模態生成,細分場景眾多,其中,跨模態生成需要重點關注。 自然語言處理(NLP)賦予了AI理解和生成能力,大規模預訓練模型是NLP的發展趨勢。NLP的兩個核心任務分別是自然語言理解(NLU)和自然語言生成(NLG)。以ELMo、BERT、GPT為代表的預訓練模型,降低了NLP的技術門檻。ELMo解決了“一詞多義”的問題;BERT通過MLM(類似于完形填空)和NLP(判斷句子是否相連)進行預訓練,增強了上下文的理解能力。GPT通過預測下一個詞,獲得了生成能力;GPT-3在此基礎上使用了更大的數據和更大模型,無需針對下游任務進行傳統的微調,并且采用了小樣本學習提升生成效果。 ChatGPT是NLP發展中具有里程碑式意義的模型之一。ChatGPT是OpenAI從GPT-3.5系列中的模型進行微調產生的聊天機器人模型。它能夠通過學習和理解人類的語言來進行對話,還能根據聊天的上下文進行互動,真正像人類一樣來聊天交流,甚至能完成撰寫郵件、視頻腳本、文案、翻譯、代碼等任務。 生成模型賦予了AI創造力,擴散模型是最前沿的技術之一。AIGC的快速發展歸功于生成算法領域的技術積累。GAN的核心思想是“生成”與“對抗”,相比傳統的深度神經網絡,GAN能產生更好的生成樣本,但是仍需解決應用中的問題。擴散模型較GAN更接近人的思維模式,是基于馬爾科夫鏈,通過學習噪聲來生成數據。擴散模型實現了跨模態應用,包括OpenAI的GLIDE和DALL·E2、谷歌的Imagen、StabilityAI的StableDiffusion等。 人工智能由單模態智能,向多種模態融合方向發展。建立統一的、跨場景、多任務的多模態基礎模型或將成為人工智能發展的主流趨勢之一。CLIP模型將語言信息和圖像信息聯合訓練,能夠鏈接文本和圖片,成為跨模態生成應用的一個重要節點,“CLIP+其他模型”在跨模態生成領域成為一種較為通用的做法。2022年,微軟提出的BEiT-3多模態基礎模型,在視覺-語言任務處理上具備出色表現,包括視覺問答、圖片描述生成和跨模態檢索等。多模態提高了基礎模型的靈活性,使其在其他模態的應用中發揮新的潛質。 未來,值得關注的技術要素包括:長文本生成、開放式文本生成、NeRF模型、擴散模型、跨模態大型預訓練模型(支持的模態數據類型、模態對齊架構設計、支持的下游應用)、小樣本學習及自監督算法、強化學習及環境學習等。
2022年,從引爆AI作畫領域的DALL-E 2、Stable Diffusion等AI模型,到以ChatGPT為代表的接近人類水平的對話機器人,AIGC不斷刷爆網絡,其強大的內容生成能力給人們帶來了巨大的震撼。學術界和產業界也都形成共識:AIGC絕非曇花一現,其底層技術和產業生態已經形成了新的格局。
就內容生產而言,AIGC作為新的生產力引擎,讓我們從過去的PGC、UGC,已經不可避免地進入AIGC時代。AIGC代表著AI技術從感知、理解世界到生成、創造世界的躍遷,正推動人工智能迎來下一個時代。 經過了2022年的預熱,2023年AIGC領域將迎來更大發展。AIGC生成內容的類型不斷豐富、質量不斷提升,也將有更多的企業積極擁抱AIGC。在這個背景下,騰訊研究院正式發布**《AIGC發展趨勢報告2023:迎接人工智能的下一個時代》**。報告從技術發展和產業生態、應用趨勢、治理挑戰等維度,對AIGC的發展趨勢進行了深入思考。 本文為報告核心內容摘要(文末附下載):
AIGC的大爆發不僅有賴于AI技術的突破創新,還離不開產業生態快速發展的支撐。在技術創新方面,生成算法、預訓練模型、多模態技術等AI技術匯聚發展,為AIGC的爆發提供了肥沃的技術土壤。
** **
圖:AIGC技術累積融合 **第一,基礎的生成算法模型不斷突破創新。**比如為人熟知的GAN、Transformer、擴散模型等,這些模型的性能、穩定性、生成內容質量等不斷提升。得益于生成算法的進步,AIGC現在已經能夠生成文字、代碼、圖像、語音、視頻、3D物體等各種類型的內容和數據。 **第二,預訓練模型,也即基礎模型、大模型,引發了AIGC技術能力的質變。**雖然過去各類生成模型層出不窮,但是使用門檻高、訓練成本高、內容生成簡單和質量偏低,遠遠不能滿足真實內容消費場景中的靈活多變、高精度、高質量等需求。而預訓練模型能夠適用于多任務、多場景、多功能需求,能夠解決以上諸多痛點。預訓練模型技術也顯著提升了AIGC模型的通用化能力和工業化水平,同一個AIGC模型可以高質量地完成多種多樣的內容輸出任務,讓AIGC模型成為自動化內容生產的“工廠”和“流水線”。正因如此,谷歌、微軟、OpenAI等企業紛紛搶占先機,推動人工智能進入預訓練模型時代。 **第三,多模態技術推動了AIGC的內容多樣性,進一步增強了AIGC模型的通用化能力。**多模態技術使得語言文字、圖像、音視頻等多種類型數據可以互相轉化和生成。比如CLIP模型,它能夠將文字和圖像進行關聯,如將文字“狗”和狗的圖像進行關聯,并且關聯的特征非常豐富。這為后續文生圖、文生視頻類的AIGC應用的爆發奠定了基礎。 未來,算法的進步將帶來更多激動人心的應用,語言模型會得到進一步發展,可以自我持續學習的多模態AI將日益成為主流,這些因素會進一步推動AIGC領域的蓬勃發展。 **在產業生態方面,AIGC領域正在加速形成三層產業生態并持續創新發展,正走向模型即服務(MaaS)的未來。**目前,AIGC產業生態體系的雛形已現,呈現為上中下三層架構。
** **
第一層是基礎層,以預訓練模型為基礎搭建的AIGC技術基礎設施層。在國外,以OpenAI、Stability.ai為代表,通過受控API、開源等方式輸出模型能力。 第二層是中間層,是在預訓練模型基礎上,通過專門的調試和訓練,快速抽取形成垂直化、場景化、定制化的小模型和應用工具層,可以實現工業流水線式部署,同時兼具按需使用、高效經濟的優勢。比如,知名的二次元畫風生成模型Novel-AI,以及各種風格的角色生成器等,就是基于Stable Diffusion開源進行的二次開發。隨著AIGC模型加速成為新的技術平臺,模型即服務(Model-as-a-Service,MaaS)開始成為現實,預計將對商業領域產生巨大影響。 第三層是應用層,依托底層模型和中間層的垂直模型,各廠商進一步開放面向C端和B端用戶的各種各樣的AIGC產品和服務,滿足海量用戶的內容創建和消費需求。例如群聊機器人、文本生成軟件、頭像生成軟件等AIGC消費工具。 目前,從提供預訓練的AI大模型的基礎設施層公司到專注打造垂直領域內AIGC工具的中間層公司、再到直接面對消費者和終端用戶提供產品和服務的應用層公司,美國圍繞AIGC生長出繁榮的生態,技術創新引發的應用創新浪潮迭起;中國也有望憑借領先的AIGC技術賦能千行百業。
AIGC領域目前呈現AIGC的內容類型不斷豐富、內容質量不斷提升、技術的通用性和工業化水平越來越強等趨勢,這使得AIGC在消費互聯網領域日趨主流化,涌現了寫作助手、AI繪畫、對話機器人、數字人等爆款級應用,支撐著傳媒、電商、娛樂、影視等領域的內容需求。目前AIGC也正在向產業互聯網、社會價值領域擴張應用。**
**
圖:AIGC應用現狀概覽(引用自紅杉資本) **在消費互聯網領域,AIGC牽引數字內容領域的全新變革。**目前AIGC的爆發點主要是在內容消費領域,已經呈現百花齊放之勢。AIGC生成的內容種類越來越豐富,而且內容質量也在顯著提升,產業生態日益豐富。這其中有三個值得關注的趨勢: **第一,AIGC有望成為新型的內容生產基礎設施,塑造數字內容生產與交互新范式,持續推進數字文化產業創新。**過去AI在內容消費領域的作用主要體現在推薦算法成為了新型的傳播基礎設施。推薦算法對數字內容傳播,短視頻為主的數字內容新業態發展,起到了顛覆式的變革作用。而現在,隨著AIGC生成的內容種類越來越豐富,內容的質量不斷提升,AIGC將作為新型的內容生產基礎設施對既有的內容生成模式產生變革影響。 **第二,AIGC的商業化應用將快速成熟,市場規模會迅速壯大。**當前AIGC已經率先在傳媒、電商、影視、娛樂等數字化程度高、內容需求豐富的行業取得重大發展,市場潛力逐漸顯現。比如,在廣告領域,騰訊混元AI大模型能夠支持廣告智能制作,即利用AIGC將廣告文案自動生成為廣告視頻,大大降低了廣告視頻制作成本。巨大的應用前景將帶來市場規模的快速增長,根據6pen預測,未來五年10%-30%的圖片內容由AI參與生成,有望創造超過600億以上市場規模。也有國外商業咨詢機構預測,2030年AIGC市場規模將達到1100億美元。 **第三,AIGC還將作為生產力工具,不斷推動聊天機器人、數字人、元宇宙等領域發展。**AIGC技術讓聊天機器人接近人類水平日益成為現實,當前以ChatGPT為代表的聊天機器人已經在刺激搜索引擎產業的神經,未來人們獲取信息是否會更多通過聊天機器人而非搜索引擎?這已經使谷歌等公司面臨的巨大壓力。AIGC也在大大提升數字人的制作效能,并且使其更神似人。比如騰訊AI LAB的虛擬歌手AI艾靈,能夠基于AIGC實現作詞和歌曲演唱。在元宇宙領域,AIGC在構建沉浸式空間環境、提供個性化內容體驗、打造智能用戶交互等方面發揮重要作用。比如,扎克伯格在元宇宙的島嶼上,可以通過發出語音命令生成創造海灘、變換天氣,添加不同的場景等。只有借助AGIC,元宇宙才可能以低成本、高效率的方式滿足海量用戶的不同內容需求。 **在產業互聯網領域,基于AIGC技術的合成數據(synthetic data)迎來重大發展,合成數據將牽引人工智能的未來。**MIT科技評論將AI合成數據列為2022年10大突破性技術之一;Gartner也預測稱,到2030年合成數據將徹底取代真實數據,成為訓練AI的主要數據來源。
圖:合成數據發展預測(來源:Gartner) 合成數據的用途是成為真實世界數據的廉價替代品,用來訓練、測試、驗證AI模型。AIGC技術的持續創新,讓合成數據迎來新的發展契機,開始迸發出更大的產業發展和商業應用活力。這主要體現在以下四個方面: **第一,合成數據為AI模型訓練開發提供強大助推器,推動實現AI 2.0。**過去用真實世界數據訓練AI模型,存在數據采集和標注的成本高昂,數據質量較難保障、數據多樣化不足、隱私保護挑戰等多方面問題。而合成數據可以很好的解決這些問題。使用合成數據不僅能更高效地訓練AI模型,而且可以讓AI在合成數據構建的虛擬仿真世界中自我學習、進化,極大擴展AI的應用可能性。從某種意義上也可以說合成數據讓AI模型訓練從1.0階段發展到2.0階段。 **第二,合成數據助力破解AI“深水區”的數據難題,持續拓展產業互聯網應用空間。**目前,合成數據正迅速向交通、金融、醫療、零售、工業等諸多產業領域拓展應用,幫助破解產業互聯網應用中的數據難題。比如,騰訊自動駕駛團隊研發的仿真系統TAD SIM可以自動生成各種交通場景數據,助力自動駕駛系統測試、開發。在醫療領域,美國國立衛生研究院和合成數據服務商合作,基于其COVID-19病人病歷數據庫,合成了不具有可識別性的替代數據,可供世界范圍內的研究人員自由分享和使用。
圖:騰訊自動駕駛數字孿生仿真平臺
**第三,正是由于合成數據對人工智能未來發展的巨大價值,合成數據正加速成為一個新產業賽道,科技大廠和創新企業紛紛搶先布局。**目前,全球合成數據創業企業也已經達到100家,英偉達、亞馬遜、微軟等頭部科技企業也在加速布局,涌現了合成數據即服務(SDaaS,synthetic data as a service)這一全新商業模式。
**第四,合成數據加速構建AI賦能、數實融合的大型虛擬世界。**合成數據指向的終極應用形態是借助游戲引擎、3D圖形、AIGC技術構建的數實融合的大型虛擬世界。基于合成數據構建的大型虛擬世界,為測試、開發新的人工智能應用,提供了一個安全、可靠、高效以及最重要的是——低成本的、可重復利用的環境,將成為AI數實融合的關鍵載體,包括為AI開發提供數據和場景、試驗田等。比如騰訊開悟的AI開放研究環境,已經吸引了國內外眾多決策智能領域的研究團隊使用。
**在社會價值領域,AIGC也在助力可持續社會價值的實現。**比如,在醫療健康方面,AI語音生成幫助病人“開口說話”。語音合成軟件制造商Lyrebird為漸凍癥患者設計的語音合成系統實現“聲音克隆”,幫助患者重新獲得“自己的聲音”。AI數字人也能幫助老年癡呆癥患者與他們可能記得的年輕面孔或者逝去的親人互動。此外,AIGC也可以用于文物修復,助力文物保護傳承。騰訊公司利用360度沉浸式展示技術、智能音視頻技術、人工智能等技術手段,對敦煌古壁畫進行數字化分析與修復。在國外,DeepMind合作開發的深度神經網絡模型Ithaca可以修復殘缺的歷史碑文。
圖:騰訊利用AIGC技術手段,助力敦煌古壁畫修復 總之,隨著AIGC模型的通用化水平和工業化能力的持續提升,AIGC的根本影響在于,將極大降低內容生產和交互的門檻和成本,有望帶來一場自動化內容生產與交互變革,引起社會的成本結構的重大改變,進而在各行各業引發巨震。未來,“AIGC+”將持續大放異彩,深度賦能各行各業高質量發展。
以可信AIGC** 積極應對科技治理問題與挑戰,****擁抱人工智能的下一個時代**發展總是與挑戰并生,AIGC的發展也面臨許多科技治理問題的挑戰。目前,主要是知識產權、安全、倫理和環境四個方面的挑戰。
首先,AIGC引發的新型版權侵權風險,已經成為整個行業發展所面臨的緊迫問題。因版權爭議,國外藝術作品平臺ArtStation上的畫師們掀起了抵制AIGC生成圖像的活動。其次,安全問題始終存在于科技發展應用之中。在AIGC中,主要表現為信息內容安全、AIGC濫用引發詐騙等新型違法犯罪行為,以及AIGC的內生安全等。較為著名的案例是,詐騙團隊利用AIGC換臉偽造埃隆·馬斯克的視頻,半年詐騙價值超過2億人民幣的數字貨幣。再次,算法歧視等倫理問題依然存在。比如,DALL·E 2具有顯著的種族和性別刻板印象。最后是環境影響,AIGC模型訓練消耗大量算力,碳排放量驚人。此前就有研究表明,單一機器學習模型訓練所產生的碳排放,相當于普通汽車壽命期內碳排放量的5倍。
圖:騰訊優圖實驗室推出FaceIn人臉防偽產品,能夠自動檢測精準識別視頻、圖像中是否應用人臉偽造技術 **為了應對以上挑戰,面向人工智能的下一個時代,人們需要更加負責任地、以人為本地發展應用AIGC技術,打造可信AIGC生態。**面對AIGC技術應用可能帶來的風險挑戰,社會各界需要協同參與、共同應對,通過法律、倫理、技術等方面的多元措施支持構建可信AI生態。在立法方面,網信辦等三部門出臺的《互聯網信息服務深度合成管理規定》針對深度合成技術服務提出的要求和管理措施,諸如禁止性要求、標識要求、安全評估等,亦適用于AIGC。接下來,需要著重從以下方面持續推進AIGC的政策和治理。
其一,政府部門需要結合AIGC技術的發展應用情況,制定并明晰AIGC的知識產權與數據權益保護規則。目前,AIGC的知識產權與數據權益保護規則的不明確,在某種程度上導致甚至加劇了AI領域的亂象。
其二,研發應用AIGC技術的主體需要積極探索自律管理措施,例如,秉持不作惡、科技向善等目的,制定適宜的政策(消極要求和積極要求),采取控制和安全措施保障AIGC的安全可控應用,采取內容識別、內容溯源等技術確保AIGC的可靠來源。
其三,打造安全可信的AIGC應用,需要深入推進AI倫理治理。例如,行業組織可以制定可信AIGC的倫理指南,更好地支持AIGC健康可持續發展;AIGC領域的創新主體需要考慮通過倫理委員會等方式,推進落實AI風險管理、倫理審查評估等,在AIGC應用中實現“倫理嵌入設計”(ethics by design)。
其四,社會各界需要攜手應對AIGC領域的能源消耗問題,推行綠色AI的發展理念,致力于打造綠色可持續、環境友好型的AI模型,實現智能化與低碳化融合發展。
未來已來,讓我們擁抱AIGC,擁抱人工智能的下一個時代,打造更美好的未來。
****
? 導 讀
**白皮書跟蹤梳理了人工智能生成內容的發展演進,重點從技術、應用、治理等維度對人工智能生成內容進行了分析,并從政府、行業、企業、社會等層面,給出了我國發展和治理人工智能生成內容(AIGC)的建議。
**
全文共計1843字,預計閱讀時間8分鐘
來源 | 中國信息通信研究院和京東探索研究院(轉載請注明來源)編輯 | 趙超
白皮書主要內容/核心觀點
01
**白皮書對人工智能生成內容(AIGC)的概念與內涵進行了多層次的深刻理解與清晰明確的分析定義。**白皮書圍繞人工智能生成內容(AIGC)的歷史沿革、興起背景、技術能力、應用價值等維度進行了橫向與縱向的思考與整理,明確了技術與應用的邊界與組成,為未來的行業發展提供方向參考。
02
**白皮書對人工智能生成內容(AIGC)當前技術發展和能力體系做出全面梳理,認為深度神經網絡技術在大模型和多模態兩個方向上的持續突破,推動AIGC技術演化出孿生、編輯、創作三大前沿能力。**白皮書所提煉的AIGC技術能力體系,既涵蓋了相關技術的最新進展和未來發展方向,也囊括了助力AIGC應用創新和產品落地的三大核心能力。 03
**白皮書整理總結了人工智能生成內容(AIGC)行業應用現狀,提出人工智能生成內容(AIGC)率先在傳媒、電商、影視、娛樂等數字化程度高、內容需求豐富的行業取得重大創新發展,并正加速與各行各業的結合。**白皮書重點分析了人工智能生成內容(AIGC)在傳媒、電商、影視等行業和場景的應用情況,探討了以虛擬數字人等為代表的新業態和新應用。
04
**本白皮書對我國人工智能生成內容發展中所存在的問題進行了客觀分析,即人工智能生成內容(AIGC)的關鍵技術、企業管理和政策監管尚未完善,并提出建議對策。**白皮書從技術算法、企業管理、政策監管等視角,梳理了人工智能生成內容(AIGC)所暴露出的版權糾紛、虛假信息傳播等各種問題,并從政府、行業、企業、社會等層面,給出了人工智能生成內容(AIGC)發展和治理建議。
白皮書全文如下