Sora橫空出世引領多模態產業革命。美國時間2月15日,文生視頻大模型Sora橫空出世,能夠根據文本指令或靜態圖像生成1分鐘的視頻。其中,視頻生成包含精細復雜的場景、生動的角色表情以及復雜的鏡頭運動,同時也接受現有視頻擴展或填補缺失的幀。總體而言,不管是在視頻的保真度、長度、穩定性、一致性、分辨率、文字理解等方面,Sora都做到了業內領先水平,引領多模態產業革命。此外,當Sora訓練的數據量足夠大時,它也展現出了一種類似于涌現的能力,從而使得視頻生成模型具備了類似于物理世界通用模擬器的潛力。
拆解視頻生成過程,技術博采眾長或奠定了Sora文生視頻領軍地位。從技術報告中,Sora視頻生成過程大致由“視頻編碼+加噪降噪+視頻解碼”三個步驟組成,視頻壓縮網絡、時空patches、transformer架構、視頻數據集等技術與資源在其中發揮了重要作用。 視頻壓縮網絡:過往VAE應用于視頻領域通常需插入時間層,Sora從頭訓練了能直接壓縮視頻的自編碼器,可同時實現時間和空間的壓縮,既節省算力資源,又最大程度上保留視頻原始信息,或為Sora生成長視頻的關鍵因素,并為后續處理奠定基礎。 時空patches:1)同時考慮視頻中時間和空間關系,能夠捕捉到視頻中細微的動作和變化,在保證視頻內容連貫性和長度的同時,創造出豐富多樣的視覺效果;2)突破視頻分辨率、長寬比等限制的同時顯著提升模型性能,節約訓練與推理算力成本。 Transformer架構:1)相比于U-Net架構,transformer突顯Scaling Law下的“暴力美學”,即參數規模越大、訓練時長越長、訓練數據集越大,生成視頻的效果更好;2)此外,在transformer大規模訓練下,逐步顯現出規模效應,迸發了模型的涌現能力。 視頻數據集:Sora或采用了更豐富的視頻數據集,在原生視頻的基礎上,將DALL?E3的re-captioning技術應用于視頻領域,同時利用GPT保障文字-視頻數據集質量,使得模型具有強大的語言理解能力。
最近OpenAI視頻生成模型Sora爆火,背后使用了擴散模型。來自UC伯克利等《擴散模型》課程詳細講述,值得關注! 為了使機器具有人類的想象力,深度生成模型取得了重大進展。這些模型能創造逼真的樣本,尤其是擴散模型,在多個領域表現出色。擴散模型解決了其他模型的限制,如 VAEs 的后驗分布對齊問題、GANs 的不穩定性、EBMs 的計算量大和 NFs 的網絡約束問題。因此,擴散模型在計算機視覺、自然語言處理等方面備受關注。 擴散模型由兩個過程組成:前向過程和反向過程。前向過程把數據轉化為簡單的先驗分布,而反向過程則逆轉這一變化,用訓練好的神經網絡模擬微分方程來生成數據。與其他模型相比,擴散模型提供了更穩定的訓練目標和更好的生成效果。
OpenAI發布了最新文生視頻大模型SORA,可以生成1分鐘長視頻,效果顯著,在生成的視頻細節,內容一致性和指令遵循能力獨樹一幟 2月16日,OpenAI首次對外公布了SORA文生視頻模型,SORA模型可以直接輸出長達60秒的視頻,并且包含高度細致的背景、復雜的多角度鏡頭,以及富有情感的多個角色。相比較而言,Runway Gen2、Pika等AI視頻工具,都還在突破幾秒內的連貫性,而OpenAI,已經達到了史詩級的紀錄。OpenAI目前已經邀請了一支專業的創意人士測試,用于反饋其在專業環境中的實用性。 SORA模型在訓練中將不同類型視覺素材統一為時空Latent Patch,采用Diffusion-transformer結構并大規模訓練,再次展現“暴力美學” 從technical report窺探技術路徑,OpenAI在文生視頻領域再次展現“暴力美學”,SORA在模型結構上使用了Diffusion Transformer結構,采用了大規模的訓練,在數據上將圖片和視頻統一壓縮轉換為時空Latent Patches并作為transformer輸入,而這一步也使得模型能夠在不同分辨率、持續時間和寬高比的視頻/圖像數據上進行訓練,同時為了提高模型的理解能力,SORA使用了DALL-E3模型中的re-captioning技術,訓練了一個caption模型為視頻數據生成文字字幕。 SORA模型已具備了一定的涌現能力,雖然也存在“幻覺問題”,但我們認為文生視頻的GPT-3時刻已來 SORA模型現在可用于視頻生成,圖片生成,視頻編輯、視頻鏈接和視頻前后拓展等,我們認為未來有望重塑影視/動畫/自媒體等諸多視頻生產行業,同時SORA還展現出了一定的涌現能力,使其能夠從物理世界模擬人、動物和環境的某些方面,包括3D連續,物體持續和long-range的連貫性,我們預計未來SORA也會逐步進化,如同GPT3到4一樣有更強的能力,或許文生視頻的GPT-3時刻已經到來。
自ChatGPT、Bard、Claude、Midjourney以及其他內 容生成工具問世以來,人們對生成式AI抱有很高期 待。各企業CEO自然也在思考:這究竟是科技炒作, 還是顛覆行業格局的機遇?如果是后者,那生成式 AI能給自身業務帶來什么價值? ChatGPT的大眾版僅兩個月就吸引到1億用戶。它以 史無前例的方式推動了AI的普及,已成為迄今增長 最快的應用程序。無與倫比的易用性讓生成式AI有 別于以往所有AI技術。用戶不需要專修機器學習就 可以開展交互、獲取價值——只要會提問,幾乎人 人都能用。就像個人電腦或iPhone等其他突破性技 術一樣,一款生成式AI平臺可以衍生出許多應用程 序,適用于各個年齡段和教育水平的用戶群體,人 們無論身處何地,能夠上網即可使用。 而實現這一切,依靠的是驅動生成式AI聊天機器人 的基礎大模型,它們是經由大量非結構化、無標簽 數據(如文本、音頻等各類形式)訓練的龐大神經 網絡。基礎大模型可處理各種各樣的任務。相比之 下,以往的AI模型通常適用范圍更“窄”,往往只能執 行一項任務,如預測客戶流失率等。而一個基礎大 模型則既能為一份2萬字的量子計算技術報告生成 內容摘要,又能為園藝公司起草市場進入策略,還 能根據冰箱里的10種食材給出5張不同的食譜。不 過,在其豐富功能的背后,目前還存在結果不夠準 確的短板,這也讓人們再度關注起AI的風險管理 問題。 在監管得當的情況下,生成式AI不僅可以為企業開 辟新用例,還可以加速、擴展或改進現有用例。以 電銷場景為例,經過專門訓練的AI模型可以幫助銷 售人員發現追加銷售機會,但截至目前,這些模型 通常還只能根據通話前收集的人口統計信息和購買 規律等靜態客戶數據來判斷追加銷售的可能性。生 成式AI工具則可根據實際對話內容,利用內部客戶 數據、外部市場趨勢和社交媒體影響者數據,實時 為銷售人員提供追加銷售建議。同時,生成式AI還 可以為銷售人員撰寫銷售話稿,供其根據具體情況 進行調整。 上述例子只展示了AI技術對人類工作潛在影響的一 個側面,而實際上,幾乎所有知識工作者都有可能 因使用生成式AI而獲益。盡管生成式AI最終可能會 讓部分工作自動化,但其價值將更多來自于被嵌入 日常工具(如電子郵件或文字處理軟件)后知識工 作者對它的使用。這類升級后的工具可以大幅提高 生產力。 CEO們想知道是否應立即采取行動,以及如果采 取行動,該從何開始。有些人可能從中看到了機遇, 希望通過重塑人與生成式AI應用程序協同工作的 方式,在競爭中彎道超車。其他人則可能希望謹慎 行事,在進行大規模投資之前先嘗試幾個用例,增 進對生成式AI的理解。企業也需要評估自身是否具 備必要的技術專識、技術及數據架構、運營模式以 及風險管理流程,這些是更進一步部署生成式AI 時所需要的。 本文旨在幫助CEO及其團隊思考生成式AI的價值創 造場景以及如何開始應用。首先,我們總結了生成 式AI的入門指南,以幫助CEO更好了解AI日新月異的 發展現狀和可行技術選擇。第二部分將通過4個旨 在提高組織效能的案例,探討企業如何應用生成式 AI。這些案例來自我們對早期采用者的觀察,并介 紹了在技術、成本和運營模式要求等方面的各種選 擇。最后,我們將探討CEO如何發揮關鍵作用,利 用生成式AI帶領企業走向成功。 人們對生成式AI的期待顯而易見,企業高管自然希 望借此東風運籌帷幄,有計劃地快速推進。我們希 望本文能讓商業領袖更全面了解生成式AI未來潛力。
1、AI模型從單模態向多模態演進,未來有望實現認知智能: AI模型走向多模態必然性的三大因素:跨模態任務需求+跨模態數據融合+對人類認知能力的模擬。 2、多模態AI融合多種數據,可大幅延伸應用場景: 多模態AI能夠實現基于文本、語音、圖片、視頻等多模態數據的綜合處理應用,完成跨模態領域任務。 3、多模態AI五大技術環節,模態融合為核心: 多模態AI以模態融合為核心技術環節,圍繞“表征-翻譯-對齊-融合-聯合學習”五大技術環節,解決實際場景下復雜問題的多模態解任務。 4、國內外多模態AI布局進展,關注OpenAI及谷歌動向: 國內外大廠及科研院所自2021年起相繼推出跨模態AI模型,目前OpenAI及谷歌(DeepMind)布局較完善,未來有望基于各任務模型,構建多模態AI生態。
**為什么 ChatGPT 如此重要?AI C 端產品中的第一個爆款,可能代表著商業 化的拐點。**1)從用戶體驗上,比起競品和上一代產品,ChatGPT 的連續對話 能力明顯更強,具備了大范圍商業化的潛力。2)從應用場景的潛力上,語義 文本類產品想象空間較圖片類更大。短期看有望落地的包括更專業的客服機器 人、更垂直更專業化的 AI(如醫療教育領域)、新一代的智能搜索等。3)ChatGPT 的出現或將加快巨頭對于 AI 的發展速度。ChatGPT 的成功或將促進各科技巨 頭加大對于 AI 的研發投入,如谷歌近日宣布投資 OpenAI 的競爭對手 Anthropic。大廠的競爭有助于技術的進步和商業化的加速。
? 為什么是 ChatGPT?比起競品和上一代產品,ChatGPT 在多方面有了明顯改 善。1)道德性的增強,敢于質疑提問者提問前提的正確性和正當性。避免出 現偏見、歧視等毒害信息。2)主動承認錯誤或主動承認無法回答某一問題。3) 可以理解整段對話上下文的語義,而不是孤立的回答其中一個問題。4)對提 問者意圖判斷能力大幅提升,并非單純根據相關性進行答案羅列。因此整體上, ChatGPT 有著比其他 AI 機器人更好的用戶體驗,具備了真正意義上的連續對 話的能力。
**? 如何落地?**短期看是降本增效的新生產力工具,長期看可能帶來新的內容生 產范式。ChatGPT 的成功證明了生成式模型的進化,實現通用人工智能 AGI 的可能性進一步提高。其重要性體現在 AI 對人類傳達信息的載體有了更好 的學習,在此基礎上各個媒介之間的互通成為可能。例如從自然語言生成編程 語言,可以產生新的人機交互方式;從自然語言生成圖片和視頻,可以革新內 容行業的生產范式。短期直接落地的場景可能是在文本端,提高人的效率:搜 索、營銷文案、客服、輔助寫作;更長期的可能在于提高人機互動的智能, 如在游戲、虛擬人方面的應用。
AIGC成為新的內容生產方式,跨模態生成值得重點關注。區別于PGC與UGC,AIGC是利用人工智能技術自動生成內容的新型生產方式。按照模態區分,AIGC可分為音頻生成、文本生成、圖像生成、視頻生成及圖像、視頻、文本間的跨模態生成,細分場景眾多,其中,跨模態生成需要重點關注。 自然語言處理(NLP)賦予了AI理解和生成能力,大規模預訓練模型是NLP的發展趨勢。NLP的兩個核心任務分別是自然語言理解(NLU)和自然語言生成(NLG)。以ELMo、BERT、GPT為代表的預訓練模型,降低了NLP的技術門檻。ELMo解決了“一詞多義”的問題;BERT通過MLM(類似于完形填空)和NLP(判斷句子是否相連)進行預訓練,增強了上下文的理解能力。GPT通過預測下一個詞,獲得了生成能力;GPT-3在此基礎上使用了更大的數據和更大模型,無需針對下游任務進行傳統的微調,并且采用了小樣本學習提升生成效果。 ChatGPT是NLP發展中具有里程碑式意義的模型之一。ChatGPT是OpenAI從GPT-3.5系列中的模型進行微調產生的聊天機器人模型。它能夠通過學習和理解人類的語言來進行對話,還能根據聊天的上下文進行互動,真正像人類一樣來聊天交流,甚至能完成撰寫郵件、視頻腳本、文案、翻譯、代碼等任務。 生成模型賦予了AI創造力,擴散模型是最前沿的技術之一。AIGC的快速發展歸功于生成算法領域的技術積累。GAN的核心思想是“生成”與“對抗”,相比傳統的深度神經網絡,GAN能產生更好的生成樣本,但是仍需解決應用中的問題。擴散模型較GAN更接近人的思維模式,是基于馬爾科夫鏈,通過學習噪聲來生成數據。擴散模型實現了跨模態應用,包括OpenAI的GLIDE和DALL·E2、谷歌的Imagen、StabilityAI的StableDiffusion等。 人工智能由單模態智能,向多種模態融合方向發展。建立統一的、跨場景、多任務的多模態基礎模型或將成為人工智能發展的主流趨勢之一。CLIP模型將語言信息和圖像信息聯合訓練,能夠鏈接文本和圖片,成為跨模態生成應用的一個重要節點,“CLIP+其他模型”在跨模態生成領域成為一種較為通用的做法。2022年,微軟提出的BEiT-3多模態基礎模型,在視覺-語言任務處理上具備出色表現,包括視覺問答、圖片描述生成和跨模態檢索等。多模態提高了基礎模型的靈活性,使其在其他模態的應用中發揮新的潛質。 未來,值得關注的技術要素包括:長文本生成、開放式文本生成、NeRF模型、擴散模型、跨模態大型預訓練模型(支持的模態數據類型、模態對齊架構設計、支持的下游應用)、小樣本學習及自監督算法、強化學習及環境學習等。
ChatGPT市場反應熱烈,國內外巨頭紛紛入場
據統計,ChatGPT日活躍用戶數的增速遠超Instagram,1月份平均每天有超過1300萬名獨立訪問者使用ChatGPT,是去年12月份的兩倍多;國內外科技巨頭都非常重視ChatGPT引發的科技浪潮,積極布局生成式AI,國內廠商(百度、騰訊等)也高度關注ChatGPT,積極探索前沿技術,相關深度應用也即將推出。
ChatGPT經歷多類技術路線演化,逐步成熟與完善
ChatGPT所能實現的人類意圖,來自于機器學習、神經網絡以及Transformer模型的多種技術模型積累。Transformer建模方法成熟以后,使用一套統一的工具來開發各種模態的基礎模型這種理念得以成熟,隨后GPT-1、GPT-2、GPT-3模型持續演化升級,最終孵化出ChatGPT文本對話應用。
AIGC跨模態產業生態逐步成熟,商用落地未來可期
AIGC產業生態當前在文本、音頻、視頻等多模態交互功能上持續演化升級,奠定了多場景的商用基礎。跨模態生成技術也有望成為真正實現認知和決策智能的轉折點。
ChatGPT乘東風,商業架構日益清晰
隨著ChatGPT Plus發布,商業化序幕已經拉開。ChatGPT在傳媒、影視、營銷、娛樂以及數實共生助力產業升級等領域均可產生極大助益,提升生產力曲線,多維度賦能虛擬經濟和實體經濟。
日前,廣和通攜手中國移動、中國電信、中國聯通、高通公司、紫光展銳、聯發科技以及眾多物聯網產業伙伴正式發布“5G智造營”年度創新成果,并重磅推出《5G AIoT全景商用產品手冊》,以生態力量打破行業邊界,以技術融合“智造”商業價值。
本產品手冊匯集了5G AIOT領域產業生態合作的主要案例,其中包括電信運營商、芯片商、智慧能源、工業互聯、固定無線接入、C-V2X、智慧零售、智聯萬物、物聯網生態九大領域。
5G作為數字經濟核心產業,在未來5-10年中對于經濟發展將產生深遠影響。從2019年6月工信部正式向四家運營商發放5G商用牌照至今2年多時間,在全社會和產業界的共同努力下,我國5G商用穩步推進,5G產業生態持續壯大,應用創新日益活躍,目前在基礎設施、產業能力、融合應用等各個方面形成全球領先優勢。根據工信部相關數據顯示,截止今年6月底,我國累計建設5G基站達96.1萬個,覆蓋全國所有地級以上城市,5G手機終端連接數達3.65億戶,占全球80%以上;中國電信和中國聯通已建成全球規模最大的5G共建共享網絡,累計節約投資超過860億元。
5G更廣闊的市場是面向千行百業的各類智能物聯網(AIOT)應用場景,為國民經濟各行業數字化轉型提供有力支撐。經過2年多的實踐,5G在我國各行各業的技術創新和深度應用已有明顯成效,5G+工業互聯網、超高清視頻、智慧教育、智慧醫療、健康養老等典型應用加快發展,全國5G應用創新案例超過1萬個,多個行業的5G應用已經從“樣板間”開始走向“商品房”階段。
今年7月,工信部、中央網信辦、國家發改委等十部委聯合發布《5G應用“揚帆”行動計劃(2021-2023年)》,作為接下來3年中5G產業發展的“總綱領”,明確了2021年5G應用發展的主要指標,并確定了15個重點應用領域的行動方案。值得關注的是,該行動計劃提出了“推動5G模組規模化商用”的目標,包括構建建模組分級分類產業化體系,指導行業面向差異化場景需求開展精準化產品研發,持續提升模組的環境適應性,不斷降低規模化應用門檻。
眾所周知,物聯網模組是實現各垂直行業終端快速智能化連接的核心中間件,在產業數字化中發揮關鍵作用,因此模組規模化也是5G應用規模化發展的必要條件。4G時代,中國企業在全球蜂窩物聯網模組市場中逐漸占據主導地位;5G時代,預計中國企業不僅將繼續鞏固在這一領域的主導地位,還將形成創新引領。
隨著技術的持續演進,5G發展將進入一個嶄新的階段。8月5日,中國移動聯合華為等產業伙伴在線上舉行了《5G-Advanced網絡技術演進白皮書》發布會。該白皮書在業界首次詳細分析和闡述了5G-Advanced的網絡演進架構和技術發展方向,為5G技術后續的演進和發展指明了方向,推動5G-Advanced產業持續健康發展。
《5G-Advanced網絡技術演進白皮書》正式發布
3GPP正式將5G演進的名稱確定為5G-Advanced。5G-Advanced將為5G后續發展定義新的目標和新的能力,通過網絡演進和技術增強,使能5G產生更大的社會和經濟價值。在這個承前啟后的時間點上,產業伙伴共同撰寫本白皮書,希望為5G-Advanced網絡發展提供可參考的場景需求和技術方向,促進產業共識,共同推動5G發展進入新階段。
5G是個人消費體驗升級和行業數智化轉型的關鍵。5G要進入千行百業,需要進一步融合DOICT等技術。在端到端5G-Advanced網絡演進過程中,核心網的演進有著舉足輕重的作用。因此,基于實際業務需求推動5G核心網技術發展及架構演進,將有助于幫助運營商提升投資回報,助力行業用戶更好地利用5G網絡實現數智化轉型。
5G-Advanced網絡需要從架構層面和技術層面持續演進,以滿足多樣化業務訴求,提升網絡能力。
在網絡架構方面,5G-Advanced網絡將沿著云原生、邊緣網絡以及網絡即服務理念發展,在電信云NFV基礎上進一步云化增強,將分布式網絡架構與邊緣業務相結合,適配垂直行業的各種定制化需求,持續增強網絡能力并最終走向云網融合、算網一體,滿足網絡功能快速部署、按需迭代的訴求。
在網絡技術方面,5G-Advanced網絡能力將沿著“智慧、融合和使能”三個方面持續增強,引入智能化來協助提升從網絡功能到網管協作的各個層面的服務能力和服務質量,多種接入方式融合,多張網絡融合,為行業用戶提供按需定制的網絡,以滿足未來用戶對網絡復雜多樣的需求。