AI Agent是人機交互新范式。AI Agent是能夠感知環境、進行決策、執行動作的智能體,在2023已順應大模型浪潮而生,隨著多模態等技術逐步成熟,當前各廠商持續推出相關產品,Agent已開始逐步進入各個場景的工作流中,成為人機協同新范式。根據Roots Analysis預測數據,預計24年全球AI Agent市場規模為52.9億美金,預計2035年達到2168億美金,對應24-35年CAGR為40.15%。 OpenAI推出Operator,AI正式邁入Agent時代。Operator由CUA新模型提供支持,其通過強化學習實現了GPT-4o的視覺能力與高級推理相結合,可以像人類一樣完成與圖形用戶界面(GUI)的交互。Operator運行在瀏覽器中,在云端構建虛擬環境來執行操作,工作步驟主要分為感知、推理、執行。當前Operator測試數據優于前期SOTA,但與人類差距仍較大,目前仍在快速進步中。 Operator遵守嚴格的數據使用和法律要求。OpenAI在數據使用上,除了公開和用戶提供的信息之外,還有較多的第三方公司合作。美國法律對OpenAI在數據訪問的隱私保護、數據安全、版權、特定領域數據保護等均有要求,Operator也提供了較為嚴格的安全措施。 Operator在多個場景應用已逐步顯示潛力。Operator的一些典型應用場景包括:旅行預訂、購物、餐廳預訂、行政任務、市場營銷、與 各行業合作。OpenAI正與DoorDash、Instacart、OpenTable和Priceline等公司合作,以改進Operator在現實世界中的應用。 中國團隊推出全球首個通用AI Agent Manus,性能表現優異,與阿里千萬達到合作。Manus定位為全球第一款通用Agen,面對各類復雜多變的任務,Manus在自己的虛擬環境中靈活調用各類工具——編寫并執行代碼、智能瀏覽網頁、操作各類網頁應用——目標為用戶直接交付完整的任務成果。在官方演示中,Manus展現了其篩選簡歷、遴選房產、股票分析等多種應用場景。在GAIA基準測試中,Manus在所有三個難度級別上都取得了新的最先進(SOTA)表現。目前Manus平臺宣布將與阿里通義千問團隊正式達成戰略合作。
摘要——隨著生成式人工智能(Generative AI)的快速發展,尤其是大語言模型的不斷突破,推薦系統正朝著更具通用性的方向演進。與傳統方法不同,生成式人工智能不僅能夠從復雜數據中學習模式和表示,還具備內容生成、數據合成和個性化體驗等能力。這種生成能力在推薦系統中發揮著關鍵作用,能夠緩解數據稀疏問題,并提升系統的整體性能。當前,基于生成式 AI 的推薦系統研究已取得了豐富成果。與此同時,推薦系統的目標也已超越單一的準確性要求,催生了大量面向多目標優化的研究,試圖在推薦中綜合考慮多種目標。然而,據我們所知,目前尚缺乏基于生成式 AI 技術的多目標推薦系統的系統性綜述研究,相關文獻仍存在明顯空白。為填補這一研究空缺,本文對融合生成式 AI 的多目標推薦系統研究進行了系統梳理,按照優化目標對現有工作進行分類整理。同時,我們總結了相關的評估指標和常用數據集,并進一步分析了該領域面臨的挑戰與未來發展方向。 關鍵詞——多目標優化,推薦系統,生成式人工智能,大語言模型
1 引言 在大數據時代,推薦系統已成為應對信息過載問題的關鍵工具,幫助用戶高效地發現有價值的內容。它們被廣泛應用于音樂、新聞、職位推薦等多個領域 [1]–[3],通過過濾海量信息流,顯著提升用戶體驗。推薦系統的發展已歷經數十年,從最初的協同過濾方法 [4]–[7] 和內容推薦方法 [8], [9],到后來的混合模型 [10]、基于圖神經網絡的方法 [11],以及深度學習方法 [12], [13],不斷演進以滿足日益增長的個性化和可擴展性需求。
近年來,生成式人工智能(Generative AI)的突破顯著改變了推薦系統的格局。正如文獻 [14] 所指出的,基于生成技術的推薦系統已成為該領域的新興研究方向。生成對抗網絡(GANs)[15]、變分自編碼器(VAEs)[16]、擴散模型 [17] 和大語言模型(LLMs)[18] 等技術,使得推薦系統能夠更豐富地進行數據合成并實現更深層次的上下文理解。其中,大語言模型在處理多模態數據(文本、圖像、視頻)和生成上下文感知的推薦內容方面展現出強大能力,帶來了前所未有的靈活性。與傳統模型依賴歷史數據預測用戶偏好不同,生成模型可以模擬用戶交互、增強稀疏數據集,并生成個性化內容,從而為推薦范式的創新開辟了新路徑。
生成模型在推薦系統領域展現出巨大潛力。目前的研究主要集中在單一目標任務,例如通過合成數據提升準確性,或利用大語言模型增強可解釋性。然而,對準確性的過度關注可能導致“過濾泡沫”(filter bubble)現象 [19],使用戶被限制在重復或同質化的內容中,抑制探索行為并削弱長期參與度。考慮到生成式人工智能在推理和理解方面的先進能力,其在多目標推薦中的應用也極具前景。 研究社區已廣泛探索在傳統推薦系統框架下平衡多種目標的多目標推薦系統(MORS)[20]–[23],但在融合生成式 AI 技術方面,相關研究仍屬稀缺。因此,將多目標優化整合進生成式推薦系統,是一個亟待深入研究的方向。
為填補這一空白,本文系統調研了使用生成技術實現多目標推薦的現有研究。我們特別強調,任何關于推薦系統附加目標(如多樣性、偶然性或公平性)的討論,都隱含地將準確性作為基礎性前提。因此,我們將多目標推薦系統(MORS)定義為:優化準確性之外其他目標的推薦系統。 本綜述識別出當前生成式推薦系統中除準確性外的主要目標包括:多樣性、偶然性、公平性與安全性;此外還涉及新穎性、可控性、效率與魯棒性等附加目標。我們聚焦于推薦系統中廣泛應用的四類生成技術:GANs、擴散模型、VAEs 與大語言模型。針對每一類目標,我們深入回顧了主流的模型架構與評估指標,并總結相關發展挑戰,旨在為未來的多目標生成式推薦研究提供基礎性見解。
本文為首個將生成式人工智能(包括 GANs、VAEs、擴散模型和大語言模型)與多目標推薦系統(MORS)結合的全面綜述,提出了一個面向目標的分類框架,系統回顧了四類關鍵目標(多樣性、偶然性、公平性、安全性)下模型架構、優化策略和評估指標的發展與局限性。 * 我們系統總結了不同目標領域(如公平性與偶然性)下的專用評估指標與對應基準數據集,為實驗設計提供標準化參考。 * 我們還討論了生成式 MORS 研究中的核心挑戰,并展望了未來的發展方向,包括改進評估指標、設計適用于 LLM 的高級策略、融合多種生成技術以提升推薦質量等。此外,我們強調跨學科合作(如倫理學、社會學)的重要性,以構建更加公平透明的推薦系統。這些見解為學術界與工業界的進一步探索與創新奠定了基礎。
第 2 節綜述推薦系統、生成式推薦系統和多目標推薦系統的相關文獻,構建研究背景。 第 3 節介紹本文涵蓋的四類主要生成技術。 第 4 節作為核心部分,系統梳理基于生成技術的多目標推薦系統,按超越準確性的目標進行分類,介紹相關定義、模型與評估指標。 第 5 節總結各類目標下常用的推薦數據集。 第 6 節探討每類關鍵目標面臨的主要挑戰。 最后在第 7 節對全文進行總結。
生成式人工智能(GenAI)正在掀起一場變革性的技術浪潮,憑借其在內容生成、推理、規劃以及多模態理解方面無與倫比的能力,重塑各行各業。這一革命性力量為解決工程領域最宏大的挑戰之一——實現可靠的完全自動駕駛,特別是向 L5 級自動駕駛邁進——提供了迄今為止最具前景的路徑。
本綜述系統地匯總并評析了生成式人工智能在自動駕駛技術棧中的新興作用。我們首先提煉了現代生成建模的基本原理及其權衡,包括變分自編碼器(VAE)、生成對抗網絡(GAN)、擴散模型(Diffusion Models)以及大語言模型(LLM)。隨后,我們繪制了這些模型在圖像、激光雷達(LiDAR)、軌跡、占用圖和視頻生成等方面的前沿應用圖譜,并探討了由大語言模型引導的推理與決策能力。
我們對其實際應用進行了分類,包括合成數據工作流、端到端自動駕駛策略、高保真數字孿生系統、智能交通網絡以及向具身智能的跨領域遷移。此外,我們還識別了若干關鍵挑戰與潛在機遇,如對稀有場景的全面泛化能力、評估與安全驗證、受限預算下的部署、監管合規、倫理問題及其環境影響等,并提出了涵蓋理論保障、信任度量、交通系統整合及社會技術影響等方面的研究規劃。
通過整合上述內容,本綜述為研究人員、工程師和政策制定者提供了一份面向未來的參考資料,以助力其應對生成式人工智能與先進自動駕駛融合發展所帶來的變革。所引用文獻的持續更新版本可參見://github.com/taco-group/GenAI4AD。
關鍵詞:生成式人工智能 · 計算機視覺 · 大語言模型 · 自動駕駛
自動駕駛長期以來被視為一項具有變革性的技術,承諾在提升道路安全、出行能力和物流效率方面帶來革命性影響。據高盛研究(Goldman Sachs Research)預測,到2030年,全球超過12%的新車銷量可能實現SAE L3及以上級別的自動化(如圖1所示),有望在實現完全自動駕駛之前,開啟一個數十億美元規模的Robotaxi市場。這一愿景正在逐步從設想變為現實,得益于過去二十年人工智能(AI)、計算機視覺、機器人技術和智能交通系統的快速發展。 這一進展覆蓋了整個技術棧,從大規模數據采集 [2, 3]、自監督模型訓練 [4, 5]、大規模驗證 [6–9],到高效的車載部署 [10–12],都受到高性能計算設備(如GPU)的推動。現代自動駕駛車輛通常配備高分辨率攝像頭、旋轉式與固態激光雷達(LiDAR)、毫米波雷達、慣性測量單元(IMU)以及全球導航衛星系統(GNSS/GPS)等多種傳感器(見圖2),用于采集周圍環境的動態信息。車規級域控制器通過多核CPU、高效GPU、高帶寬內存及強大的電源管理電路 [13–16],實現多源數據的實時融合與處理,支持從SAE L2/L3(需要駕駛員監督)到特定環境下的L4自動駕駛。 最終目標是實現L5自動駕駛,即在所有條件下無需人類介入。其潛在收益包括更安全的道路、更普惠的出行體驗,以及更高效的運輸體系,這些都激勵了全球范圍內的大規模研發投入 [18]。 學術界為自動駕駛奠定了堅實基礎,解決了多個關鍵挑戰。2005年斯坦福大學的“Stanley”贏得DARPA大獎賽,首次展示了車輛在復雜環境中自主導航的可行性 [19]。隨后,研究人員在同步定位與建圖(SLAM)[20]等領域取得突破。然而,實現真正穩健的自動駕駛系統仍依賴于感知與決策的技術進步,而這些正是傳統方法的瓶頸。深度學習的崛起推動了新一輪范式變革。ResNet [21] 與 Transformer [22, 23] 等先進神經網絡架構,使得從多模態傳感器中提取高層次語義信息成為可能,從而顯著提升了感知能力,帶動了目標檢測 [24, 25]、語義分割 [26, 27] 和目標追蹤 [28, 29] 等關鍵任務的發展,推動了復雜場景的理解能力 [30, 31]。 在此基礎上,研究進一步拓展至行為預測 [32]、路徑規劃 [33],乃至端到端自動駕駛系統的探索——即直接將傳感器輸入映射到控制輸出 [34, 35]。但正如Clive Humby所言,“數據是新的石油” [36],這一轉型依賴于大規模、高質量的視覺與多模態數據集,如ImageNet [37]、MS COCO [38]、YouTube8M [39],以及專為自動駕駛設計的KITTI [40]、nuScenes [2]、Waymo Open [3]、Argoverse [41] 和 BDD100K [42] 等。仿真平臺如CARLA [43]、AirSim [44]、SUMO [45] 和Isaac Sim [46]同樣至關重要,既用于生成地面真實數據,也為算法驗證提供平臺。 盡管工具與算法取得飛躍,大多數學術系統仍停留在原型或受控測試階段 [47, 48],這反映出從實驗室走向大規模產品部署的復雜性。工業界正在加速這一轉化進程。Waymo(起源于斯坦福DARPA團隊)和百度Apollo Go是L4 Robotaxi的領導者。Waymo自2020年起在鳳凰城運營完全無人駕駛服務,目前已擴展至舊金山、洛杉磯與奧斯汀等多個城市;百度在中國十多個城市實現了無人運營,累計服務超千萬次 [49]。Zoox(亞馬遜支持)開發專用車輛,計劃于2025年在拉斯維加斯和舊金山推出服務 [50]。然而,L4落地仍面臨技術、安全和商業障礙。Cruise(通用支持)于2023年底發生安全事故,2024年12月宣布暫停Robotaxi運營,轉而專注于高級駕駛輔助系統(ADAS)[51]。 目前市場主流仍是L2/L3級ADAS,如特斯拉Autopilot與FSD Beta [52],以及Mobileye等供應商為多家車廠提供的解決方案 [53]。這表明從受限環境擴展到廣義自動駕駛仍有重大挑戰。NVIDIA的DRIVE平臺 [54] 是核心推動者,支持從感知到規劃的AI計算。2022年推出的DRIVE Thor超級芯片 [55],進一步整合ADAS與自動駕駛功能,為量產車提供統一計算平臺。 盡管投入巨大,自動駕駛要實現L5仍面臨核心障礙: 1. 長尾問題(The Devil is in the “Long Tails”):系統難以泛化到訓練數據之外的稀有場景(如極端天氣、光照、傳感器干擾)[58]。 1. 不確定性管理(Confidentially Confused):如何在大規模、多樣化環境中可靠運行,并應對模型與環境的不確定性。 1. 復雜性與成本(An Arm and a LiDAR?):高計算需求與昂貴傳感器限制了系統的可擴展性和普及性。
當前范式的局限性表明,需要轉向更強大、可適應的AI架構以突破技術瓶頸。
OpenAI在2021年推出的DALL·E [59] 引發了生成式人工智能(GenAI)的爆炸式發展,緊隨其后的Midjourney [60] 和Stable Diffusion [61] 進一步普及了AI生成藝術 [62],廣泛影響藝術、設計、營銷、媒體和娛樂產業 [63, 64]。與視覺生成技術并行發展的是大型語言模型(LLM)的崛起,如ChatGPT [65] 和GPT-4 [66] 展現出前所未有的自然語言理解與推理能力 [67]。Meta發布的開源LLaMA系列 [68–70] 促進了社區研究的發展,多模態功能的融合更開啟了視覺語言推理與人機協作的新方向。 在本綜述中,我們將生成式AI定義為:能夠學習數據分布并合成新數據的模型,包括圖像、視頻、文本、音頻、代碼乃至三維環境。這些輸出在統計上高度接近真實數據,賦予其在生成高質量、多樣化、可擴展數據表示方面的強大能力。 GenAI 為突破L5瓶頸提供新路徑: * 高保真“長尾”模擬:通過合成LiDAR [71]、攝像頭 [72] 與軌跡數據 [73],以及復雜場景 [74],生成涵蓋稀有事件的數據集和仿真環境。 * 多主體建模與長時預測:提升系統在不確定性下的感知與規劃能力。 * 統一多模態系統:如LLaVA [75] 與DriveVLM [76],融合感知、預測與規劃于語言中心架構中,替代脆弱的模塊化流程。
因此,生成式AI不僅是補充工具,更代表了范式轉變:向統一、數據驅動、可泛化系統邁進,加速實現安全可靠的L5自動駕駛。
第2節:對比本綜述與其他自動駕駛相關綜述,推薦閱讀擴展材料。 * 第3節:匯總自動駕駛研究中常用數據集,并按應用領域分類,提供下載鏈接。 * 第4節:系統梳理生成模型的基本架構(VAE、GAN、擴散模型、自回歸模型)。 * 第5節:深入探討適用于自動駕駛的前沿GenAI模型,按圖像、視頻、LiDAR、軌跡等模態劃分。 * 第6節:詳述GenAI在自動駕駛中的關鍵應用,如傳感器合成、世界建模、多智能體預測、場景理解與決策。 * 第7節:拓展視角,探討生成式AI在具身智能領域的研究進展。 * 第8節:審視當前技術局限與未來挑戰,涵蓋數據稀缺、理論缺口、安全評估、仿真精度,以及政策、倫理、公共健康等社會議題,提出構建可信、可擴展、普惠交通系統的研究方向 [78, 79]。
人形機器人定義:具備現實意義的顛覆性產品,有望開啟下一個十年產業大周期 定義:目前人形機器人并沒有統一標準定義,根據《HumanoidRobots》的歸納,人形機器人應當能“在人工作和居住的環境工作,操作為人設計的工具和設備,與人交流”。在此前提下,人形機器人最終應具有與人類似的身體結構和運動方式,并具備一定自助感知、學習和決策能力,目前市面上的人形機器人通常身高在1.3米到1.8米之間,可分為足式機器人與輪式機器人。 價值:人形機器人集成人工智能、高端制造、新材料等先進技術,有望成為繼計算機、智能手機、新能源汽車后的顛覆性產品,將深刻變革人類生產生活方式,成為科技競爭的新高地、未來產業的新賽道、經濟發展的新引擎。 人形機器人產業發展歷程:商業化進展持續加速,預計2027年部分場景實現規模化落地 海外人形機器人概念萌芽較早,以技術導向為主,較于海外,國內以應用突破方向為主,隨著國內人工智能、高端制造、新材料等先進技術的繼續積累與突破,2023年國內人形機器人進入集中爆發期,大批廠商推出自身人形機器人產品并嘗試應用于服務、汽車等場景,逐步探索商業化落地。 國家頂層設計已經明確發展目標,2025年整機產品實現批量生產,2027年產業規模化發展,深度融入實體經濟,推動人形機器人產品規模化落地。各地方政府政策中也明確提到人形機器人,強調開展人形機器人創新研究,推動規模化應用,政府進一步加強對人形機器人產業戰略引導,但缺乏明確應用場景說明,還需企業持續探索。 社會因素:社會老齡化衍生陪伴需求,勞動力不足引發機器替人潮 中國人口出生率近年持續下降,意味著勞動力要素的供給在未來會呈現下降趨勢,且中國已于2021年進入老年人口占比超14%的深度老齡化社會,面對勞動要素供給不足以及人口老齡化難題,結合當前最前沿的AI、通訊、硬件等技術,高智能化的人形機器人可以成為一種有效的輔助工具,來幫助照料、陪伴老年人以及補充勞動力缺口等。
2025年人形機器人將迎來量產元年,產業鏈發展前景廣闊 人形機器人是AI應用落地的主要載體。大模型問世是人工智能發展的分水嶺,以人工智能大模型為代表的人工智能第三發展階段未來會有一段較長的發展紅利期,將成為新一輪科技革命和產業變革的重要驅動力量。人形機器人作為人工智能落地物理世界的優質載體,將受益于人工智能的快速發展,其擁有感知、思考、決策等能力不再遙不可及。人形機器人集成人工智能、高端制造、新材料等先進技術,有望成為繼計算機、智能手機、新能源汽車后的顛覆性產品。 2025年人形機器人將進入量產元年,優秀企業有望逐步顯現。2025年,特斯拉optimus有望進入小批量量產階段,將有數千臺人形機器人落地在內部工廠運行,2026年有望對外銷售。英偉達在GTC2024大會推出人形機器人通用基礎模型ProjectGR00T。2024年11月,華為(深圳)全球具身智能產業創新中心宣布正式運營。Figure、1X、宇樹、智元、開普勒、優必選等國內外機器人領先企業已經先后開啟人形機器人的量產。 人形機器人產業鏈空間廣闊,未來或達到萬億市場空間。馬斯克在2024年股東大會上表示,到2040年人形機器人未來數量將超過人類,可以替代人類完成無聊、危險和人類不愿意做的工作,成為工業主力,預計有望達到100億臺。我們預計當人形機器人年產量達到1000萬臺時,售價2萬美元,對應市場空間可以達到2000億美元,擁有超萬億人民幣的市場空間。高工機器人產業研究所(GGII)預測,2024年全球人形機器人市場規模為10.17億美元,到2030年全球人形機器人市場規模將達到151億美元,2024-2030年CAGR將超過56%,全球人形機器人銷量將從1.19萬臺增長至60.57萬臺。
具身智能+人形機器人或將成為AI終極形態:人工智能的進步正在成為機器人產業發展的關鍵引擎。生成式人工智能的爆發,催生了初代“AI+機器人”的人形機器人。 政策推進人形機器人發展:國家層面頻繁發布關于機器人的相關政策,特別關注人形機器人這一未來產業的關鍵領域。相關政府部門調整戰略方向,出臺一系列政策推動和引領中國人形機器人產業向高質量方向發展。 市場空間廣闊:隨著人形機器人功能邁向多樣化和普適化,產業分工日趨成熟,成本持續下探,潛在應用場景有望涵蓋制造業、家庭服務等多個領域,市場機遇廣闊。中國電子學會數據顯示,到2030年,中國人形機器人市場規模有望達約8700億元。
AI全球競賽持續演繹,算力成為AI時代主引擎。隨著Chatgpt帶來的人工智能熱潮,全球互聯網廠商紛紛逐浪AI。AI的底層基礎便是算力,算力支撐著算法和數據,亦決定AI的訓練和推理進程。站在全球視角,全球算力保持高速穩定增長態勢,2021年全球計算設備算力總規模達到615EFlops,增速達到44%。據華為GIV預測,2030年人類有望迎來YB數據時代,全球算力規模達到56ZFLOPS。站在中國視角,2021年我國算力總規模達到202EFlops,保持50%以上的高位增長。
光芯片為光通信核心器件,國產替代空間廣闊。AI大模型的搭建離不開底層基礎設施的建設,光模塊作為高性能計算網絡核心部件需求率先爆發。光芯片作為光模塊的基礎部件,其性能直接決定了光通信系統的傳輸效率,有望與800G光模塊迎來高景氣共振。從市場競爭格局來看,2.5G及以下光芯片市場中,國內光芯片企業占據主要市場份額;但25G以上高速光芯片的國產化率仍較低(2021年約為20%),高端市場基本被美國、日本公司壟斷,先發優勢顯著。近年來,以源杰科技為首的國內光芯片廠商大刀闊斧,技術上取得較大突破。隨著800G、1.6T升級周期加速,高速率光芯片需求高速增長,海外產能受限或將加速國產替代進程。 復盤海外龍頭成長之路,橫縱發展或成未來進階方向。通過復盤海外光通信龍頭Lumentum和II-VI的成長之路,我們發現海外龍頭有以下兩個進階特點:1)多次進行收購,產業鏈縱向延伸,一體化降本增效優勢顯著;2)產品品類橫向擴張,下游應用領域多點開花,抵御單一產品需求周期性風險。國內廠商通常專注于細分賽道精細化發展,深度綁定優質客戶。長期來看,我們看好技術積累深厚、有望實現橫向擴張、縱向延伸的光芯片企業。
人工智能:ChatGPT推動產業迎來iPhone時刻,并從“小作坊”走向工業化時代。ChatGPT在全球市場的爆發,正將AI 產業推到過去70年以來前所未有的高度,科技巨頭紛紛入局,繼微軟、谷歌之后,國內企業百度、阿里巴巴等先后發布大模型,并進行用戶測試和企業應用接入。全球一線科技巨頭在AI領域的軍備競賽,以及在大模型方向的持續下注,必將極大加速全球AI產業的發展進程,并推動產業從過去的“小作坊”式發展快速進入“工業化”時代。
算法模型:AI發展的靈魂,技術路線料將快速向GPT方向收斂,并有望在中期形成少數大模型(底層)+若干垂類模型 (應用層)的格局。ChatGPT的成功證明了高質量數據+反饋激勵(大模型預訓練+小數據微調)的有效性。GPT在自然語 言理解、生成方面的整體優勢,有望驅動AI大模型技術路線快速向GPT方向收斂,同時少數科技巨頭&機構專注于基礎大模型的研發,更多企業則發揮各自在垂類數據、場景理解等層面優勢,并最終構建少數大模型+若干應用模型的生態格局。
芯片&算力:算法快速迭代,以及對算力的巨大需求,料推動通用AI芯片(GPU)、云廠商早期高確定性受益。目前AI大模型領域的創新正在以月、周為單位快速向前推進,短期維度,預計通用AI芯片仍將是底層算法快速迭代的核心受益者。同時當前大模型在訓練、推理環節仍需要巨大的算力承載,云廠商在算力基礎設施、基礎軟件框架等層面綜合優勢明顯, AI帶來的算力增量料將主要向云計算平臺轉移,云廠商有望充分受益。但若后續算法迭代速度放緩,以及針對部分應用場景的專門優化,ASIC芯片需求料將快速展開,AI單位算力成本有望快速下降,但亦同時帶來應用需求的進一步增長。
數據:AI的糧食和血液。當前AI算法的發展正轉向以大模型為主的數據依賴,豐富、高質量數據集是AI產業持續向前的核心基礎。伴隨公開數據集的逐步耗盡,借助算法實現數據合成,以及垂類領域專有數據集將是企業后續差異化優勢主要來源,同時數據使用合規、用戶隱私保護等亦將成為持續監管領域。
ChatGPT引領AI技術新一輪熱潮,預示著NLP技術有望迅速進入平民化應用時代。2022年11月30日,OpenAI公司上線了聊天機器人模型ChatGPT,迅速引發了全球的熱潮。ChatGPT是一種預訓練的語言大模型,采用大量的參數和大量的數據進行訓練,基于人類反饋的強化學習算法,將NLP技術和機器學習結合,極大地提升了模型算法的效率和能力。隨著ChatGPT的熱度不斷攀升,多家科技公司都開始布局ChatGPT相關技術領域,NLP技術有望迅速進入平民化應用時代。
ChatGPT具有良好的商業價值,未來應用空間廣闊。ChatGPT相關技術不僅對眾多的C端應用帶來革新,同時也將對B端應用產生重大影響,企業數字化轉型有望真正從數字化走向智能化,ChatGPT在企業辦公中的應用,具備很大的想象空間。我們認為,協同辦公類應用作為企業各類應用的入口,同時具備知識管理、流程引擎等功能,具備很強卡位價值,在把ChatGPT技術引入后,可以極大提升產品的功能與應用體驗。員工僅需給出想要辦理的流程,由ChatGPT進行智能化辦理,從而改變過去員工需要自行在OA、ERP及業務系統中完成信息錄入、功能查找、業務辦理的現狀,將極大地提升辦公效率和使用體驗。目前微軟已經將ChatGPT應用到了Dynamics365、Teams等產品線,未來將要應用到Bing搜索中,未來的商業價值空間十分可觀。 AIGC有望成為未來人工智能的重要方向,商業化模式仍需摸索。AIGC即人工智能內容生成,ChatGPT就是典型的文本生成式的AIGC,其目前的成功也有望帶動AIGC在圖像、音樂、視頻等其他領域落地。Gartner曾多次將生成式AI列為未來的重要技術趨勢,是當下最引人注目的人工智能技術之一。據Gartner預計,到2025年,生成式人工智能將占所有生成數據的10%,而目前這一比例還不到1%。隨著ChatGPT開啟付費訂閱試點,AIGC的商業化進程正式拉開帷幕。據量子位報告統計,到2030年,AIGC的市場規模將超過萬億人民幣,但由于AIGC目前產業化程度有限,大量業務場景尚未成功變現,商業模式也還處于探索階段。我們認為,在當下時點,AIGC基于其出色的降本增效能力,在企業級市場的應用前景較為明朗和穩定,在C端消費市場的商業模式仍需進一步摸索。