Transformer大模型在自動駕駛中應用趨勢明確。Transformer基于Attention機制,憑借優秀的長序列處理能力和更高的并行計算效率,2021年由特斯拉引入自動駕駛領域。Transformer與CNN相比最大的優勢在于其泛化性更強。CNN只能對標注過的物體進行相似度的比對,通過不斷學習完成對該物體識別的任務;而Transformer可以通過注意力層的結構找到更基本的元素與元素間之間多個維度的相關信息進而找到一種更泛化的相似規律,進而提高自動駕駛的泛化能力。同時,不同于RNN存在存儲時間長度有限以及順序依賴的問題,Transformer模型具有更高的并行計算效率并且可以學習到長時間距離的依賴關系。目前,Transformer主要應用在自動駕駛感知模塊中從2D特征圖向BEV鳥瞰圖的視角轉換。
城市領航輔助駕駛落地在即,AI大模型助力實現“脫高精度地圖”。目前,主機廠正逐步從高速場景向城市場景拓展,2023年有望成為城市領航輔助駕駛的大規模落地的元年。相比于高速場景,城市場景所面臨的Cornercase大幅提升,要求自動駕駛系統具備更強的泛化能力。目前已落地城市NGP主要基于高精度地圖方案,高精地圖能夠提供超視距、厘米級相對定位及導航信息,在數據和算法尚未成熟之前,對于主機廠實現高級別自動駕駛具有重要意義。但高精度地圖應用過程中無法做到實施更新、法規風險高、高成本的三大問題難以解決。BEV感知算法通過將不同視角的攝像頭采集到的圖片統一轉換到上帝視角,相當于車輛實施生成活地圖,補足了自動駕駛后續決策所需要的道路拓撲信息,因而可以實現去高精度地圖化。目前,小鵬、華為等頭部自動駕駛廠商均明確提出“脫圖時間表”,自動駕駛算法“重感知,輕地圖”趨勢明確。 大數據和大算力是大模型應用的重要前置條件。Transformer大模型量變引起質變需要1億公里的里程數據。并且,傳感器采集得到的rawdata需進行標注后才可用于算法模型訓練,自動標注工具可大幅提升數據處理速度。2018年至今,特斯拉數據標注從2D人工標注逐步發展至4D空間自動標注;國內廠商中小鵬、毫末智行等亦相繼推出自動標注工具大幅提升標注效率。除真實數據外,仿真場景是彌補訓練大模型數據不足問題的重要解決方式。生成式AI有望推動仿真場景大幅提升泛化能力,幫助主機廠提升仿真場景數據的應用比例,從而提高自動駕駛模型的迭代速度、縮短開發周期。大算力是Transformer模型訓練的另一重要條件,超算中心成為自動駕駛廠商重要的基礎設施。特斯拉AI計算中心Dojo總計使用了1.4萬個英偉達的GPU來訓練AI模型,網絡訓練速度提升30%,國內廠商中小鵬與阿里聯合出資打造自動駕駛AI智算中心“扶搖”,將自動駕駛算法的模型訓練時間提速170倍。
擁抱汽車行業新時代,智能化引領邁入下半場 當前汽車智能化板塊出現兩點積極變化:1)下游汽車銷量回暖,行業拐點位置顯現。根據中汽協數據,5月汽車產銷分別完成233萬輛和238萬輛,環比分別提升9.4%和10.3%,同比分別提升21.1%和27.9%。我們認為此前有關汽車行業受到補貼退坡和降價等不利因素已經體現在當前市場的定價當中,行業拐點位置開始顯現。2)政策催化,6月2日,國務院召開常務會議,研究促進新能源汽車產業高質量發展的政策措施。通過近期的一線調研,和對重點車型軟硬件配置進行跟蹤梳理,我們認為智能化仍是主機廠的重點發力方向,行業維持高景氣,且出現諸多新趨勢。 L2+接棒,從輔助駕駛邁向高級別智能駕駛 根據高工智能汽車數據,自2021Q1以來,L2級別智能車的滲透率從不足15%提升至約30%,單季度搭載量從約60萬輛提升至約150萬輛,為智能駕駛板塊提供了強勁的驅動力。同時,根據高工智能汽車數據,2022年1-10月,國內市場乘用車前裝標配L2+/L2++交付上險42.14萬輛,前裝搭載率為2.65%,顯示出高級別智能駕駛正在逐步落地。在2023年上海國際車展期間,包括理想、小鵬、蔚來、長安、長城、東風等諸多主機廠均宣布將推出L2+級別的自動駕駛功能。我們預計后續在L2級別滲透率穩步提升的同時,L2+級別將迎來跨越式增長,智能車產業鏈高景氣不改。 激光雷達成為主流選項,規模化量產能力成為競爭重點 根據我們的統計,在2023年的上海車展中,廠商共計展出近40款搭載激光雷達車型,其中絕大多數采用了速騰聚創、禾賽科技或圖達通的激光雷達方案。我們認為,在具備高速導航輔助駕駛或城區導航輔助駕駛的L2+級別功能中,搭載激光雷達的多傳感器融合方案已成為眾多車廠的主流選項。且隨著激光雷達向芯片化、固態化的方向演進,激光雷達成本正快速降低。根據禾賽科技2023年Q1財報,其在Q1一共交付了34834臺激光雷達,實現營收6260萬美元,對應單臺激光雷達產品售價已降至2000美元以下,相較于2020年8.94萬元的單價顯著下降。且我們預計隨著搭載率的提升,產品價格有望進一步降低,后續隨著激光雷達開啟上車周期,對于激光雷達廠商而言,規模化量產能力成為競爭重點。 人車交互是確定性趨勢,智能座艙功能持續豐富 座艙的硬件平臺方面,眾多車型采用了高通8155域控制器,其迎來大規模上車周期,為智能座艙提供了強大的算力支撐,且高通下一代智能座艙芯片8295也陸續取得定點。此外,一芯多屏成為趨勢,智能座艙屏幕正在從過去的單屏擴展到儀表、中控屏、平視顯示器、娛樂屏在內的多個顯示屏,多屏可獨立顯示內容,也可互聯互動、多維交互。除了顯示以外,我們也注意到了各個主機廠在智能化人車交互上發力,基于DMS的手勢交互,以及基于AI和大模型的語音交互等功能也成為了智能座艙的重要組成部分。 智能化浪潮下,本土產業鏈全面崛起 芯片方面,除英偉達和高通兩大全球巨頭外,以地平線為代表的本土的芯片廠商展現出了強大的競爭力,例如征程芯片已在120余款車型上取得前裝定點。激光雷達方面,包括速騰聚創、禾賽科技、圖達通等廠商均已實現規模化量產,具備先發優勢。軟件算法方面,大眾旗下的軟件公司CARIAD在2023年的上海車展期間宣布與中科創達建立合資公司,專注于智能互聯和信息娛樂系統領域的軟件產品及解決方案的研發與測試。此外,在智能駕駛整體解決方案的選擇上,如德賽西威、宏景智駕、縱目科技、華為等廠商也成為了國內主機廠的首選。總體來看,得益于國內主機廠將智能化作為彎道超車的抓手之一,各類本土智能化部件供應商在行業從0到1的過程中全面崛起,我們預計隨著汽車智能化邁入下半場,上述廠商的先發優勢有望進一步放大,在全球汽車產業鏈中占據一席之地。
來源:弗若斯特沙利文 近日,弗若斯特沙利文(Frost & Sullivan,簡稱“沙利文”)發布《AI 大模型市場研究報告(2023)——邁向通用人工智能,大模型拉開新時代序幕》。 報告認為,伴隨基于大模型發展的各類應用的爆發,尤其是生成式 AI,促使大模型帶來的價值進一步升級到人類生產力工具的顛覆式革新,逐漸拉開了通用人工智能(AGI)的發展序幕。 在通往AGI時代的旅程上,大模型和人類反饋的強化學習(RLHF)的結合,不僅重構了AI開發范式,未來軟件80% 的價值將由 AI 大模型提供,剩余 20% 會由提示工程和傳統業務開發組成,開發者的生產力將得到極大釋放;與此同時,AI的發展也將由之前單向發展的數據飛輪升級到不斷迭代進化的智慧飛輪,更高效的解決海量的開放式任務。 報告指出,中國大模型廠商的成功因素主要包括:全棧大模型訓練與研發能力、業務場景落地經驗、AI安全治理舉措、以及生態開放性4個方面,其中全棧大模型訓練與研發能力還包括數據管理經驗,AI基礎設施建設與運營,以及大模型系統和算法設計3個部分。這些成功因素分別體現著大模型廠商的產品技術能力、戰略愿景能力、生態開放能力三個維度。 基于這三個維度,沙利文制定了超過70個評估指標,對大模型廠商進行了全面的能力評估。 關鍵發現點
AI大模型的高速發展離不開底層技術支持和應用場景迭代。大模型作為AGI時代的曙光,相關廠商也將迎來廣闊的發展空間。本報告將呈現從發展現狀、驅動因素洞察AI大模型廠商競爭與發展關鍵點,并推演競爭格局的邏輯分析過程: 前瞻洞察:
通向AGI的技術路徑具有多元性,目前大模型是最佳實現方式。大模型具有強大的泛化性、通用性和實用性,能夠降低AI開發門檻、提高模型精度和泛化能力、提高內容生成質量和效率等多種價值,實現了對傳統AI技術的突破,并成為AGI的重要起點。 進而將AI發展由數據飛輪升級到智慧飛輪,最終邁向人機共智。大模型和人類反饋的強化學習(RLHF)的結合,進一步重構了AI開發范式,進入大模型主導的軟件2.0時代。另一方面,AI開發則形成新的“二八定律”,開發者的生產力將得到極大釋放。 驅動因素:
大模型“基礎設施-底層技術-基礎通用-垂直應用”發展路線逐漸清晰,國內各廠商加速戰略布局,加大資金和技術投入,迎頭趕上全球大模型產業化浪潮,本土化大模型迎來發展新機遇。整體上,行業驅動因素主要包含三個層面: (1)政策端:政策環境持續優化,賦能AI大模型市場高速發展。 (2)供給端:下一代AI基礎設施等快速發展,助力大模型應用落地。 (3)需求端:AI市場高景氣,大模型下游行業需求旺盛。 行業觀點:
大模型未來發展將趨于通用化與專用化并行、平臺化與簡易化并進。同時,MaaS模式將成為AI應用的全新形式且快速發展,重構AI產業的商業化結構生態,激發新的產業鏈分工和商業模式。未來,大模型將深入應用于用戶生活和企業生產模式,釋放創造力和生產力,活躍創造思維、重塑工作模式,助力企業的組織變革和經營效率,賦能產業變革。 關鍵成功因素:
大模型面臨算力需求大、訓練和推理成本高、數據質量不佳等挑戰。一個可對外商業化輸出的大模型的成功,要求其廠商擁有全棧大模型訓練與研發能力、業務場景落地經驗、AI安全治理舉措、以及生態開放性4大核心優勢,才能保證其在競爭中突出重圍。其中,全棧大模型訓練與研發能力還包括數據管理經驗,AI基礎設施建設與運營,以及大模型系統和算法設計3個關鍵要素。 競爭格局:
在競爭格局漸趨明晰的過程中,相關廠商需跨越技術、人才、資金等壁壘,在產品技術能力、戰略愿景能力、生態開放能力三大維度上展開角逐。通過遴選,報告選擇了5家大模型廠商,分別為商湯、百度、阿里巴巴、華為、騰訊,評價模型包含15個一級指標、56個二級指標,對廠商大模型的各個能力進行評估。 用戶建議:
通過此報告能夠了解大模型廠商的競爭態勢,關注領先廠商,內部創建大模型戰略文件,明確其優勢、帶來的風險和機遇,以及部署路線圖,針對具體的用例,權衡模型的優勢和風險,并選擇合適場景試點、評估大模型的應用價值。 具體內容如下
我們將“AI+傳媒”的研究框架體系定義為“通用大模型”+“行業小樣本”的技術架構,“AI+傳媒”在應用層表現效力優劣的關鍵取決于通用大模型對垂直應用的適配程度及迭代速度,
1、適配程度是指:多模態的輸入及輸出是否匹配應用層的輸入及輸出。比如GPT-4屬于“圖+文”多模態輸入+“文”單模態輸出,因此輸入模態為“圖或文”且輸出模態為“文”的垂直應用更適配GPT-4。 2、迭代速度是指:應用層產生的“行業小樣本”的數據量是否匹配大模型的迭代要求。根據我們對GPT模型的理解,比如BingAI產生的“行業小樣本”源自Bing的搜索結果,ChatGPT產生的“行業小樣本”源自用戶的反饋和互動。因此我們認為,對于超出GPT所使用的預訓練數據庫范圍(2021年9月前)的事實性表述,BingAI反饋的是搜索的結果,ChatGPT反饋的是用戶主動的觀點,BingAI反饋的效果比ChatGPT更好。 我們認為“行業小樣本”的價值取決于數據數量及數據質量,數量大且質量高(多模態)的應用場景復用及迭代AI能力的效力更強,因此更進一步理解我們的研究框架,我們將“行業小樣本”的結構分層(中層小模型+下層應用及內容),并將“行業小樣本”的結合方式分類(調用+訓練): 1、“行業小樣本”的數據集來自小模型或應用及內容:AI產業鏈包括上層大模型、中層小模型、下層應用及內容,包括應用及內容直接接入大模型或通過小模型接入大模型兩種方式,即“大模型+應用及內容”或“大模型+小模型+應用或內容”,其中具備特定功能的AIGC軟件產品及MaaS我們理解為“小模型”+“應用”的技術范式,本身具備較高質量的AI能力,若接入匹配的多模態大模型,有望實現能力上的質變突破。 2、“行業小樣本”的結合方式包括“能力調用”及“能力訓練”兩類: (1)“能力調用”是指下游垂類場景直接調用通用大模型的通用能力,并基于垂類場景內產生的特性化數據不斷提升調用能力在垂類場景內的適配程度。我們認為現階段下游應用及內容主要采取此類方式接入大模型能力,此類方式可高效快速調用大模型先進能力,在時間上及成本上具備優勢。我們認為“能力調用”匹配“AI+傳媒”的第一層利好,即通過AI降本增效,大幅提高數據及內容的供給量。內容產業本質由供給決定需求,因此內容供給量的明顯提升將有效帶動傳媒基本面拐點及增量空間出現。 (2)“能力訓練”是指下游垂類場景將通用大模型針對特性化數據集進行再訓練,從而形成垂類場景專屬大模型。例如彭博社利用自身豐富的金融數據源,基于開源的GPT-3框架再訓練,開發出了金融專屬大模型BloombergGPT。我們認為“能力訓練”匹配“AI+傳媒”的第二層利好,即下游垂類場景本身的數據或內容反過來“再訓練”通用大模型(或開源大模型),形成傳媒內容場景專屬大模型,形成更穩定且高質的內容輸出。我們認為訓練難度文本<圖片<視頻<影視<游戲,且內容數量逐步遞減但內容質量逐步遞增,即偏后端的影視、游戲在內容數量上訓練量級不足,因此高質量的內容形態首先通過“能力調用”輸出AIGC內容,再將AIGC內容“再訓練”大模型以解決高質量內容數量不足的問題(合成數據“再訓練”范疇)。從投資的角度,按照我們的研究框架,傳媒對應垂類場景的“行業小樣本”,其核心價值取決于數據與內容,第一層對應數據與內容的輸入模態是否匹配大模型的輸出模態;第二層對應數據與內容的數量及質量是否匹配大模型的能力再訓練: 1、按照“模態匹配”的邏輯,AI+文本/虛擬人預計率先兌現案例及業績,其次AI+圖片可通過“大模型”+“小模型”組合方式實現(如GPT+StableDiffusion、GPT+Midjourney)。隨著未來GPT-5提供更多模態的輸入及輸出,下游垂類場景的適配范圍有望擴大,通過“能力調用”適配的應用及內容場景更為豐富,因此后續“AI+視頻/影視/游戲”的案例兌現度存在新的催化空間。 OpenAI最新發布的GPT-4核心特征包括:(1)多模態輸入(圖+文),單模態輸出(文),可以閱讀并總結論文內容、解答較高難度的物理題目、具備較強的OCR能力(如識別網頁草稿并按要求反饋網頁代碼)、理解人類社會常識;(2)具備長文字處理及推理判斷能力,GPT-4上下文上限約2.5萬字,允許使用長格式內容創建、擴展對話以及文檔搜索和分析等,能夠閱讀并記憶更多信息,且具備更高的推理判斷能力;(3)可靠性大幅提升,分辨能力提高,有效減少“虛構”或“有害”信息輸出。2、按照“能力再訓練”的邏輯,AI+內容/IP預計空間及價值更大,其價值核心取決于數據與內容/IP的數量及質量的高低。微軟本周發布的DeepSpeed-Chat大幅提升大模型預訓練速度并大幅降低訓練成本,我們認為最核心意義為大幅降低垂類場景專屬大模型的訓練門檻,小模型層及應用層有望明顯受益。掌握數據及優質內容(多模態數據)的下游場景具備核心競爭力,因此內容及IP(版權)的價值有望重估。 DeepSpeed-Chat集成預訓練語言大模型完整三個步驟,其中針對第三步RLHF訓練集成了高效且經濟的DeepSpeed-RLHF系統,使復雜的RLHF訓練變得快速、經濟并且易于大規模推廣(相比現有系統提速15倍以上,且大幅降低算力要求及成本)。本文將選取國外AI圖像生成領域的龍頭之一進行解析,Midjourney是國外一款搭載在Discord社區上的圖像生成應用,通過差異化產品定位擁有了早期數據積累及活躍社區,截至2023年3月在Discord上的用戶數超1300萬,是目前用戶數最多的服務器,年營收約1億美元。公司團隊成員僅11人,人效極高,團隊成員及顧問擁有AI技術及產品創業的復合背景,從不同緯度賦能公司發展。 基于CLIP及Diffusion的開源模型構建專屬閉源模型,數據飛輪快速構建護城河。Midjourney通過參考CLIP及Diffusion開源模型的基礎上抓取公開數據進行訓練,從而構建自己的閉源模型以適應行業技術的飛速發展。此外,通過收集用戶反饋及數據標注,Midjourney不斷迭代模型,在ValueChain上占據多個數據層、模型層、應用層整個技術棧。 以藝術風格建立差異化競爭優勢,具備廣闊的用戶基礎,目標客群付費意愿強烈。Midjourney擁有多種不同風格可供選擇,藝術風格在市場上具備差異化優勢。prompt簡短生成效果驚艷,具備較強商業性,鎖定基數大付費意愿強的創意設計目標客群,被大量實踐證明能顯著提高工作效率。2022年3月V1發布時仍參考了很多的開源模型,同年4月、7月、11月分別發布V2、V3、V4,其中V4補充了生物、地點等信息,迭代出了自己的模型優勢,增強對細節的識別能力及多物體、多人物的場景塑造能力。2023年3月,在經歷多次更新后的MidjourneyV5版本解決了一些技術難題,完成了跨越性的突破。 Midjourney與Discord雙輪驅動,激勵用戶點贊積累標注數據。Discord為Midjourney的啟動提供了絕佳的社交體驗平臺,成功將其帶入了大眾市場。一方面Discordbot降低了用戶使用門檻;另一方面,圖片創作是一個在討論中不斷迭代的過程,欣賞其他用戶的作品有也助于激發靈感。此外,Midjourney通過贈送免費使用時間來激勵用戶點贊,從而積累標注數據不斷優化模型生成效果。
作者 | 李振華 螞蟻集團研究院院長 倪丹成 螞蟻集團研究院研究總監 徐潤 螞蟻集團研究院高級專家
來源 |《中國外匯》2023年第6期
要點人工智能大模型作為中美新一輪技術競爭的核心領域之一,國家層面應積極鼓勵國內基礎模型研究的發展、配套硬件基礎設施建設及應用落地,相關配套管理措施也需及時跟進。
從2022年下半年人工智能繪畫熱潮,到人工智能對話機器人程序ChatGPT在全球走紅,ChatGPT上線僅2個月全球活躍用戶數量達1億,超越TikTok成為史上用戶增長最快的消費者應用,再到3月14日OpenAI發布下一代里程碑大模型GPT-4,生成式人工智能領域持續爆出令人驚喜的技術突破和產品體驗,并催生多家獨角獸公司。生成式人工智能領域的爆發主要歸功于人工智能大模型技術的巨大突破,標志著人工智能技術從專用人工智能轉向通用人工智能的拐點,有望大幅提升人工智能的適用場景和研發效率,并打開大規模商業化的想象空間。目前以微軟、谷歌、Meta、百度、騰訊、阿里巴巴、字節跳動等為代表的頭部科技企業紛紛摩拳擦掌,積極投身于人工智能大模型研發熱潮之中。
人工智能大模型技術演進趨勢
人工智能大模型的定義和優勢 人工智能大模型即基礎模型(Foundation Model)(《On the Opportunities and Risk of Foundation Models》,2021.08,李飛飛等100位學者聯合發表),國際上稱為預訓練模型,指通過在大規模寬泛的數據上進行訓練后能適應一系列下游任務的模型。 相較于小模型(針對特定場景需求、使用人工標注數據訓練出來的模型),大模型主要有以下三點優勢: 涌現能力。通過簡單的規則和相互作用,大模型能夠有效集成自然語言處理等多項人工智能核心技術,并涌現出強大的智能表現,將人工智能的能力從感知提升至理解、推理,甚至近似人類“無中生有”的原創能力。 適用場景廣泛。人工智能大模型通過在海量、多類型的場景數據中學習,能夠總結不同場景、不同業務下的通用能力,擺脫了小模型場景碎片化、難以復用的局限性,為大規模落地人工智能應用提供可能。 研發效率提高。傳統小模型研發普遍為手工作坊式,高度依賴人工標注數據和人工調優調參,研發成本高、周期長、效率低。大模型則將研發模式升級為 大規模工廠式,采用自監督學習方法,減少對人工標注數據的依賴,顯著降低人力成本、提升研發效率。人工智能大模型的技術演進趨勢 階段一,訓練數據演進:從追求規模到重視質量 追求規模。2018年以來,以BERT、GPT-3等為代表的人工智能大模型的成功使人們認識到通過提升參數規模、訓練數據量有助于顯著提升人工智能的智能水平,引發了大模型研發的軍備競賽,大模型參數呈現數量級增長,充分享受算法進步下的數據規模紅利。 人工智能大模型的發展也經歷預訓練模型、大規模預訓練模型、超大規模預訓練模型三個階段,參數量實現從億級到百萬億級突破(見圖1)。
重視質量。伴隨大模型參數的持續擴大,訓練數據的質量對模型表現的重要性愈發凸顯。OpenAI對其研發的InstructGPT模型進行實驗發現:隨著參數量增加,模型性能均得到不同程度的提高;利用人工標注數據進行有監督的微調訓練后的小參數模型,比100倍參數規模無監督的GPT模型效果更好。未來,提升大模型的訓練數據質量或許比提升數據規模更為重要,人工標注數據仍有其存在的價值和意義,相關產業鏈的發展也值得重視(見圖2)。
階段二,模態支持演進:從單一模態到多模態 從支持的模態來看,人工智能大模型先后經歷了單語言預訓練模型、多語言預訓練模型、多模態預訓練模型三個階段,模型能力持續升級(見圖3)。
多模態預訓練模型代表有2022年大火的開源模型Stable Diffusion,掀起一波人工智能繪畫熱潮,已有大量產品級應用;以及谷歌、Meta推出的文字生成視頻、文字生成音樂等預訓練模型,但仍在早期研發階段,技術尚未成熟。 ChatGPT所基于的InstructGPT模型仍屬于自然語言處理(NLP)領域的單模態模型,擅長理解和生成文本,但不支持從文本生成圖片、音頻、視頻等功能。OpenAI最新發布的大模型里程碑之作GPT-4并沒有一味追求更大規模參數,而是轉向多模態,支持輸入圖像或文本后生成文本。 階段三,架構設計演進:從稠密結構到稀疏結構 人工智能大模型架構設計指模型的計算架構,分為稠密結構和稀疏結構,二者區別為:在訓練中,稠密結構需激活全部神經元參與運算,而稀疏結構僅需部分神經元參與運算。 稠密結構導致高昂的大模型訓練成本。以GPT-3為代表的早期的人工智能大模型均為稠密結構,在計算時需激活整個神經網絡,帶來極大的算力開銷和內存開銷。根據國盛證券的測算,GPT-3一次訓練成本高達140萬美元。 稀疏結構能夠顯著降低大模型訓練成本。稀疏結構是一種更像人腦的神經網絡結構,在執行具體任務的過程中只有部分特定的神經元會被激活,顯著降低模型算力消耗。目前稀疏結構已經應用至人工智能前沿研究。2022年6月,谷歌發布了第一個基于稀疏結構的多模態模型LIMoE,證明了稀疏結構在降低模型算力消耗的同時,還能在多項任務中取得不亞于稠密結構的效果。
中美人工智能大模型技術現狀對比及原因探析
國內在人工智能大模型研究上具備良好的基礎 從2018年至今推出大模型數量來看,美國頭部科技企業如谷歌、Meta、OpenAI、微軟等在人工智能大模型領域積累深厚,但我國研究機構在全球前十大排名中也占據四個席位,包括智源人工智能研究院、清華大學、百度、阿里巴巴(見圖4)。 我國與國外最領先的技術相比仍有2—3年差距 從大模型的參數量來看,美國人工智能研究機構總是率先取得突破,比如谷歌2017年提出Transformer模型奠定了大模型的底層模型基礎,OpenAI的GPT系列持續引領潮流;中國人工智能大模型雖然具備追趕的能力,但追趕的過程需要花費1—2年時間,此后在模型技能上仍需時間打磨,完全拉齊效果大概需要2—3年時間(見圖5)。例如,OpenAI于2019年1月推出擁有15億參數量的GPT-2大模型,而國內直至2021年1月由智源人工智能研究院研發出26億參數量的大模型——悟道文源1.0。
中美大模型技術差距的原因探析
人工智能大模型研發已成為全球新一輪技術競爭的核心領域之一,但以下多種因素制約了我國大模型技術的進一步發展,導致與美國大模型技術存在較大差距。 底層算法原創性不足,頂尖人才欠缺。人工智能大模型研發的關鍵因素之一是算法,而算法的進步依賴于最頂級的人才進行前沿性研究。根據2022年入選AI 2000榜單的學者國籍來看,美國共入選了1146人次,占全球57.3%,是排名第二的中國的5倍,我國在頂尖人工智能人才儲備上仍相距美國有很大差距。 產業鏈仍有短板,人工智能芯片自研能力不足制約算力發展。伴隨大模型參數量的指數級擴張,對于算力的要求也呈爆炸式增長,而算力增長主要依靠高端人工智能芯片的儲備和芯片技術的持續進步。但在芯片方面,美國占據絕對領先地位,我國起步晚,對美國進口依賴程度高,存在“卡脖子”風險。近年來,國內大廠如阿里巴巴、華為、百度、騰訊等也正加快投入積極研發本土人工智能芯片。 長期主義精神和持續投入上存在一定差距。近年來國內科技企業在業務競爭壓力加劇、發展環境穩定性不足等背景下,不計回報的長期投入決心一定程度上受到影響,更加重視短期商業回報,在高風險創新領域,更傾向采取保守和追隨的策略。
人工智能大模型應用場景和商業化前景展望
人工智能大模型有望賦能乃至顛覆各行各業 賦能制造業。首先,人工智能大模型能夠大幅提高制造業的從研發、銷售到售后各個環節的工作效率。比如研發環節可利用人工智能生成圖像或生成3D模型技術賦能產品設計、工藝設計、工廠設計等流程。在銷售和售后環節,可利用生成式人工智能技術打造更懂用戶需求、更個性化的智能客服及數字人帶貨主播,大幅提高銷售和售后服務能力及效率。其次,人工智能大模型結合機器人流程自動化(RPA)有望解決人工智能無法直接指揮工廠機器設備的痛點。RPA作為“四肢”連接作為“大腦”的人工智能大模型和作為“工具”的機器設備,降低流程銜接難度,實現工廠生產全流程自動化。最后,人工智能大模型合成數據能夠解決制造業缺乏人工智能模型訓練數據的痛點。以搬運機器人(AMR)為例,核心痛點是它對工廠本身的地圖識別、干擾情景訓練數據積累有限,自動駕駛的算法精度較差,顯著影響產品性能。但人工智能大模型合成的數據可作為真實場景數據的廉價替代品,大幅縮短訓練模型的周期,提高生產效率。 賦能醫療行業。首先,人工智能大模型能夠幫助提升醫療通用需求的處理效率,比如呼叫中心自動分診、常見病的問診輔助、醫療影像解讀輔助等。其次,人工智能大模型通過合成數據支持醫學研究。醫藥研發所需數據存在法律限制和病人授權等約束,難以規模化;通過合成數據,能夠精確復制原始數據集的統計特征,但又與原始數據不存在關聯性,賦能醫學研究進步。此外,人工智能大模型通過生成3D虛擬人像和合成人聲,解決部分輔助醫療設備匱乏的痛點,幫助喪失表情、聲音等表達能力的病人更好地求醫問診。 賦能金融行業。對于銀行業,可以在智慧網點、智能服務、智能風控、智能運營、智能營銷等場景開展人工智能大模型技術應用;對于保險業,人工智能大模型應用包括智能保險銷售助手、智能培訓助手等,但在精算、理賠、資管等核心價值鏈環節賦能仍需根據專業知識做模型訓練和微調;對于證券期貨業,人工智能大模型可以運用在智能投研、智能營銷、降低自動化交易門檻等領域。 賦能乃至顛覆傳媒與互聯網行業。首先,人工智能大模型將顯著提升文娛內容生產效率、降低成本。此前人工智能只能輔助生產初級重復性或結構化內容,如人工智能自動寫新聞稿、人工智能播報天氣等。在大模型賦能下,已經可以實現人工智能營銷文案撰寫(如美國獨角獸公司Jasper.ai)、人工智能生成游戲原畫(目前國內游戲廠商積極應用人工智能繪畫技術)、人工智能撰寫劇本(僅憑一段大綱可以自動生成完整劇本的產品Dramatron)等,后續伴隨音樂生成、動畫視頻生成等AIGC技術的持續突破,人工智能大模型將顯著縮短內容生產周期、降低制作成本。其次,人工智能大模型將顛覆互聯網已有業態及場景入口。短期來看,傳統搜索引擎最容易被類似ChatGPT的對話式信息生成服務所取代,因為后者具備更高的信息獲取效率和更好的交互體驗;同時傳統搜索引擎商業模式搜索競價廣告也將迎來嚴峻的挑戰,未來可能會衍生出付費會員模式或新一代營銷科技。中長期看,其他互聯網業態,如內容聚合分發平臺、生活服務平臺、電商購物平臺、社交社區等流量入口都將有被人工智能大模型重塑或顛覆的可能性。人工智能大模型的商業模式及前景分析 短期內,人工智能大模型的變現方式仍然以開放付費應用程序編程接口(API)調用為主。由于人工智能大模型投入成本高昂,大模型廠商前期投入巨大,通過開放API模式向各行業開放模型并收取調用費,能夠規避集中押注單一行業的風險,構建相對穩定且輕量的收入模型。而行業應用開發者通過較低的價格便可調用最領先的大模型技術,應用于自身產品中提升服務質量。以OpenAI為例,2023年3月1日宣布正式允許第三方開發者通過API將ChatGPT集成到其應用程序(APP)和服務中,同時采取低價搶占市場策略,將優化后API定價降至此前的十分之一,對后發大模型公司帶來巨大追趕壓力。這一舉措大幅降低使用門檻,商業用戶數量將迎來快速增長。 長期來看,人工智能大模型廠商仍會深度介入某些具備重要價值的垂類應用場景,比如信息咨詢、金融服務、醫療服務等,通過戰略投資生態合作伙伴或自研應用級產品的方式,并通過付費訂閱或新一代廣告模式來進行變現。
相關建議
現階段,人工智能大模型發展存在著一定挑戰。首先,人工智能大模型本身仍有一定技術風險:魯棒性(即系統的健壯性)不足,系統在面對黑天鵝事件和對抗性威脅時可能會表現出能力缺失;可解釋性較低,缺乏理論支撐,本質基于條件概率,只能接近但無法重現人類思維邏輯,存在部分事實性錯誤;算法偏見,訓練語料庫若缺乏代表性或包含人類偏見,模型會存在算法偏見問題。其次,人工智能大模型發展也會帶來一定的社會風險:數字鴻溝,可能會加劇技術擁有者和缺乏者在信息獲取層面的不公平現象;壟斷風險,領先的大模型技術若被海外巨頭壟斷,將對國內的技術進步和經濟發展造成不利影響;內容風險,人工智能生成內容爆發后可能會產生大量錯誤信息污染互聯網環境。 為此,人工智能大模型作為中美新一輪技術競爭的核心領域之一,國家層面應積極鼓勵國內基礎模型研究的發展、配套硬件基礎設施建設及應用落地,配套管理措施也需及時跟進。 基礎研究方面,人工智能大模型是高資金投入、高人才壁壘的研究領域,頭部效應明顯,應構建以領軍企業為主體、產學研合作的創新體系,對于重點人才需加大力度引進,強化科學家之家的國際交流合作,加速追趕國際前沿水平。 產業配套方面,大力支持國產人工智能芯片和超算平臺的發展,構建國家數據資源平臺、發展數據標注產業及合成數據產業等,為國產人工智能大模型研發提供算力和數據保障。 應用落地方面,應積極推動大模型在制造業、醫療、金融、傳媒、互聯網領域的行業示范應用和規模化價值落地,打造一批可復制、可推廣的標桿型示范案例。 行業監管方面,在人工智能大模型及相關應用產業發展的早期,監管層應以更為包容的態度展開相關工作,鼓勵探索創新,大模型帶來的風險主要是技術層面的問題,通過行業共同探索技術解決方案能夠有效把控相關風險。
版權聲明
凡注明“來源:中國外匯”的所有作品,均為國家外匯管理局外匯研究中心合法擁有版權或有權使用的作品,未經本公眾號授權不得進行營利性使用。非營利性轉載或引用,應注明“來源:中國外匯”。違反上述聲明者,本公眾號將保留追究其相關法律責任的權利。
1、國內外大廠發力布局,AI應用生態加速構建,行業應用前景有望打開: (1)硬件端,以NVIDA為代表的國內外廠商布局AI芯片等硬件,有望降低行業內公司AI部署的成本和門檻,為AI商業化應用創造條件; (2)軟件端,國內外大廠相繼發布AI大模型,并展現出出色的實際任務解決能力,應用空間廣闊; (3)商業模式層面,ChatGPT插件大幅提升AI大模型的實用性和準確性,未來“AI大模型+應用插件”有望成為主流模式; 2、AI+行業應用有望加速融合,關注各賽道內具備布局優勢的廠商: (1)隨著AI商用空間的逐步打開,AI結合各行業應用的進程有望加速,建議關注AI與辦公、教育、工業、醫療、安全、遙感、建筑、法律和金融行業的深度融合; (2)對標Microsoft365Copilot,我們認為AI結合工具有望在實際業務場景中大幅提升用戶效率,實現降本增效,重點推薦廣聯達; (3)我們認為AI大模型在文本生成領域技術已經成熟,在具備一定格式的文本生成中可輔助使用者完成任務,推薦AI+法律標的,通達海;
ChatGPT開啟大模型“軍備賽”,存儲作為計算機重要組成部分明顯受益: ChatGPT開啟算力軍備賽,大模型參數呈現指數規模,引爆海量算力需求,模型計算量增長速度遠超人工智能硬件算力增長速度,同時也對數據傳輸速度提出了更高的要求。XPU、內存、硬盤組成完整的馮諾依曼體系,以一臺通用服務器為例,芯片組+存儲的成本約占70%以上,芯片組、內部存儲和外部存儲是組成核心部件;存儲是計算機的重要組成結構, “內存” 實為硬盤與CPU之間的中間人,存儲可按照介質分類為ROM和RAM兩部分。 存算一體,后摩爾時代的必然發展: 過去二十年中,算力發展速度遠超存儲, “存儲墻”成為加速學習時代下的一代挑戰,原因是在后摩爾時代,存儲帶寬制約了計算系統的有效帶寬,芯片算力增長步履維艱。因此存算一體有望打破馮諾依曼架構,是后摩時代下的必然選擇,存算一體即數據存儲與計算融合在同一個芯片的同一片區之中,極其適用于大數據量大規模并行的應用場景。存算一體優勢顯著,被譽為AI芯片的“全能戰士”,具有高能耗、低成本、高算力等優勢;存算一體按照計算方式分為數字計算和模擬計算,應用場景較為廣泛, SRAM、RRAM有望成為云端存算一體主流介質。 存算一體前景廣闊、漸入佳境: 存算一體需求旺盛,有望推動下一階段的人工智能發展,原因是我們認為現在存算一體主要AI的算力需求、并行計算、神經網絡計算等;大模型興起,存算一體適用于從云至端各類計算, 端測方面, 人工智能更在意及時響應,即“輸入”即“輸出”,目前存算一體已經可以完成高精度計算;云端方面,隨著大模型的橫空出世,參數方面已經達到上億級別,存算一體有望成為新一代算力因素;存算一體適用于人工智能各個場景,如穿戴設備、移動終端、智能駕駛、數據中心等。我們認為存算一體為下一代技術趨勢并有望廣泛應用于人工智能神經網絡相關應用、感存算一體,多模態的人工智能計算、類腦計算等場景。
自ChatGPT推出以來,國內學術界和科技企業相繼宣布或將推出類似機器人對話模型,有望推動大模型發展。2月7日,百度官宣“文心一言”。2月20日,復旦大學發布了類ChatGPT模型“MOSS”,并面向大眾公開邀請內測,國產大模型有望迎來爆發式增長。 需求和政策兩方面,合力推動AI產業增長。國內應用層面的需求推動AI產業的加速發展。根據IDC數據預測,2021年中國人工智能軟件及應用市場規模為51億美元,預計2026年將會達到211億美元。數據、算法、算力是AI發展的驅動力,其中數據是AI發展的基石,中國數據規模增速有望排名全球第一。政策方面,“十四五”規劃中提到“瞄準人工智能”,“聚焦人工智能關鍵算法”,加快推進“基礎算法”的“突破與迭代應用”;北京、上海、廣州等城市發布相關規劃。 頭部企業采取“模型+工具平臺+生態”三層共建模式,有助于業務的良性循環,也更容易借助長期積累形成競爭壁壘。大模型廠商主要包括百度(文心大模型)、騰訊(HunYuan大模型)、阿里(通義大模型)、商湯、華為(盤古大模型)等企業,也有智源研究院、中科院自動化所等研究機構,同時英偉達等芯片廠商也紛紛入局。大模型增強了AI技術的通用性,助力普惠AI的實現。未來,大模型有望于場景深度融合,配合專業工具和平臺支持應用落地,開放的生態來激發創新,形成良性循環。 技術發展有望促進生產效率提升,并進一步創造新的消費和需求,有利于文娛內容和互聯網行業。在AIGC和ChatGPT方面,我們建議持續關注技術發展和應用情況,把握技術催化和商業化落地帶來的投資機會:1)具備AIGC和ChatGPT的技術探索和應用的公司:百度集團-SW、商湯-W、萬興科技、拓爾思等;2)具有海量內容素材且具有AIGC探索布局的,圖片/文字/音樂/視頻內容及平臺公司騰訊控股,閱文集團、美圖公司、昆侖萬維、湯姆貓、神州泰岳、視覺中國、中文在線、漢儀股份、天娛數科、風語筑等。
結論:大模型的出現促進底層技術迭代,衍生出AIGC應用受到關注;大小模型路線分化加劇,傳統深度學習關注下游場景落地情況
回顧:AI傳統領軍全面下跌,行業多方面挑戰,宏觀經濟下行初期需求增量釋放緩慢。
落地場景需探索,人臉等已經紅海,工業、醫療等尚在早期,AI獨角獸IPO后股價表現較弱,與收入-薪酬匹配度仍然較低有關。
行業熱點在大模型:大規模預訓練+無監督,大幅提升AI效率
以GPT-3為代表的大模型,可以從大量未標記的數據中捕獲知識,極大擴展模型的泛化能力。
但仍存在缺陷:對邏輯理解欠缺,訓練成本過高,普通機構難以復現。
大模型應用:AIGC圖像生成、GPTChat、自動駕駛等成為熱點
隨著模型改進和像素提升,DALL-E2、Stable Diffusion等圖像生產AIGC應用爆發;
InstructGPT在GPTChat工具中應用效果提升,做到與人類進行談話般的交互。
重點行業AI落地場景逐一分析:智能制造、智慧倉儲物流、智慧金融、智慧醫療、智能家居等。成熟的AI應用場景正在涌現,領軍AI公司已有大量標桿案例
**刷爆的ChatGPT什么算法這么強!臺大李宏毅老師國語講解《ChatGPT (可能)是怎么煉成的 》! **
** **
** **
AIGC多模態跨模態應用逐漸成熟,市場空間廣闊。 廣義的AIGC指具備生成創造能力的AI技術,即生成式AI。可以基于訓練數據和生成算法模型,自主生成創造新的文本、圖像、音樂、視頻等內容。2022年被稱為AIGC元年,未來兼具大模型和多模態模型的AIGC模型有望成為新的技術平臺。據《中國AI數字商業產業展望2021-2025》報告,預測AI數字商業內容的市場規模將從2020年的40億元,增加到2025年的495億元。 ChatGPT產品歷經多代技術演進,產品與商業模式逐漸成熟。 ChatGPT是文本生成式AI,過去的傳統AI偏向于分析能力,主要基于已有內容;現在文本生成式AI基于底層Transformer模型,不斷訓練數據和迭代生成算法模型,歷經GPT-1、GPT-2、GPT-3,模型不斷升級,到ChatGPT的GPT3.5模型,已可以自主生成各種形式的內容。近期收費版ChatGPTPlus版本發布,AI商業化序幕逐漸拉開。 AI商業化落地在即,行業算法側和算力側投資機會有望超預期。 根據數據顯示,ChatGPT總算力消耗約為3640PF-Days,按國內的數據中心算力測算,需要7-8個數據中心才能支持其運行。各模態AI數據訓練到應用均需要算法和算力的加持,未來要想大規模應用,算法訓練和算力部署均需先行。