ChatGPT開啟大模型“軍備賽”,存儲作為計算機重要組成部分明顯受益: ChatGPT開啟算力軍備賽,大模型參數呈現指數規模,引爆海量算力需求,模型計算量增長速度遠超人工智能硬件算力增長速度,同時也對數據傳輸速度提出了更高的要求。XPU、內存、硬盤組成完整的馮諾依曼體系,以一臺通用服務器為例,芯片組+存儲的成本約占70%以上,芯片組、內部存儲和外部存儲是組成核心部件;存儲是計算機的重要組成結構, “內存” 實為硬盤與CPU之間的中間人,存儲可按照介質分類為ROM和RAM兩部分。 存算一體,后摩爾時代的必然發展: 過去二十年中,算力發展速度遠超存儲, “存儲墻”成為加速學習時代下的一代挑戰,原因是在后摩爾時代,存儲帶寬制約了計算系統的有效帶寬,芯片算力增長步履維艱。因此存算一體有望打破馮諾依曼架構,是后摩時代下的必然選擇,存算一體即數據存儲與計算融合在同一個芯片的同一片區之中,極其適用于大數據量大規模并行的應用場景。存算一體優勢顯著,被譽為AI芯片的“全能戰士”,具有高能耗、低成本、高算力等優勢;存算一體按照計算方式分為數字計算和模擬計算,應用場景較為廣泛, SRAM、RRAM有望成為云端存算一體主流介質。 存算一體前景廣闊、漸入佳境: 存算一體需求旺盛,有望推動下一階段的人工智能發展,原因是我們認為現在存算一體主要AI的算力需求、并行計算、神經網絡計算等;大模型興起,存算一體適用于從云至端各類計算, 端測方面, 人工智能更在意及時響應,即“輸入”即“輸出”,目前存算一體已經可以完成高精度計算;云端方面,隨著大模型的橫空出世,參數方面已經達到上億級別,存算一體有望成為新一代算力因素;存算一體適用于人工智能各個場景,如穿戴設備、移動終端、智能駕駛、數據中心等。我們認為存算一體為下一代技術趨勢并有望廣泛應用于人工智能神經網絡相關應用、感存算一體,多模態的人工智能計算、類腦計算等場景。
2023年3月31日,我國發起對美光在華銷售產品的網絡安全審查,體現出存儲產業安全的重要性。此外,AI算力需求拉動高算力服務器出貨,而AI服務器的存力需求更強,AI將驅動“從算力到存力”的中長期需求: 1、海外廠商占據絕對份額,國內存儲安全重要性凸顯 存力的底層支撐:半導體存儲器芯片(主流為DRAM+NANDFlash)。存力的體現形式:數據中心+存儲服務器。 海外巨頭壟斷,國內存儲安全重要性日益凸顯。全球DRAM市場幾乎由三星、SK海力士和美光所壟斷,CR3超過95%,全球NANDflash市場由前三大廠商分別為三星、鎧俠和海力士,目前CR3市場份額達65%,CR6市場份額接近95%。 2、國內數據圈龐大,AI驅動“從算力到存力”的長期需求 得益于人工智能、物聯網、云計算等新興技術的快速發展,中國數據正在迎來爆發式增長,驅動存儲設備在數據中心采購占比進一步提升。據IDC預測,預計到2025年,中國數據圈將增長至48.6ZB,占全球數據圈的27.8%,成為全球最大的數據圈。 AI技術革命推動高算力服務器等基礎設施需求提升,AI服務器所需的DRAM/NAND分別是常規服務器的8/3倍。 3、存儲周期拐點已至,庫存改善、價格壓力緩解 美光23Q1存貨環比小幅回落,集邦咨詢預測23Q2DRAM價格跌幅收窄至10%-15%(23Q1為20%),庫存情況改善、價格壓力緩解,存儲行業周期迎來拐點。 4、先進存力的前進方向:存算一體、HBM/DRAM、3DNAND 存算一體:將存儲單元和計算單元合為一體,省去了計算的數據搬運環節,消除由于數據搬運帶來的功耗,提升計算能效。 HBM/DRAM:作為存儲器主流之一的DRAM技術不斷升級,衍生出HBM(高帶寬內存),其是一款新型的CPU/GPU內存芯片,將多個DDR芯片堆疊后與GPU封裝在一起,實現大容量,高位寬的DDR組合陣列,突破內存容量與帶寬瓶頸。 3DNAND(立體堆疊技術):可以擺脫對先進制程工藝的束縛,不依賴于EUV技術,而閃存的容量/性能/可靠性也有了保障。
一、AI框架重要性日益突顯,框架技術發展進入繁榮期,國內AI框架技術加速發展: 1、AI框架作為銜接數據和模型的重要橋梁,發展進入繁榮期,國內外框架功能及性能加速迭代; 2、Pytorch、Tensorflow占據AI框架市場主導地位,國內大廠加速布局AI框架技術; 3、AI框架技術從工具逐步走向社區,生態加速形成,未來圍繞安全可信、場景落等維度呈現顯著發展趨勢; 二、GPT開啟AI大模型時代,國內外大廠發力布局,商業化空間加速打開: 1、數據、算法、模型三輪驅動AI發展,大模型優勢顯著,成為AI主流方向; 2、GPT開啟千億參數級AI大模型時代,語言、視覺、科學計算等大模型快速發展; 3、微軟加速AI商用化進程,國內大廠發力布局,看好在細分場景下的應用落地; 三、建議關注標的: 1、基礎層:AI算力:中科曙光;大模型:360,科大訊飛 2、應用層:AI+工具:金山辦公;AI+建筑:廣聯達;AI+法律:通達海;AI+醫療:創業慧康,久遠銀海;AI+教育:科大訊飛;AI+網安:安恒信息、奇安信;AI+金融:同花順;AI+交通:佳都科技
AI等新應用場景的出現,有望成為未來云基建投資的重要推動力。云基建作為算力底座持續受益于數據流量的增長,AI等新應用場景的出現有望推動行業新一波的建設周期,疊加傳統投資動能的底部復蘇,我們未來云基建行業將會呈現總量增長疊加技術等級持續升級的趨勢。 AI大模型所需要的基礎算力投資將大大增加。根據微軟等前期對大模型的基礎設施投入,從體量上看,單臺GPU服務器(內配8張A100GPU卡)及套網絡等產品整體造價有望達到170萬元以上;以微軟提出的針對chatGPT4.0版本看,訓練所需約2.4萬片A100GPU,對應約3千臺GPU服務器(內含8張GPU卡),參考目前產品價值量,我們測算上述上大模型訓練的前期投資規模總計有望接近50億元(含數據中心基礎設施投資)。服務器環節為價值彈性最高環節;網絡設備和光模塊受益于速率升級,溫控設備隨著液冷的滲透率提升在機電設備總投入占比有望進一步提升。 在AI帶動下,我們認為云基建產業鏈有望呈現以下趨勢: 數據中心:智算中心和超算中心占比有望進一步提升、在大模型訓練需求下,有望帶動西部數據中心需求及上架率提升; 服務器:AI服務器加速出貨,占比有望快速提升; 網絡架構:IP網絡加速向IPV6升級,高速IB網絡占比進一步提升(200G及以上加速普及),內外部網絡互聯加速; 光模塊:高速光模塊占比進一步提升,數據中心內部800G光模塊產品升級提速。 基礎設施:智算/超算中心單機柜功率進一步提升至15KW及以上,直流供電和高功率UPS占比進一步提升;溫控環節液冷滲透率快速提升,數據中心液冷產品大大增加了后期運維的支出和維護成本(定期做腐蝕、密封性、可靠性等檢測),相較于國外企業,國產品牌在服務響應效率、產品設計靈活度、運維服務等方面更具有優勢,預計國內溫控廠商未來有望占據國內液冷市場主要份額(未考慮冷卻液環節)。
ChatGPT快速滲透, AI產業迎發展新機 ChatGPT是由OpenAI公司開發的人工智能聊天機器人程序, 于2022年11月發布, 推出不久便在全球范圍內爆火。根據World of Engineering數據顯示, ChatGPT達到1億用戶量用時僅2個月, 成為史上用戶增長速度最快的消費級應用程序。與之相比, TikTok達到1億用戶用了9個月, Instagram則花了2年半的時間。從用戶體驗來看, ChatGPT不僅能實現流暢的文字聊天, 還可以勝任翻譯、 作詩、 寫新聞、 做報表、 編代碼等相對復雜的語言工作。 ChatGPT爆火的背后是人工智能算法的迭代升級。ChatGPT是基于GPT-3.5微調得到的新版本模型, 能夠借助人類反饋的強化學習(RLHF) 技術來指導模型訓練, 實現模型輸出與人類預期的需求, 使對話內容更加人性化和富有邏輯性。從2008年第一代生成式預訓練模型GPT-1誕生以來, GPT系列模型幾乎按照每年一代的速度進行迭代升級, 未來隨著大語言模型(LLM) 技術的不斷突破, AI相關應用有望加速落地, AI產業或將迎來新一輪發展機遇。 ChatGPT激起AI浪潮,大算力芯片迎來產業機遇 ChatGPT是生成式人工智能技術(AIGC) 的一種, 與傳統的決策/分析式AI相比, 生成式AI并非通過簡單分析已有數據來進行分析與決策, 而是在學習歸納已有數據后進行演技創造, 基于歷史進行模仿式、 縫合式創作, 生成全新的內容。AIGC的應用非常廣泛, 包括自然語言生成、 圖像生成、 視頻生成、 音樂生成、 藝術創作等領域。 AIGC產業鏈主要分為上游算力硬件層、 中游數據/算法軟件層和下游行業應用層。硬件層依靠高性能AI芯片、 服務器和數據中心為AIGC模型的訓練提供算力支持, 是承載行業發展的基礎設施;數據/算法層軟件層主要負責AI數據的采集、 清洗、 標注及模型的開發與訓練, 多方廠商入局自然語言處理、 計算機視覺、 多模態模型等領域;行業應用層目前主要涉及搜索、 對話、推薦等場景, 未來有望在多個行業呈現井噴式革新。 多模態賦能下游行業智慧化升級 多模態大模型有望成為AI主流, 賦能下游行業智能升級。生成式AI主要依賴于人工智能大模型, 如Transformer、 BERT、GPT系列等。這些模型通常包含數十億至數萬億個參數, 需要龐大的數據集進行訓練, 致使AI算力的需求也呈現出指數級的增長。多模態是一種全新的交互、 生成模式, 集合了圖像、 語音、 文本等方式, 因其可以結合多種數據類型和模態的學習,將有望徹底改變我們與機器互動的方式, 快速占據人工智能主導地位。我們認為多模態大模型長期來看不僅可以從成本端降本增效, 需求端也將通過快速滲透推廣為下游行業帶來持續增長需求, 從而快速推動下游行業智慧化應用升級。 模型更新升級帶動下游行業不斷發展 從GPT-1到ChatGPT, 模型參數與訓練數據量不斷增加, 所需算力資源不斷提升: GPT-1:最早的GPT模型之一, 包含了1.17億個參數, 預訓練數據量約為5GB。 GPT-2:參數數量達到了1.5億個, 預訓練數據量達40GB。 GPT-3:是目前為止最大的語言模型之一, 包含了1750億個參數, 預訓練數據量為45TB。 ChatGPT:基于GPT-3模型的變種之一, 參數量預計與GPT-3相近。 GPT-4性能提升顯著, AIGC應用市場空間廣闊 多模態模型是實現人工智能應用的關鍵。3月14日OpenAI發布GPT-4多模態大模型, 擁有1) 強大的識圖能力;2) 文字輸入限制提升至2.5萬字;3) 回答準確性顯著提高;4) 能夠生成歌詞、 創意文本、 實現風格變化。在各種專業和學術基準上,GPT-4已具備與人類水平相當表現。如在模擬律師考試中, 其分數在應試者前10%, 相比下GPT-3.5在倒數10%左右。多模態大模型在整體復雜度及交互性上已有較大提升, 模型升級有望加速細分垂直應用成熟, 賦能下游智慧化升級, 帶動需求快速增長。 AIGC下游市場滲透率低, 增長空間廣闊。根據 Gartner數據, 目前由人工智能生成的數據占所有數據的 1%以下, 預計2023年將有 20%的內容被生成式AI 所創建, 2025 年人工智能生成數據占比將達到 10%。根據前瞻產業研究院數據, 2025年中國生成式商業AI應用規模將達2070億元, CAGR(2020-2025) 為84.06%。
大模型出現有望帶動AI服務器需求爆發
我們認為ChatGPT具備跨時代的意義的本質是AI算法大模型,因此科技巨頭已經開始算力“軍備賽”,大模型的出現有望帶動AI服務器需求爆發。服務器架構隨負載量擴張不斷優化,已經經歷傳統單一部署與集群模式,目前正處于分布式模式的轉變階段。CPU、內部存儲和外部存儲是服務器的核心部件。 加速計算是服務器成長的核心驅動力 按照CPU指令集架構的差異,服務器可分為CISC(復雜指令集)、RISC(精簡指令集)、VLIM等架構,代表架構為X86。人工智能應用場景下的加速計算服務器是中國服務器的核心驅動力,AI服務器相較于通用服務器區別在于硬件架構、加速卡數量與設計方面;我們認為AI服務器眾芯片組為服務器的核心,且價值成本占比較高。 算力時代到來,服務器價值再次凸顯 我們認為服務器是“伴科技類”的硬件產品,隨著科技的服務形式和應用方式不斷進步,服務器同樣在不斷迭代升級或更新換代,近年來隨著互聯網+、云計算、AI+、邊緣計算的出現,服務器市場迎來了極大的發展;根據IDC的數據顯示,國家計算力指數與GDP/數字經濟的走勢呈現出了顯著的正相關,而AI服務器作為算力載體為數字經濟時代提供廣闊動力源泉,更加凸顯其重要性。
國產“ChatGPT”揚帆啟航。OpenAI的商業模式為API接口收費。我們認為此種商業模式具有“卡脖子”的風險,因此我國需要發展自主可控的“ChatGPT”。國產生態正在逐步繁榮,百度打響國產ChatGPT領域“第一槍”,其在算法、算力、數據、生態、平臺五方面皆有儲備;ChatGPT的競爭本質即大模型儲備競賽,大模型是人工智能發展的必然趨勢,也是輔助式人工智能向通用性人工智能轉變的堅實底座。大模型分為NLP(自然語言處理)、CV(計算機視覺)、多模態和科學計算四類。此外,中美科技巨頭已經開啟大模型儲備“軍備賽”。
百度文心一言,開啟國產ChatGPT新征程。百度是少有大模型語言訓練能力的公司,模型儲備方面,百度實現了全生態布局。1、NLP(自然語言處理),已經具備智能創作、摘要生成、問答、語義檢索、情感分析、信息抽取等能力,且可以讓機器人像人一樣具有邏輯且自由對話;2、CV(計算機視覺),可用于應用于圖像分類、目標檢測、語義分割等場景,此外還可以應用于文檔、卡證、票據等圖像文字識別和結構化理解;3、跨境大模型,可實現AI作畫、場景融合視覺常識推理、跨模態圖像檢索、跨模態文本檢索等多場景;4、生物計算,應用場景為蛋白結構預測和小分子藥物研發等領域。 百度為國產ChatGPT“領軍企業”,具有算力積累和生態優勢。平臺方面:擁有自主生態的百度百舸·AI異構計算平臺,具備高效率、多密度、高易用性、多場景部署、樂高式拼接等能力。算力方面:百度自身具有建設智能算力中心的實力,技術領先且自主可控,已有典型落地案例;服務器方面擁有自研的昆侖芯云服務器;芯片方面,昆侖芯AI芯片是百度自主研發的芯片,2代芯片已量產,具備算力支撐強、高速互聯等多重優勢。生態:百度大模型賦能千行百業,已有落地應用,合作廠商分別覆蓋科技、金融、航天、影視、汽車、電子制造等諸多產業。此外,我們推測ChatGPT有望成為搜索引擎的流量入口,百度搜索引擎有望借助文心一言大模型的能力重回巔峰。此外,目前國產科技巨頭已經開啟大模型的“軍備競賽”,因此,我們判斷,未來AI+有望賦能千行百業,具有AI+能力的廠商有望呈現“百花齊放”的態勢。
主要觀點: ChatGPT帶來大模型時代變革,數據要素重要性提升 ChatGPT是由OpenAI研發的一種語言AI模型,其特點在于使用海量語料庫來生成與人類相似的反應。初代GPT模型參數1.17億,GPT2模型、GPT3模型參數分別達到15億、1750億。不斷提升的參數量級,使得ChatGPT3當前已經能夠應用在商業、研究和開發活動中。 當前此類參數體量龐大的模型,成為各大科技廠商研發重點。大模型的基礎為高質量大數據。ChatGPT的前身GPT-3就使用了3,000億單詞、超過40T的數據。此類大數據基礎的前提為三部分1)有效場景下的采集數據;2)大數據的存儲、清洗和標注;3)數據質量檢驗。 大模型發展之下,算力與網絡設施建設成為剛需 算力:ChatGPT類人工智能需要更充足的算力支持其處理數據,帶來更多高性能的算力芯片需求。英偉達表示,GPT-3需要512顆V100顯卡訓練7個月,或者1024顆A100芯片訓練一個月。2012年以來,AI訓練任務中的算力增長(所需算力每3.5月翻一倍)已經超越摩爾定律(晶體管數量每18月翻一倍)。 網絡設施:以微軟Azure為例,其AI基礎設施由互聯的英偉達AmpereA100TensorCoreGPU組成,并由QuantuminfiniBand交換機提供橫向擴展能力。服務器節點多、跨服務器通信需求巨大,網絡帶寬性能成為GPU集群系統的瓶頸,解決方式包括增加單節點通信帶寬與降低網絡收斂比,帶來光模塊、交換機等需求。 下游應用場景豐富,多行業落地可期 1)“生成式AI(generativeAI)”在互聯網及元宇宙領域市場化空間較為廣闊。基于現行的NLP算法發展程度及數據集規模。在不久的將來,生成式AI有較大可能在“智能客服”和“搜索引擎”進行增值,并有希望以“插件”的形式賦能現有的“生產力工具鏈(工程軟件/音視頻制作工具等)”。 2)AI在制造業的應用可分為三方面:a)智能裝備:指具有感知、分析、推理、決策、控制功能的制造裝備,典型代表有工業機器人、協作機器人、數控機床等;b)智能工廠:重點在于實現工廠的辦公、管理及生產自動化,典型的代表場景有協作機器人、智能倉儲物流系統等;c)智能服務:指個性化定制、遠程運維及預測性維護等。 3)人工智能在智能汽車領域的應用包括:a)智能駕駛依托AI,將從駕駛輔助發展至自動駕駛;b)智能座艙在AI支持下,從出行工具演變為出行管家。
**刷爆的ChatGPT什么算法這么強!臺大李宏毅老師國語講解《ChatGPT (可能)是怎么煉成的 》! **
** **
** **
AIGC多模態跨模態應用逐漸成熟,市場空間廣闊。 廣義的AIGC指具備生成創造能力的AI技術,即生成式AI。可以基于訓練數據和生成算法模型,自主生成創造新的文本、圖像、音樂、視頻等內容。2022年被稱為AIGC元年,未來兼具大模型和多模態模型的AIGC模型有望成為新的技術平臺。據《中國AI數字商業產業展望2021-2025》報告,預測AI數字商業內容的市場規模將從2020年的40億元,增加到2025年的495億元。 ChatGPT產品歷經多代技術演進,產品與商業模式逐漸成熟。 ChatGPT是文本生成式AI,過去的傳統AI偏向于分析能力,主要基于已有內容;現在文本生成式AI基于底層Transformer模型,不斷訓練數據和迭代生成算法模型,歷經GPT-1、GPT-2、GPT-3,模型不斷升級,到ChatGPT的GPT3.5模型,已可以自主生成各種形式的內容。近期收費版ChatGPTPlus版本發布,AI商業化序幕逐漸拉開。 AI商業化落地在即,行業算法側和算力側投資機會有望超預期。 根據數據顯示,ChatGPT總算力消耗約為3640PF-Days,按國內的數據中心算力測算,需要7-8個數據中心才能支持其運行。各模態AI數據訓練到應用均需要算法和算力的加持,未來要想大規模應用,算法訓練和算力部署均需先行。