來源:CB Insights中國 時間:2022-09-20 13:24:29 作者:
隨著云計算、大數據和人工智能等信息技術的快速發展,各行業數字化水平的逐步提高,企業業務環境和計算場景日益復雜,數間的關聯關系也正在變得更加交錯。在面對需要深度挖掘數據間復雜關聯關系的場景時,傳統的關系型數據往往計算效率低下,難以滿足應用需求。 在此背景下,圖便有了大展身手的空間。這里的“圖”(Graph)是針對圖論而言,并非常見的圖片/圖形(Picture/Image),而是指由一系列的點、邊構成的圖數據,能更自然、直觀地表述數據間的關聯關系,是一種更符合人類思考方式的抽象表達;圖計算技術基于圖數據開展分析和計算,從中挖掘出有價值的信息、知識和規律,為實際業務應用提供支持。
圍繞中國圖計算技術及應用話題,CB Insights中國正式發布《2022中國圖計算技術及應用發展研究報告》,通過科研端文獻研究、產業調研與專家訪談等方式,從技術、人才、科研與產業四個維度展開分析,闡明行業發展背景、追溯技術發展歷程、拆解技術原理及優勢、勾勒行業格局,并研判圖計算未來發展趨勢。
圖是對世界萬物的一種自然表達
目前,圖數據庫和圖計算系統(也稱圖計算引擎)是圖計算技術領域的核心內容,前者主要負責圖數據進行增刪查改等操作,后者主要負責執行對圖數據的深度分析處理。
圖丨圖數據庫與圖計算系統對比(來源:公開信息整理) 圖數據庫起源最早可追溯至上世紀面向樹狀結構和屬性圖的數據庫及模型。 進入21世紀,第一款商用圖數據庫Neo4j公司于2007年成立,開始采用針對圖結構進行優化的原生圖存儲模式,之后出現的其他圖數據庫如CosmosDB、OrientDB、ArangoDB等,開始朝著多模態、分布式架構等各個方向探索和發展。 而在圖計算系統市場,早期業界常用通用型計算框架(如MapReduce)等解決方案處理圖問題,但它們在性能等方面尚不盡如人意。 2010年,Google提出了基于BSP模型的Pregel分布式圖計算系統,與之前方案相比在編程模型、同步控制等方面提供了更優的解決方案; 之后CMU(卡內基梅隆大學)Select實驗室提出了基于GAS模型的GraphLab系統,二者為后續其他圖計算系統設計帶來了深遠的影響。 2015年前,這一階段的圖計算市場依然以海外廠商為主。直至2015-2016年左右,隨著應用市場逐步打開,國內圖計算領域學術界和產業界開始發力,市場熱度逐漸提升。 2016年,清華計算機系師生陳文光、朱曉偉在OSDI(USENIX Symposium on Operating Systems Design and Implementation)學術會議上發表了《Gemini:以計算為中心的分布式圖計算系統》論文,提出了國內圖計算系統領域重要成果之一的Gemini;同時,一批具有深厚學術研究背景的優秀學者開始進入產業界,嘗試將已有學術成果轉化為落地應用。 不僅螞蟻、阿里、騰訊等大廠開始根據自身業務需求切入圖計算領域展開研究,市場上也涌現出了一批深耕圖計算行業的垂直初創企業,共同展開對圖計算領域的商業化探索。 從投融資情況市場來看,根據CB Insights數據,過去三年間國內外共有近15家企業獲得了超過20筆融資。其中,海外知名圖數據庫企業Neo4j在2021年6月的F輪融資中獲得3.25億美元投資,成為數據庫歷史上最大的一筆投資。 此外,根據知名數據庫排名網站DB-Engines的Popularity指數,按數據庫類型來看,自2013年以來圖數據庫一直是受到最多關注的數據庫類型,遙遙領先于其他類型的數據庫,而且關注熱度仍在持續攀升中。
圖|各類數據庫近十年來熱度變化(來源:DB-Engines.com) 近十年學術研究熱度迅速攀升
近年來圖計算學術研究領域發展迅速,從2014年到2021年間,圖計算領域論文數量呈現翻倍增長趨勢,以中美兩國學者為首。
圖|全球圖計算相關主題論文發表數量(單位:篇;數據來源:Web of Science) 目前,清華大學、北京大學、中國科學院以及華中科技大學等是國內圖計算領域研究的先驅,貢獻了國內大多數高被引用圖計算論文。 下表為國內圖計算領域的部分研究學者,主要研究領域橫跨了圖數據、操作系統、人工智能、大數據、分布式系統等,他們不僅在基礎理論層面研究深耕,也在產業化實踐方面不斷更迭創新,助力圖計算在大數據的沃土里生根發芽。
圖|圖計算領域部分代表研究學者(數據來源:CB Insights中國) 產業生態參與者眾多,巨頭和初創企業各施所長
現階段,圖數據庫的參與者以產業界為主,圖計算系統則以學術界和產業界企業的開源方案為主。 圖數據庫領域不僅有互聯網/公有云廠商(如螞蟻、騰訊、AWS、Microsoft Azure等),還有一眾圖計算領域垂直企業(如Neo4j、TigerGraph、創鄰科技、歐若數網等)、傳統數據庫廠商(Oracle、IBM等)也已經入局。
圖丨圖計算行業部分參與者(來源:CB Insights中國) 圖計算下游主要面向應用開發商和軟件集成商,例如知識圖譜開發商等。它們負責在圖數據庫及圖計算系統的查詢分析能力基礎上,為客戶提供完整的解決方案。 目前,圖計算的終端客戶主要集中在金融、能源、政企、社交網絡、搜索引擎、推薦系統等領域。 例如,在金融風控領域,圖計算技術可以幫助挖掘個體之間的關聯關系,進一步發現潛在風險,在信貸風險評估、反洗錢、反欺詐、資金追蹤、潛客發現等場景中,能幫助挖掘出企業間循環擔保、薅羊毛灰黑產等重大風險; 在電力領域,圖計算技術可以幫助更高效、實時地管理電力設備并監控其運行狀態;在社交網絡領域,圖計算可以通過社區發現等圖算法深度挖掘用戶之間的聯系。
圖丨圖計算產業鏈(來源:CB Insights中國) 以螞蟻集團為例。螞蟻集團將圖技術應用于自身金融風控業務之中,以應對日益復雜的風險形勢,提高對于隱形的、有組織的團伙化犯罪風險的識別和挖掘能力。螞蟻安全團隊在圖技術基礎上建設了全圖風控架構,作為應對復雜風險形勢的下一代風控基礎設施。 全圖風控即全域一張圖,在整個風控的生命周期,包括風險感知、風險識別、風險管控、風險審理、風險分析等環節中提供保障,提供團伙挖掘、資金鏈路識別、交易可信識別等核心服務能力。 此外,除了用傳統的多度查詢來進行風險鏈路判斷外,還引入模式識別的方式(菱形/三角型等)、社區發現的算法等來應對更加復雜的場景。 目前,受制于整體市場對圖計算技術的認知仍未成熟,圖計算行業仍處于商業化初期階段。 一方面,客戶對圖數據庫及圖計算技術認知不足,在如何理解圖能帶來的價值、如何進行圖數據庫選型、如何做好二次開發和持續運維等問題上,依然困難重重。 另一方面,圖計算廠商對客戶的業務場景不夠了解,對于如何幫助客戶明確需求,將客戶業務場景存在的痛點轉化為圖的問題,如何在技術角度進一步提升產品力以更好地滿足客戶需求,如何將圖技術應用到更廣的領域等問題,未來依然有很大的潛在發展空間。 在商業模式上,企業面臨著開源和閉源的選擇,開源有助于企業建立開發者生態,快速迭代完善產品,閉源則可幫助企業保持商業現金流。 目前不少項目方選擇通過OpenCore的模式開源,即核心模塊開源、進階版功能收費的模式展開商業化;另外也有部分廠商出于現有開源生態不成熟、產品競爭激烈等原因考慮,選擇閉源策略。 目前,圖計算領域知名的開源產品包括Neo4j(圖數據庫)、ArangoDB(圖數據庫)、GraphX(圖計算系統)、GraphScope(圖計算系統)、Plato(圖計算系統)等。此外,螞蟻集團的大規模圖計算系統關鍵底座TuGraph圖數據庫單機版,也在2022年9月的世界人工智能大會上宣布正式開源。 以圖的角度來思考問題,用圖的技術來解決問題
作為一種理解世界的新方式,圖正憑借其對復雜關聯關系的強刻畫能力,贏得了越來越多的關注。 隨著越來越多的行業和領域開始以圖的方式存儲、分析數據并展開更多應用,大規模圖數據的查詢和計算對系統的計算性能等各個方面提出了挑戰,圖計算技術正向著多(大規模)、快(低延時)、好(高可靠)、省(低成本)的方向探索。 對此,學術界和產業界的研究者對圖計算部署架構、計算模型等方面的設計優化進行了大量的研究,例如分布式并行架構的優化、與高性能計算的合作等。 另一方面,以圖神經網絡GNN為代表的圖學習,結合了圖計算技術與機器學習技術,近年來也在人工智能領域掀起了研究熱潮。 圖學習通過將已有圖結構數據與機器學習模型結合,以滿足日益復雜的圖計算需求,并試圖解決過往復雜模型存在的可解釋性低下等問題。從人工智能行業的角度來看,圖學習體現了人工智能符號主義與連接主義兩大流派的融合應用。 長遠來看,對于圖計算領域的眾多學術機構和廠商來說,未來在圖計算產業生態建設上還面臨著諸多挑戰,有待學術界和產業界長期的共同努力。 企業需要提高客戶對圖計算技術的認知水平,幫助已經習慣以關系型數據模式理解業務的一線人員順利理解圖數據并開展應用,也讓更多的企業意識到可以用圖解決業務中現有問題;同時需要校企聯動,培養出更多優秀的圖計算領域研究學者和開發運維人才;在底層能力基礎上建立起完善的工具和應用生態,打開更廣闊的應用場景。 此外,圖計算領域的標準化體系仍有待完善,目前在查詢語言、產品測試基準等方面已經開始逐步建立中。 具體內容如下
核心觀點:
數據庫應用的發展趨勢:混合事務分析處理(HTAP) 針對OLTP和OLAP單獨的數據應用需求,如果由各自專有系統處理,一般來說性能將比混合通用系統性能高一到兩個數量級,但未來整合的趨勢更明顯,客戶需要可以滿足混合需求的通用系統,HTAP基于一體化架構高度融合,在事務支持和數據時效上更有保證,同時減少專有系統數據遷移處理下的同步成本。 數據庫架構的發展趨勢:分布式架構 分布式數據庫繼承了傳統單機數據庫的核心特性,同時還擁有分布式系統的處理能力,具有可水平擴展、高性能、高可用、混合負載、更安全等優點。原生分布式架構數據庫直接改變底層結構,因此性能不受底層數據庫制約,也天然契合云原生理念。 數據庫部署的發展趨勢:云原生部署 云原生數據庫結合云原生與分布式特點,最大限度實現資源池化、彈性變配、超高并發等能力,可實現隨時隨地的多前端訪問,提供云服務的計算節點,并且能夠靈活及時調動資源擴縮容,助力企業降本增效,國內云原生數據庫雖起步晚,但發展迅速。
電力人工智能概述
實踐-高頻高價值應用及數據痛點:本篇報告選擇金融、零售、醫療和工業四大典型行業為切入點,分析呈現各行業的信息化建設階段與高頻高價值的AI應用場景,并基于高頻高價值AI應用引發的數據治理需求,對面向人工智能的數據治理體系搭建給到建設指導。
展望-治理陷阱與趨勢洞察:1)企業需避免落入“數據埋點大而全”的治理陷阱;2)供需兩側需共同保證數據治理體系建設后的運營流轉;3)企業需建立符合管理現狀及發展需求的數據安全治理框架,確保數據全周期的安全與合規;4)聯邦學習技術可帶來數據安全合規線內的共同富裕;5)數據的“自治與自我進化”成為未來數據處理發展的必由之路,為企業打造“治理+AI”體系的良性循環。前言-數據與數據治理:如今數據不再局限于傳統數字形式的認知,由結構化數據延伸到半結構化、非結構化的數據范疇。數據治理越來越受到企業的普遍重視,在數據生命周期的各個階段通過相應的工具與方法論,使數據發揮出更大的價值,是實現數據服務與應用必不可少的階段。
參與-行業規模與受益圈立足點:數據治理與AI應用產品開始交匯融合,廠商參與更加多元,咨詢公司、數據服務提供商和人工智能產品服務商三方陣營構建行業競合格局,而“智”,即AI應用,為面向人工智能的數據治理服務的核心立足點。2021年面向人工智能的數據治理市場規模約為40億元,預計五年后規模將突破百億。
主題-面向人工智能的數據治理:AI技術創新應用走向大規模落地,帶動了大數據智能市場的蓬勃發展。2021年大數據智能市場規模約為553億元。目前傳統數據治理體系多停留在結構性數據化治理工作,尚難滿足AI應用對數據的高質量要求。企業可吸收傳統體系的智慧沉淀,以AI應用數據需求為核心,優化建設“面向人工智能的數據治理”體系,顯著提升AI應用的規模化落地效果。
歷經半個世紀的發展,人工智能正在社會經濟生活中發揮越來越重要的作用。認知智能是一種賦予機器模擬人類認知思考能力的技術,作為人工智能發展的高級階段,具有交互性、情境性與適應性等特點。認知智能“能理解、會思考”的能力,可以極大地將人類從重復體力勞動和簡單腦力勞動中解放出來。
當前,認知智能產業生態已初步形成,產業應用加快落地,技術研發持續突破,涌現出一批具有代表性的企業,儼然成為城市數字化浪潮中的關鍵驅動力。中國信息通信研究院華東分院聯合竹間智能科技(上海)有限公司就人工智能全球態勢、認知智能產業生態、技術融合、典型案例與未來趨勢等方面開展了產業技術分析,形成《2021 認知智能發展研究報告》。
本報告由五大篇章組成:第一篇章:全球態勢篇,對全球人工智能政策環境、發展現狀與發展熱點進行了詳細介紹;第二篇章:產業生態篇,闡述了認知智能發展歷程,并從行業生態、技術專利、學術研究和產業標準等方面展開具體分析;第三篇章:技術融合篇,闡述了當前認知智能領域情感計算、知識圖譜、圖像理解等六大行業技術領域的融合發展情況;第四篇章:典型案例篇,闡述了當前認知智能在金融、制造、教育等六大場景的應用落地總體情況與典型產品案例;第五篇章:未來趨勢篇,總結了認知智能發展面臨的問題挑戰,對未來發展做出展望。

來源:中國信息通信研究院
“未來一段時期,我國數據庫行業將圍繞兩個核心命題進行發展:一個是縮小“高要求的存量數據應用需求”與“仍處于發展初期階段的供給能力”之間的差距;另一個是探索“創新型數據應用需求”與“數據庫技術產品演進路線”的合理映射關系。”
日前,中國信息通信研究院正式發布了《數據庫發展研究報告(2021年)》,本研究報告從技術、產業、應用三方面梳理了數據庫發展情況,并展望了發展趨勢。
據中國信通院測算,2020年全球數據庫市場規模為671億美元,其中中國數據庫市場規模為35億美元(約合240.9億元人民幣),占全球5.2%。預計到2025年,全球數據庫市場規模將達到798億美元,中國的IT總支出將占全球12.3%。中國信通院預計,中國數據庫市場在全球的占比將在2025年接近中國IT總支出在全球的占比,中國數據庫市場總規模將達到688億元,市場年復合增長率(CAGR)為23.4%。
01、數據庫技術發展歷程
首款企業級數據庫產品誕生于上世紀60年代,六十余年發展過程中,數據庫共經歷前關系型、關系型和后關系型三大階段。
前關系型階段(1960-1970):網狀層次數據庫初嘗探索
前關系型階段數據庫的數據模型主要基于網狀模型和層次模型,代表產品為IDS和IMS,該類產品在當時較好地解決了數據集中存儲和共享的問題,但在數據抽象程度和獨立性上存在明顯不足。
關系型階段(1970-2008):關系型數據庫大規模應用
關系型階段以IBM公司研究員E.F.Codd提出關系模型概念,論述范式理論作為開啟標志,期間誕生了一批以DB2、Sybase、Oracle、SQLServer、MySQL、PostgreSQL等為代表的廣泛應用的關系型數據庫,該階段技術脈絡逐步清晰、市場格局趨于穩定。
后關系型階段(2008-至今):模型拓展與架構解耦并存
谷歌的三篇論文開啟后關系型數據庫階段,該階段由于數據規模爆炸增長、數據類型不斷豐富、數據應用不斷深化,技術路線呈現多樣化發展。隨著各行業數字化轉型不斷深入,5G、云計算等新興技術快速發展,傳統數據庫的應用系統紛紛優化升級。全球市場格局劇烈變革,我國數據庫產業進入重大發展機遇期。
02、數據庫技術發展趨勢
大數據時代,數據量不斷爆炸式增長,數據存儲結構也越來越靈活多樣,日益變革的新興業務需求催生數據庫及應用系統的存在形式愈發豐富,這些變化均對數據庫的各類能力不斷提出挑戰,推動數據庫技術的不斷演進。
趨勢一:多模數據庫實現一庫多用
多模數據庫支持靈活的數據存儲類型,將各種類型的數據進行集中存儲、查詢和處理,可以同時滿足應用程序對于結構化、半結構化和非結構化數據的統一管理需求。未來在云化架構下,多類型數據管理是一種新趨勢,也是簡化運維、節省開發成本的一個新選擇。
趨勢二:統一框架支撐分析與事務混合處理
產業界當先正基于創新的計算存儲框架研發HTAP數據庫,其能夠基于統一套引擎同時支撐業務系統運行和分析決策場景,避免在傳統架構中,在線與離線數據庫之間大量的數據交互。
趨勢三:運用AI實現管理自治
目前有研究通過將傳統數據庫組件用機器學習算法替代,來實現更高的查詢和存儲效率,自動化處理各種任務。未來80%以上的日常運維工作有望借助AI完成。
趨勢四:充分利用新興硬件
隨著新型硬件成本逐漸降低,充分利用新興硬件資源提升數據庫性能、降低成本,是未來數據庫發展的重要方向之一。
趨勢五:與云基礎設施深度結合
Gartner預測,到2022年75%的數據庫將托管在云端。云與數據庫的融合,減少了數據庫參數的重復配置,具有快速部署、高擴展性、高可用性、可遷移性、易運維性和資源隔離等特點。云原生數據庫能夠隨時隨地從多前端訪問,提供云服務的計算節點,并且能夠靈活及時調動資源進行擴縮容,助力企業降本增效。
趨勢六:隱私計算技術助力安全能力提升
近年來以同態加密等密碼學為代表的軟件解決方案和以可信執行環境(TEE)為代表的硬件方案為數據庫安全設計提供許多新思路。未來,此類數據庫將圍繞算法安全性和性能損耗等問題,逐步突破,進而提供覆蓋數據全生命周期的安全保護機制。
趨勢七:區塊鏈數據庫輔助數據存證溯源
區塊鏈具有去中心化、信息不可篡改等特征,區塊鏈數據庫能夠長期留存有效記錄,數據庫的所有歷史操作均不可更改并能追溯,適用于金融機構、公安等行業的應用場景。未來,提升區塊鏈數據庫性能將成為學術界與工業界共同探索的命題。
03、數據庫典型行業應用動態
金融、電信、政務、制造、互聯網五個行業為數據庫產品及服務采購份額前五的行業,采購總和占據全部市場份額的80%以上。
(一)金融行業&電信行業
據中國信通院統計分析,以業務系統數量為計數單位,我國金融行業各類數據庫占比為Oracle 55%、DB2 19%、MySQL 13%、PostgreSQL 6%,其他 7%。
目前,金融和電信行業在數據庫應用方面正在呈現三大趨勢:一是大部分存量數據庫將向分布式架構升級;二是應用大量非關系型數據庫助力創新業務落地;三是產品選型逐漸傾向國產數據庫供應商。
(二)政務行業
我國在提升社會治理的數字化治理水平過程中,主要呈現兩大特點:一是個體、企業和社會等被治理對象數量龐大、日趨復雜,二是智能治理要求各層、各機構政府人員深度應用信息科技工具。當前政務行業在數據庫應用方面正在呈現兩大趨勢:一是大范圍應用空間型、關聯型數據庫等產品;二是利用各類工具組件,做到數據庫應用“平民化”。
(三)制造業
當前物聯網技術正逐步滲透工業領域,不斷增長的傳感器、飆升的數據量以及更高的大數據分析需求對原有的數據庫系統提出了新的需求,包括增加擴展性、實現與大數據技術生態的友好對接、降低大規模應用價格、充分利用邊緣計算設備能力。未來工業行業在數據庫應用方面將呈現兩大趨勢:一是應用大量時序數據庫;二是逐步向邊緣計算發展。
(四)互聯網
互聯網行業為充分發揮新要素、新模式、新動能等方面的優勢,對底層IT系統中的數據庫提出了多項新要求,以性能好、造價低、迭代快為核心。未來互聯網行業在數據庫應用方面將呈現三大趨勢:一是利用內存數據庫加速業務效率;二是開源數據庫應用更加廣泛;三是初創公司利用云數據庫促進其快速發展。
04、總結與展望
數據庫作為提供數據存儲與處理能力的軟件產品,是各機構信息系統的關鍵部件,是助力數據價值釋放的核心引擎。隨著數據躍升為生產要素,數據重要性進一步提高,我國數據庫產業也迎來新一輪變局。
從產業角度看,宏觀政策利好推動了存量數據庫市場上行,我國數據庫產業進入蓬勃發展的初期,產品供應商、服務提供商、支撐產業從業者均積極行動,各自發揮技術、渠道、運營等優勢,尋求對于自身最優的發展路徑;另一方面云基礎設施的發展成熟將接近一半的傳統數據庫市場轉移到了線上,云計算企業利用既有基礎設施優勢,成為最大獲益者。
從技術角度看,一方面數據應用的變化倒逼數據庫具備更大數據存儲容量、更多數據計算模型、更快數據業務響應能力,整體技術發展進入后關系型階段,架構設計逐漸分布式化、模型構建逐漸場景化;另一方面,人工智能、新型硬件、區塊鏈、密態計算等關聯技術的創新正在催生新型數據庫設計模式,傳統數據庫功能邊界正被逐漸突破。在數據庫產業和技術的變局過程中,供給側、應用側、生態側均處于機遇與挑戰并存的狀態。
在新一代信息技術的引領下,數據快速積累,運算能力大幅提升,算法模型持續演進,行業應用快速興起,人工智能發展環境發生了深刻變化,跨媒體智能、群體智能、自主智能系統、混合型智能成為新的發展方向,人工智能第三次站在了科技發展的浪潮之巔。
近日,深圳前瞻產業研究院結合人工智能行業的產業鏈結構、市場發展現狀、投資情況及典型案例,對人工智能行業的發展前景和趨勢做出前瞻性分析,并發布《2019年人工智能行業現狀與發展趨勢報告》。