數據庫和人工智能(AI)可以相互受益。一方面,人工智能可以使數據庫更加智能(AI4DB)。例如,傳統的經驗數據庫優化技術(例如,成本估算、聯結選擇、旋鈕調優、索引和視圖顧問)不能滿足大規模數據庫實例、各種應用程序和多樣化用戶的高性能需求,特別是在云上。幸運的是,基于學習的技術可以緩解這個問題。另一方面,數據庫技術可以優化AI模型(DB4AI)。例如,AI很難部署,因為它需要開發人員編寫復雜的代碼和訓練復雜的模型。數據庫技術可用于降低使用人工智能模型的復雜性,加速人工智能算法,并在數據庫內提供人工智能能力。DB4AI和AI4DB近年來得到了廣泛的研究。在本教程中,我們回顧了關于AI4DB和DB4AI的現有研究。對于{AI4DB},我們回顧了基于學習的數據庫配置、優化、設計、監控和安全方面的技術。對于{DB4AI},我們回顧了面向AI的聲明語言、數據治理、訓練加速和推理加速。最后,提出了AI4DB和DB4AI的研究挑戰和未來發展方向。
#背景#
在過去的五十年中,數據庫(DB)和人工智能(AI)技術都得到了廣泛的研究。首先,數據庫系統已在金融、醫療等多個領域中得到使用,其通過提供聲明式語言、查詢優化、ACID等機制,滿足不同場景的數據管理需求。其次,人工智能技術借助算法、數據集、硬件等方面的進步,近三十年取得了飛速發展。二者的交叉技術通過結合數據庫中系統設計、查詢優化、數據管理等方面的技術和人工智能從歷史數據中學習的優勢,幫助解決各自的問題。一方面,人工智能可以使數據庫變得更加智能(AI4DB)。例如,傳統的經驗數據庫優化技術(例如,經驗公式,啟發式算法)不能滿足大型數據庫實例,各類應用程序和用戶(尤其是云數據庫)的高性能要求。幸運的是,基于學習的技術可以緩解此問題。例如,深度學習可以提高代價估算的質量(關系復雜),深度強化學習可以自動調整數據庫參數(樣本小)。另一方面,數據庫技術可以優化AI模型(DB4AI)。目前AI落地要求開發人員根據不同的硬件環境編寫代碼并進行大量訓練。數據庫技術可用于降低使用AI模型的復雜性,加速AI算法,并在數據庫內部提供AI功能。
#AI for DB#
傳統數據庫設計基于經驗方法和規范,并且需要人工投入(如DBA)來調整和運維數據庫[1][2]。人工智能技術通過自動探索遠高于人工的設計空間,并在歷史數據中積累經驗,可以取得優于啟發式算法的表現和優于人工選擇的開銷。我們將使用AI優化數據庫的現有技術分類如下:
◆ 數據庫智能配置:數據庫配置主要針對數據庫實例啟動和工作過程中的“元信息”進行優化,如系統參數、索引表、物化視圖等。傳統數據庫配置高度依賴人力運維或經驗規則,如需要DBA來構建和維護索引和視圖。學習型數據庫配置借助探索-優化等機制,可以針對特定場景探索高質量的配置方案,包括SQL重寫、參數調優[3][4]、視圖推薦[5]等。
◆ 數據庫智能優化:數據庫優化器主要包括查詢重寫、基數估計、代價估計、連接順序選擇。然而,傳統技術基于固定規則,處理多表連接等復雜查詢會有較大誤差。比如,線性回歸等方法無法有效地捕獲不同列/表之間的相關性,因此無法提供高質量的估計。有一些基于長短期記憶網絡的方法,可以學習算子間的數據傳遞關系,幫助更好的估計執行代價[6],選擇合適的查詢計劃[7]。
◆ 數據庫智能設計:傳統的數據庫由數據庫架構師根據他們的經驗進行設計,但是數據庫架構師只能探索數量有限的可能設計空間最近,提出了一些基于學習的自我設計技術,包括學習型索引[8]、數據結構[9]、事務管理[10]等。
◆ 數據庫智能診斷:數據庫可以捕獲數據庫運行時指標,例如讀/寫延遲,CPU 內存使用情況,從而可以在異常發生時(例如性能下降和數據庫攻擊)提醒管理員。但是,傳統的監視方法依靠數據庫管理員來監視大多數數據庫活動并報告問題,這是不完整且效率低下的。因此,提出了一種基于機器學習的技術來優化數據庫運維,包括表現預測[11]、進程控制[12]、活動監控[13]等。
#DB for AI#
盡管AI可以解決許多現實世界中的問題,但是由于現有AI系統的移植性性較差,且難以為普通用戶所使用,因此沒有像DBMS這樣廣泛使用的AI系統可以在不同領域中得到應用。為了解決這個問題,我們下面介紹數據庫技術如何降低AI使用的門檻。
◆ 聲明性的語言模型:面向AI的聲明性語言模型通過擴展SQL語法,可以擴展到AI模型上,使AI模型更易于使用。目前主流SQL擴展方法包括兩種:混合語言模型會根據SQL關鍵字判斷是DB還是AI操作,然后分別下發給相應的解析器解析,可以靈活支持不同AI平臺,但是效率較低;另一種統一模型則在數據庫內核中原生支持AI算子[14],如數據收集、迭代訓練等,可以提高AI執行效率,但是移植性較差。
◆ 大規模數據治理:數據質量對于機器學習非常重要。數據治理可以提高數據質量,包括數據發現,數據清理,數據集成和數據血緣。(1) 數據發現。借助領域專家和知識庫[15],我們可以適當地利用人力或現有知識來標記大量ML算法的訓練數據,增強發現相關數據的能力。(2) 數據清洗。臟數據會嚴重影響訓練效果。數據清洗和集成技術可以檢測和修復臟數據,并集成來自多個源的數據以生成高質量數據。(3) 數據血緣。數據血緣描述了模型輸入和輸出之間的關系,對于確保ML模型正常工作很重要。使用諸如多表連接和圖映射等數據庫技術,我們可以向后和向前跟蹤數據關系。
◆ 大規模模型訓練:模型訓練旨在訓練一個好的模型用于在線推理。然而,模型訓練是一個耗時且復雜的過程,包括特征選擇,模型選擇,模型管理和硬件加速。(1) 特征選擇。選擇和評估可能的功能非常耗時。我們可以借助批處理、物化視圖等技術來解決此問題[16]。(2) 模型選擇。它旨在從大量可能的模型中選擇合適的模型(和參數值)。一些數據庫并行技術可以加快此步驟,包括批量同步并行、模型多跳并行、參數服務器等。(3) 模型管理。模型訓練是一個反復試驗的過程,需要維護歷史模型和參數,因此有必要設計一個模型管理系統來跟蹤,存儲和搜索ML模型。我們回顧了基于GUI的[17]和基于命令的[18]模型管理系統。(4) 硬件加速。諸如GPU、FPGA之類的新硬件常被用來加速模型訓練。我們分別在行存儲[19]和列存儲[20]數據庫中介紹硬件加速技術。
AI4DB和DB4AI的技術為AI和DB領域帶來新的機遇的同時,也帶來了新的挑戰。AI4DB方面,對于數據庫這類高可靠系統,需要解決AI算法由于黑盒、過擬合等問題導致的表現退化問題;此外,現有AI4DB技術主要集中在數據分析型查詢,如何應對事務處理這類即時性查詢,也是一個重要的挑戰。DB4AI方面,盡管將AI模型靠近數據側,可以提高AI執行和使用效率,但也存在算子差異性大、難以構建AI&DB統一優化器等問題。
References
[1] G. Li, X. Zhou, and S Li. Xuanyuan: An ai-native database. IEEE Data Eng. Bull., 42(2):70–81, 2019.
[2] J. Chen, Y. Chen, and G. L. et al. Data management at huawei: Recent accomplishments and future challenges. In ICDE, 2019.
[3] J. Zhang, Y. Liu, K. Zhou, G. Li and et al. An end-to-end automatic cloud database tuning system using deep reinforcement learning. In SIGMOD, 2019.
[4] G. Li, X. Zhou, and S. L. et al. Qtune: A query-aware database tuning system with deep reinforcement learning. VLDB, 2019.
[5] H. Yuan, G. Li, L. Feng, J. Sun, and Y. Han. Automatic view generation with deep learning and reinforcement learning. In ICDE, 2020.
[6] J. Sun and G. Li. An end-to-end learning-based cost estimator.
PVLDB, 13(3):307–319, 2019.
[7] X. Yu, G. Li, and C. C. et al. Reinforcement learning with tree-lstm
for join order selection. In ICDE 2020, pages 196–207, 2019.
[8] T. Kraska, A. Beutel, and E. H. C. et al. The case for learned index structures. In SIGMOD, pages 489–504, 2018.
[9] S. Idreos and et al. Design continuums and the path toward self-designing key-value stores that know and learn. In CIDR, 2019.
[10] M. L¨ uhring, K. Sattler, K. Schmidt and et al. Autonomous management of soft indexes. In ICDE, 2007.
[11] X. Zhou, J. Sun, G. Li, and J. Feng. Query performance prediction
for concurrent queries using graph embedding. In VLDB, 2020.
[12] H. Kaneko and K. Funatsu. Automatic database monitoring for process control systems. In IEA/AIE 2014, pages 410–419, 2014.
[13] M. Ma, Z. Yin, and S. Z. et al. Diagnosing root causes of intermittent slow queries in cloud databases. In PVLDB, 2020.
[14] J. M. Hellerstein, C. R′e, and F. S. et al. The madlib analytics library or MAD skills, the SQL. PVLDB, 5(12):1700–1711, 2012.
[15] G. Li, J. Wang, Y. Zheng, and M. J. Franklin. Crowdsourced data management: A survey. IEEE Trans. Knowl. Data Eng., 28(9):2296–
2319, 2016.
[16] M. Kunjir and S. Babu. Thoth in action: Memory management in modern data analytics. PVLDB, 10(12):1917–1920, 2017.
[17] M. Chavan, R. Guravannavar, K. Ramachandra and et al. Dbridge: A program rewrite tool for set-oriented query execution. In ICDE, 2011.
[18] M. Vartak, H. Subramanyam, W. Lee and et al. Modeldb: a system for machine learning model management. In SIGMOD, 2016.
[19] D. Mahajan, J. K. Kim, J. Sacks and et al. In-rdbms hardware acceleration of advanced analytics. PVLDB, 11(11):1317–1331, 2018.
[20] K. Kara, K. Eguro, C. Zhang, and G. Alonso. Columnml: Column-store
machine learning with on-the-fly data transformation. PVLDB, 2018.
來源:中國信息通信研究院
“未來一段時期,我國數據庫行業將圍繞兩個核心命題進行發展:一個是縮小“高要求的存量數據應用需求”與“仍處于發展初期階段的供給能力”之間的差距;另一個是探索“創新型數據應用需求”與“數據庫技術產品演進路線”的合理映射關系。”
日前,中國信息通信研究院正式發布了《數據庫發展研究報告(2021年)》,本研究報告從技術、產業、應用三方面梳理了數據庫發展情況,并展望了發展趨勢。
據中國信通院測算,2020年全球數據庫市場規模為671億美元,其中中國數據庫市場規模為35億美元(約合240.9億元人民幣),占全球5.2%。預計到2025年,全球數據庫市場規模將達到798億美元,中國的IT總支出將占全球12.3%。中國信通院預計,中國數據庫市場在全球的占比將在2025年接近中國IT總支出在全球的占比,中國數據庫市場總規模將達到688億元,市場年復合增長率(CAGR)為23.4%。
01、數據庫技術發展歷程
首款企業級數據庫產品誕生于上世紀60年代,六十余年發展過程中,數據庫共經歷前關系型、關系型和后關系型三大階段。
前關系型階段(1960-1970):網狀層次數據庫初嘗探索
前關系型階段數據庫的數據模型主要基于網狀模型和層次模型,代表產品為IDS和IMS,該類產品在當時較好地解決了數據集中存儲和共享的問題,但在數據抽象程度和獨立性上存在明顯不足。
關系型階段(1970-2008):關系型數據庫大規模應用
關系型階段以IBM公司研究員E.F.Codd提出關系模型概念,論述范式理論作為開啟標志,期間誕生了一批以DB2、Sybase、Oracle、SQLServer、MySQL、PostgreSQL等為代表的廣泛應用的關系型數據庫,該階段技術脈絡逐步清晰、市場格局趨于穩定。
后關系型階段(2008-至今):模型拓展與架構解耦并存
谷歌的三篇論文開啟后關系型數據庫階段,該階段由于數據規模爆炸增長、數據類型不斷豐富、數據應用不斷深化,技術路線呈現多樣化發展。隨著各行業數字化轉型不斷深入,5G、云計算等新興技術快速發展,傳統數據庫的應用系統紛紛優化升級。全球市場格局劇烈變革,我國數據庫產業進入重大發展機遇期。
02、數據庫技術發展趨勢
大數據時代,數據量不斷爆炸式增長,數據存儲結構也越來越靈活多樣,日益變革的新興業務需求催生數據庫及應用系統的存在形式愈發豐富,這些變化均對數據庫的各類能力不斷提出挑戰,推動數據庫技術的不斷演進。
趨勢一:多模數據庫實現一庫多用
多模數據庫支持靈活的數據存儲類型,將各種類型的數據進行集中存儲、查詢和處理,可以同時滿足應用程序對于結構化、半結構化和非結構化數據的統一管理需求。未來在云化架構下,多類型數據管理是一種新趨勢,也是簡化運維、節省開發成本的一個新選擇。
趨勢二:統一框架支撐分析與事務混合處理
產業界當先正基于創新的計算存儲框架研發HTAP數據庫,其能夠基于統一套引擎同時支撐業務系統運行和分析決策場景,避免在傳統架構中,在線與離線數據庫之間大量的數據交互。
趨勢三:運用AI實現管理自治
目前有研究通過將傳統數據庫組件用機器學習算法替代,來實現更高的查詢和存儲效率,自動化處理各種任務。未來80%以上的日常運維工作有望借助AI完成。
趨勢四:充分利用新興硬件
隨著新型硬件成本逐漸降低,充分利用新興硬件資源提升數據庫性能、降低成本,是未來數據庫發展的重要方向之一。
趨勢五:與云基礎設施深度結合
Gartner預測,到2022年75%的數據庫將托管在云端。云與數據庫的融合,減少了數據庫參數的重復配置,具有快速部署、高擴展性、高可用性、可遷移性、易運維性和資源隔離等特點。云原生數據庫能夠隨時隨地從多前端訪問,提供云服務的計算節點,并且能夠靈活及時調動資源進行擴縮容,助力企業降本增效。
趨勢六:隱私計算技術助力安全能力提升
近年來以同態加密等密碼學為代表的軟件解決方案和以可信執行環境(TEE)為代表的硬件方案為數據庫安全設計提供許多新思路。未來,此類數據庫將圍繞算法安全性和性能損耗等問題,逐步突破,進而提供覆蓋數據全生命周期的安全保護機制。
趨勢七:區塊鏈數據庫輔助數據存證溯源
區塊鏈具有去中心化、信息不可篡改等特征,區塊鏈數據庫能夠長期留存有效記錄,數據庫的所有歷史操作均不可更改并能追溯,適用于金融機構、公安等行業的應用場景。未來,提升區塊鏈數據庫性能將成為學術界與工業界共同探索的命題。
03、數據庫典型行業應用動態
金融、電信、政務、制造、互聯網五個行業為數據庫產品及服務采購份額前五的行業,采購總和占據全部市場份額的80%以上。
(一)金融行業&電信行業
據中國信通院統計分析,以業務系統數量為計數單位,我國金融行業各類數據庫占比為Oracle 55%、DB2 19%、MySQL 13%、PostgreSQL 6%,其他 7%。
目前,金融和電信行業在數據庫應用方面正在呈現三大趨勢:一是大部分存量數據庫將向分布式架構升級;二是應用大量非關系型數據庫助力創新業務落地;三是產品選型逐漸傾向國產數據庫供應商。
(二)政務行業
我國在提升社會治理的數字化治理水平過程中,主要呈現兩大特點:一是個體、企業和社會等被治理對象數量龐大、日趨復雜,二是智能治理要求各層、各機構政府人員深度應用信息科技工具。當前政務行業在數據庫應用方面正在呈現兩大趨勢:一是大范圍應用空間型、關聯型數據庫等產品;二是利用各類工具組件,做到數據庫應用“平民化”。
(三)制造業
當前物聯網技術正逐步滲透工業領域,不斷增長的傳感器、飆升的數據量以及更高的大數據分析需求對原有的數據庫系統提出了新的需求,包括增加擴展性、實現與大數據技術生態的友好對接、降低大規模應用價格、充分利用邊緣計算設備能力。未來工業行業在數據庫應用方面將呈現兩大趨勢:一是應用大量時序數據庫;二是逐步向邊緣計算發展。
(四)互聯網
互聯網行業為充分發揮新要素、新模式、新動能等方面的優勢,對底層IT系統中的數據庫提出了多項新要求,以性能好、造價低、迭代快為核心。未來互聯網行業在數據庫應用方面將呈現三大趨勢:一是利用內存數據庫加速業務效率;二是開源數據庫應用更加廣泛;三是初創公司利用云數據庫促進其快速發展。
04、總結與展望
數據庫作為提供數據存儲與處理能力的軟件產品,是各機構信息系統的關鍵部件,是助力數據價值釋放的核心引擎。隨著數據躍升為生產要素,數據重要性進一步提高,我國數據庫產業也迎來新一輪變局。
從產業角度看,宏觀政策利好推動了存量數據庫市場上行,我國數據庫產業進入蓬勃發展的初期,產品供應商、服務提供商、支撐產業從業者均積極行動,各自發揮技術、渠道、運營等優勢,尋求對于自身最優的發展路徑;另一方面云基礎設施的發展成熟將接近一半的傳統數據庫市場轉移到了線上,云計算企業利用既有基礎設施優勢,成為最大獲益者。
從技術角度看,一方面數據應用的變化倒逼數據庫具備更大數據存儲容量、更多數據計算模型、更快數據業務響應能力,整體技術發展進入后關系型階段,架構設計逐漸分布式化、模型構建逐漸場景化;另一方面,人工智能、新型硬件、區塊鏈、密態計算等關聯技術的創新正在催生新型數據庫設計模式,傳統數據庫功能邊界正被逐漸突破。在數據庫產業和技術的變局過程中,供給側、應用側、生態側均處于機遇與挑戰并存的狀態。
圖神經網絡(GNN)是一類基于深度學習的處理圖域信息的方法,它通過將圖廣播操作和深度學習算法結合,可以讓圖的結構信息和頂點屬性信息都參與到學習中,在頂點分類、圖分類、鏈接預測等應用中表現出良好的效果和可解釋性,已成為一種廣泛應用的圖分析方法.然而現有主流的深度學習框架(如Tensorflow、PyTorch等)沒有為圖神經網絡計算提供高效的存儲支持和圖上的消息傳遞支持,這限制了圖神經網絡算法在大規模圖數據上的應用.目前已有諸多工作針對圖結構的數據特點和圖神經網絡的計算特點,探索了大規模圖神經網絡系統的設計和實現方案.本文首先對圖神經網絡的發展進行簡要概述,總結了設計圖神經網絡系統需要面對的挑戰;隨后對目前圖神經網絡系統的工作進行介紹,從系統架構、編程模型、消息傳遞優化、圖分區策略、通信優化等多個方面對系統進行分析;最后使用部分已開源的圖神經網絡系統進行實驗評估,從精確度、性能、擴展性等多個方面驗證這些系統的有效性.
//www.jos.org.cn/jos/ch/reader/view_abstract.aspx?file_no=6311
大數據時代下,面對不斷膨脹的數據信息、復雜多樣的應用場景、異構的硬件架構和參差不齊的用戶使用水平,傳統數據庫技術很難適應這些新的場景和變化. 機器學習技術因其較強的學習能力,逐漸在數據庫領域展現出了潛力和應用前景. 論文首先給出一個高效、高可靠、高可用、自適應性強的數據庫系統需要涵蓋的方面,包括數據庫運維、數據存儲、查詢優化等.其次,討論機器學習算法與數據庫技術結合過程中可能面臨的挑戰,包括訓練數據少、訓練時間長、泛化能力有限、適應性差四個方面.然后,綜述數據庫技術與機器學習結合的現狀以及具體技術.其中,重點介紹數據庫自動調參、查詢基數估計、查詢計劃選擇、索引和視圖自動選擇五個方向.自動調參技術包括啟發式算法、傳統機器學習、深度強化學習三類.啟發式算法從離散的參數空間中通過抽樣探索最優子空間,可以有效提高調參效率,但是難以保證在有效資源限制內找到合適配置;傳統機器學習算法在經過降維的參數空間中學習系統狀態到指定負載模板的映射關系,一定程度上提升模型的適應性;深度強化學習在高維參數空間中迭代的學習調優策略,并利用神經網絡提升對高維數據的處理能力,有效降低訓練數據的需求.查詢基數估計包括面向查詢和面向執行計劃兩類.面向查詢方法利用卷積神經網絡學習表數據、查詢條件、連接條件之間的關系,然而在不同場景下需要大量訓練而且泛化能力差;面向執行計劃方法在物理算子層面做級聯的代價估計,一定程度上提高對不同查詢的適應能力.查詢計劃選擇包括深度學習和強化學習兩類.深度學習方法融合數據庫估計器的代價值和數據特征,提高對每種計劃代價估計的精度,但是結果嚴重依賴估計器的表現;強化學習基于最終目標迭代生成查詢計劃,降低方法對查詢代價的依賴性.自動索引推薦包括分類器、強化學習、遺傳算法三類.分類算法根據離散的表特征分析不同索引的創建開銷和效率,通過結合遺傳算法,提高對復合索引的推薦效率;強化學習進一步提供增量式索引推薦的效率,實現在線索引選擇.自動視圖選擇包括啟發式算法、概率統計、強化學習三類.啟發式算法通過在視圖構建的有向無環圖上做貪心探索,提高選擇效率,然而適應性差;基于概率統計的算法將視圖選擇形式化成一個0-1選擇問題,有效降低圖的探索開銷;強化學習方法將視圖的創建和刪除統一成動態選擇過程,基于強化學習的訓練策略進一步提高選擇效率.最后,從八個方面展望機器學習將給數據庫帶來的革命性突破。
人工智能技術因其強大的學習和泛化能力已經被廣泛應用到各種真實場景中.然而,現有人工智能技術還面臨著三大挑戰.第一,現有AI技術使用門檻高,依賴于AI從業者選擇合適模型、設計合理參數、編寫程序,因此很難被廣泛應用到非計算機領域;第二,現有AI算法訓練效率低,造成了大量計算資源浪費,甚至延誤決策時機;第三、現有AI技術強依賴高質量數據,如果數據質量較低,可能造成計算結果的錯誤.數據庫技術可以有效解決這三個難題,因此目前面向AI的數據管理得到了廣泛關注.本文首先給出AI中數據管理的整體框架,然后詳細綜述基于聲明式語言模型的AI系統、面向AI優化的計算引擎、執行引擎和面向AI的數據治理引擎四個方面.最后展望未來的研究方向和挑戰.
//www.jos.org.cn/jos/ch/reader/view_abstract.aspx?file_no=6121&flag=1
特定領域的知識庫(KB)從各種數據源精心整理而來,為專業人員提供了寶貴的參閱咨詢。由于自然語言理解和人工智能的最新進展,會話系統使這些KBs很容易被專業人員訪問,并且越來越受歡迎。盡管在開放域應用程序中越來越多地使用各種會話系統,但特定于域的會話系統的需求是完全不同的,而且具有挑戰性。在本文中,我們針對特定領域的KBs提出了一個基于本體的對話系統。特別是,我們利用領域本體中固有的領域知識來識別用戶意圖,并利用相應的實體來引導對話空間。我們結合了來自領域專家的反饋來進一步細化這些模式,并使用它們為會話模型生成訓練樣本,減輕了會話設計人員的沉重負擔。我們已經將我們的創新集成到一個對話代理中,該代理關注醫療保健,這是IBM Micromedex產品的一個特性。
人工智能技術因其強大的學習和泛化能力已經被廣泛應用到各種真實場景中.然而,現有人工智能技術還面臨著三大挑戰.第一,現有AI技術使用門檻高,依賴于AI從業者選擇合適模型、設計合理參數、編寫程序,因此很難被廣泛應用到非計算機領域;第二,現有AI算法訓練效率低,造成了大量計算資源浪費,甚至延誤決策時機;第三、現有AI技術強依賴高質量數據,如果數據質量較低,可能造成計算結果的錯誤.數據庫技術可以有效解決這三個難題,因此目前面向AI的數據管理得到了廣泛關注.本文首先給出AI中數據管理的整體框架,然后詳細綜述基于聲明式語言模型的AI系統、面向AI優化的計算引擎、執行引擎和面向AI的數據治理引擎四個方面.最后展望未來的研究方向和挑戰.
工程領域大數據和人工智能原則
—推動工程領域負責任的大數據和人工智能創新和應用
近年來,大數據和人工智能技術快速發展,其應用廣泛落地,已經為我們的生產和生活帶來顯著的貢獻,在輔助個人能力提升,改善人民生活 品質,促進經濟和社會發展,應對全球重大挑戰(如:氣候變化,糧食短 缺等)及促進落實聯合國可持續發展目標等方面帶來巨大機遇。特別是在工程領域,作為第四次工業革命的主要驅動力之一,大數據和人工智能正 在推動研發、規劃、設計、制造、測試、操作和維護等方面的革新,并可 提高生產力及工程項目的質量、安全和效率,同時減少碳排放,降低物耗、能耗和成本。此外,它們還有助于打擊腐敗、維護工程操守。
在帶來前所未有的機遇的同時,大數據和人工智能也帶來了許多技術和倫理挑戰。我們必須全面分析、認真應對,以釋放其造福人類的潛能。技術上,盡管近年來取得了相當大的進展,但仍有許多難題亟待解決:數 據可用性仍需提升;數據采集、存儲、檢索、傳輸、分析和可視化技術仍需改進甚至革新。同樣,人工智能遠不完美,例如:機器學習需要大量的 人力來標記監督學習所需的訓練數據。此外,我們正面臨隱私侵犯、決策 不透明、偏見歧視、技術濫用、數字鴻溝等倫理挑戰。這些問題正引起越來越多的公眾關注,并引發了社會上的一些憂慮。
工程師群體,作為大數據和人工智能創新和應用的主要實踐者,有責 任和義務以造福人類為目推動大數據和人工智能的創新和應用。為了推動負責任的大數據和人工智能創新和應用,在工程實踐中,工程師和工程界 應將有利于人類和地球的可持續發展作為首要標準,并遵循以下原則:
有益于人與環境
必須致力于尊重、維護人的尊嚴和自主,保障人權;遵循文化、社會和 法律規范;維護文化延續性與生態多樣性,為全球社會和環境謀福利;促 進大數據和人工智能有益于人的運用,以增強人的感知、認知和解決問題的能力,實現可持續發展。
包容、公平、公眾意識和公眾賦能
注重包容性,使人類社會的全體成員參與其中并共享數據和人工智能帶來的社會和經濟利益,關注兒童、殘疾人等弱勢群體;消減數據源的偏 見,并尋求開發檢測和糾正已有和潛在歧視的方法;積極參與到提高公眾 對大數據和人工智能的發展和影響的認識中;賦能公眾,以使每個人從大數據和人工智能的創新和應用中獲益,并能應對潛在問題,如失業問題。
尊重隱私和數據完整性的開放和共享
及時地、全面地、負責任地公開和共享數據、元數據、數據產品和信息,以充分發揮和利用數據的價值;尊重人對數據的訪問權、分享權及受 益權;在數據收集、披露和使用過程中,保護用戶的隱私;輔助提升人們 對數據的訪問、分享、使用及控制能力,尤其是維護其身份數據的能力;以知情同意為原則使用私人數據;積極采集、存儲和保護第一手工程數據, 確保數據完整性和質量,同時避免數據被盜,濫用和損壞。
透明性
從數據生成到使用結束,最大限度地提高數據的可追溯性;關注人工智能系統的輸入/輸出的可驗證性以及其的判斷和決策的可解釋性;努力為 所有利益相關方提供可理解的解釋和信息,宣傳人工智能產品和服務可能產生的影響;了解并提供開發和部署中的人工智能系統的能力和局限。
問責制
遵守法律法規和技術標準;明確在開發、部署和使用大數據和人工智能應用的過程中的責任,確保全生命周期里的責任可追溯;踐行責任,以 獲得全社會對大數據和人工智能的信任。
維護和平、安全性
牢記維護世界和平的使命;設法發現和解決潛在風險,其中包括對生命、財產安全的危害;確保應用的安全可靠;充分考慮人工智能系統全運 營周期中的風險,確保其使用周期中的安全可靠和可驗證;在現實場景下 進行充分前期測試,以確保其符合目標規格;與所有利益相關者密切合作以保證并進一步提升應用的質量、安全性和可靠性。
協同合作
理解可持續發展目標間的關聯性,以及協同合作在實現可持續發展目標中的重要作用;促進所有利益相關方跨學科、跨部門合作和國際合作, 通過負責任的大數據和人工智能創新和應用,加快可持續發展目標的實現。
深度學習最近變得非常流行,因為它在許多復雜的數據驅動應用程序中取得了令人難以置信的成功,比如圖像分類和語音識別。數據庫社區多年來一直致力于數據驅動的應用,因此應該在支持這一新浪潮方面發揮帶頭作用。然而,數據庫和深度學習在技術和應用方面是不同的。在本文中,我們討論了這兩個領域交叉的研究問題。特別地,我們從數據庫的角度討論了對深度學習系統的可能改進,并分析了可能從深度學習技術中受益的數據庫應用。