隨著空間數據體量的持續增長,空間數據所蘊含的價值巨大.傳統的數據感知存儲技術和處理分析方法已然不能充分挖掘海量空間數據的價值.因此,空間數據智能,一個專注于海量空間數據的研究與應用的多學科交叉的領域,正扮演著越來越重要的角色.介紹了空間數據智能的概念、空間數據智能領域所面臨的技術挑戰及空間數據智能的關鍵技術,同時介紹了空間數據智能在社會生活中的典型應用場景,最后對空間數據智能研究的發展做出了展望.
引言
空間數據是描述自然地理空間和人類活動空間 所包含的人、物體、事件的信息.通常來說,空間數據 具有空間位置信息、時間信息和屬性信息.與土地一 樣,具有空間位置信息的空間數據是一個國家擁有 的具有戰略意義的重要資源.我國幅員遼闊、人口眾 多,加上這十多年來快速發展的數字化建設,空間數 據的現有量級十分巨大.伴隨著各類傳感器和全球 定位系統的更加廣泛使用,諸如遙感數據、地圖測 繪、交通軌跡數據、手機信令數據、APP打卡數據等 空間數據將持續增長,并帶來巨大的價值.
面對海量異構的空間數據,傳統的數據感知存儲技術和處理分析方法顯然已經不適用,亟需對應 的科學技術的發展,這正是空間數據智能逐漸興起 的原因.空間數據智能是利用先進通信技術、人工智 能方法、大數據分析、先進計算機技術等技術方法對 空間數據進行更好地感知、采集、分享、管理、分析及 應用的一個多學科交叉的研究領域.空間數據智能 旨在通過相關理論和技術的突破,充分釋放空間數 據的潛在價值,讓海量空間數據賦能于各行各業,服 務于我國經濟社會的發展. 隨著空間數據智能的持續發展,空間數據智能 逐漸形成了數據感知、數據管理、數據分析、數據安 全等主要發展方向,分別專注于數據的獲取與感知、 數據的存儲與管理、數據的加工和深入分析、數據的 隱私和安全等方面.
1 空間數據智能的挑戰和關鍵技術
1.1 技術挑戰
空間數據的持續增長對于空間數據智能而言, 既是機遇又伴隨挑戰.空間數據智能所面臨的主要 挑戰包括數據感知、數據分析處理、數據應用、數據 隱私與安全、高精度地圖等方面. 1) 數據感知.如何全方位、高效、實時和可靠地 感知空間數據,從現有海量的傳感器中收集空間數 據,打造一個海陸空一體化的空間數據體系,是目前 面臨的一個關鍵挑戰.隨著物聯網的快速發展,無處 不在的傳感器每天都在高速生產海量的空間數據, 急需探究一種能夠滿足在不同類型傳感器和碎片化 的數據生產過程中實現高效穩定采集數據的方法.
2) 數據分析處理.如何處理結構復雜、高維、高 噪音和多源異構的海量空間數據是目前面臨的一個 主要挑戰,傳統的空間數據處理技術已不能滿足現有的實時動態計算需求,迫切需要構建一套具備整 合、清洗、儲存和處理海量空間數據的技術體系.
3) 數據應用.面對多源異構的海量空間數據, 如何利用大數據、云計算和人工智能等新一代信息 技術實現數據價值的挖掘和分析,并針對不同的應 用場景提供個性化、高效、實時和有用的價值服務, 也是目前面臨的一個主要挑戰.
4) 數據隱私與安全.如何在充分利用空間數據 的價值的同時做好空間數據的隱私和安全保護是一 個非常重大的挑戰,空間數據直接耦合了大量的位 置信息,關乎個人隱私和國家安全,因此,做好空間 數據的隱私與安全保護是未來的一個極其重要的研 究工作.
5) 高精度地圖.現有的位置服務往往存在精度 低、基準差異大、延時高、穩定性差等痛點,無法滿足 人們對高效精準的位置服務的日益增長的需求,特 別是在自動駕駛和出行導航方面,因此迫切需要構 建一套具備高精度、統一基準和實時穩定的地圖服 務體系.
1.2 關鍵技術
1.2.1 時空數據庫
時空數據庫旨在存儲與管理同時具備時間和空 間屬性的時空數據.時空數據是包含對象、過程、事 件及其在空間、時間、語義等方面的關聯關系.例如, 對于移動物體,其在移動過程中產生的軌跡數據就 屬于時空數據.因此,時空數據庫可以捕捉具有空間 參考的移動對象的運動變化,即通過增加時間維度, 將原先的空間數據模型擴展為時空數據模型[1],并 為時空數據提供高性能的讀寫和計算服務.根據時 空數據庫的存儲和計算特點,時空數據庫可以分為 分布式時空數據庫、AI賦能時空數據庫、新型硬件 時空數據庫等.
1) 分布式時空數據庫.由于 GPS定位設備的廣 泛普及和移動計算的快速發展,時空數據的規模呈 爆炸性增長[2],這對大規模時空數據的存儲和處理 帶來了巨大挑戰.鑒于此,現有工作提出了基于批式 或流式 分 布 式 處 理 平 臺 (如 Hadoop,Spark,Flink 等)的分布式時空數據庫系統[3G5]、分布式時空索引 及更新策略[6]等.
2) AI賦能時空數據庫.時空數據的核心價值是 蘊含于其中的深層信息∕知識.通過 AI技術可以捕 獲時空數據中隱含知識和數據價值,能夠實現更加 智能高效的數據庫管理與應用.為此,現有工作提出了基于神經網絡的學習型索引[7]、基于強化學習的 參數調優[8]、基于遷移學習的基數估計[9]以及基于 深度學習的異常檢測[10]等.
3) 新型硬件時空數據庫.數據庫系統大多依賴 多級內存層次結構(如磁盤、主內存和多個級別的處 理器緩存),而計算機硬件與各個級別的設備都直接 影響到數據庫性能.傳統的以 CPU 為計算中心的數 據庫技術面臨“能耗墻,內存墻”的限制.近年來,新 型硬件(如 GPU,NPU 等)被廣泛應用,借助其高吞 吐、低延遲、易擴展的特點以及其與 AI的強交互能 力,新型硬件時空數據庫正在快速發展.例如,現有 工作提出了基于 GPU 的時空數據庫系統[11],以提 高時空數據的實時查詢能力.
針對數據庫系統的研究,除了需要提供高性能 的讀寫和計算服務外,還要求數據庫在與用戶進行交 互時提供高可用性.時空數據庫可用性主要體現在為 用戶提供對預期之外的時空查詢結果的解釋,滿足用 戶從時空數據庫查詢中得到精確和完整查詢結果的 期望[12G13].現有工作提出了針對反向topGk 查詢的 why和 whyGnot問題處理框架[14]、路網中基于范圍 skyline查詢的 why和 whyGnot問題處理方法[15]、 概率反向skyline查詢的causality與responsibility 計算方法[16]等.
1.2.2 空間感知技術和時空數據挖掘
空間信息的感知依賴于傳感器技術和網絡技 術,是空間數據智能的神經末梢.然而現實世界是復 雜多變的,因此需要可靠的、泛在的、實時更新的感 知層收集可靠的時空信息.空間感知技術可從傳輸 網絡和接口來分類,根據網絡范圍主要分為衛星網、 互聯網、物聯網和無線傳感網技術[17]:1)衛星網可 以通過航天衛星、航天飛機、無人機等裝置進行衛星 定位、對地觀測、地圖繪制,大氣層云圖繪制等;2)互 聯網通過智能手機、移動終端、智能穿戴設備等采集 人的移動性數據、社交媒體等;3)物聯網主要通過工 業和家用網絡中常見的 RFID 室內外定位,監控設 備,監測傳感器等低能耗消耗的傳感器來收集環境 數據;4)無線傳感網可將其末段傳感器采集的數據 如地震、電磁、溫度、濕度、噪聲、光強度等借助物聯 網,廣域網或者衛星網絡傳輸給網絡所有者.
由空間感知技術采集到的多源異構時空數據, 經過有效強大的時空數據庫存儲和管理,最后由時 空數據挖掘技術來探索發現數據價值并給各類應用 提供有力支撐.空間數據中的數據挖掘技術進行簡單分類如下:1)時空數據預處理方法:軌跡分段和壓 縮、地圖匹配、區域劃分和缺值補全等;2)傳統的統 計方法:回歸分析、判別分析、因子分析、歷史平均和 自回歸等;3)傳統的機器學習方法:聚類方法、隱空 間模型、條件隨機場等;4)前沿的機器學習方法:深 度學習、強化學習、元學習、遷移學習、持續學習和對 比學習等;5)可視化方法:時序數據可視化、軌跡可 視化、集體趨勢時空可視化、聚類可視化、地圖可視 化和相似性探索可視化等.數據挖掘方法十分豐富, 需要綜合使用多種技術來挖掘空間數據中存在的價 值,為人所用.
1.2.3 時空數據安全與隱私
為了更好地保障用戶對其個人數據的使用知情 權和處理權,歐洲政府于2018年出臺了用戶隱私保 護政策?通用數據保護條例?(GDPR).中國在3年后 也頒布了?中華人民共和國數據安全法?,加快填補 國內數據安全保護的空白.其中,由于時空數據可以 用于城市規劃、智能交通和商業分析等應用,并且往 往涉及到公共事件、政策等方面的敏感信息,因此保 障時空數據的安全與隱私更是對維護國家安全有重 要意義.在城市發展的過程中,依據空間數據的時空 特性,我們認為在數據采集、數據處理和數據發布 3個階段有不同的隱私保護要求.
1)數據采集.由于設備和環境的限制,采集到 的連續數據在空間上和時間上都很強的不確定性[18]. 尤其是個人軌跡數據會更加稀疏,因為用戶不會隨 時訪問位置服務并貢獻數據.為了保護這一階段用 戶的隱私,同時得到高質量的時空數據,目前的研究 工作提出了在神經網絡模型中引入注意力機制[19]; 采用眾感知框架的同時結合壓縮感知[20]等.
2)數據處理.在挖掘空間數據包含大量可用信 息時,安全和隱私面臨的挑戰更加嚴峻.如果研究者 還是以普通的深度學習框架對數據進行處理,中心 化地處理大規模的未脫敏數據,不僅會加重中心服 務器的負擔、浪費邊緣計算資源,更重要的是大量用 戶的隱私安全得不到保障.目前,新型的聯邦學習框 架[21]已經掀起了一陣研究熱潮,致力于解決深度學 習過程中隱私泄露問題.聯邦學習具有極高的可擴 展性,并能很好地與其他隱私保護方法相結合,例如 同態加密[22]和差分隱私[23]等密碼學方法.
3)數據發布.在發布收集到的原始數據或是處 理好的數據結果時,平衡好用戶隱私和數據可用性 之間的關系時非常重要的.常見的方法包括 KG匿名和對數據進行模糊處理[24],保障了每個用戶的敏感 信息能夠藏匿于打包的數據集中.
2 空間數據智能的典型應用場景
2.1 城市交通應用
國家“十四五”規劃進一步明確了要大力推進智 能交通的發展,促進交通領域的數字化和智能化提 升.空間數據智能技術是實現智能交通的關鍵技術, 通過依托無處不在的城市交通時空數據,借助物聯 網、移動互聯網、大數據、云計算、人工智能和數字孿 生等新一代信息技術,可以有效地實現交通時空數 據的價值分析和共享,能夠實時動態精準地提供道 路交通狀態信息、位置導航服務、出行客流情況和環 境天氣關聯影響[25],在實現交通智能化管理的同時 也可以進一步有效地促進自動駕駛和車路協同系統 的發展. 未來通過借助空間數據智能技術,能夠大大加 快城市交通由信息化向智能化的轉型,為廣大乘客、 交通機構和政府部門提供智能化的交通出行和管理 服務.對廣大乘客而言,空間數據智能技術能夠為用 戶帶來精準的位置服務和個性化的出行線路規劃, 為用戶提供舒適便捷的出行服務,同時這也是滿足 了社會在出行過程中對時空服務日益增長的需求. 對于交通管理機構,空間數據智能技術可以幫助其 提升交通管理的效率,有效地解決交通擁堵和交通 事故等問題.與此同時,空間數據智能技術能夠有效 輔助政府部門進行交通規劃、商業選址和基礎建設 的相關決策,加快智能鐵路、智慧機場、智能公路、智 慧港口和智慧車站的建設,從而進一步促進智慧城 市的發展[26].
2.2 城市防災應急
除了在城市交通上的應用外,空間數據智能的 另一個主要的應用方向為在城市尺度下的防災應急 應用.依據災難發生的時間,可與將應用劃分為三大 類:災難發生前的預測、災難發生過程中的緊急調 度、災難發生后的災害管理. 1)災難發生前的預測.通常而言,災難可以劃 分為2類,即洪水、臺風、地震、泥石流等自然災難, 以及車禍、踩踏事件等人為災難.這些災難絕大部分 都不會毫無預兆的發生,在現有的研究中,依據土壤 類型、降雨量、氣候、海拔、經緯度、植被等可以觀測 的空間數據進行統計分析,包括地震、洪水、臺風等災難在內的自然災害都能夠被提前預知[27],從而提 前做好預防的準備,減少突發的自然災難所帶來的 經濟損失.而在2.1節城市交通應用的基礎上所衍 生的交通故障預測[28],未來的交通擁堵預測[29]以 及人流的預測[30]等方向也有著成熟的方法,通過城 市尺度的空間數據準確地預測了未來的交通、人群 流向,在有政府干預的前提下,交通事故、踩踏事件 等人為災難數量也能夠得到有效的控制,從源頭遏 止不必要的經濟損失. 2)災難發生時的緊急調度.在災難剛剛發生的 時候,救援人員難以提前到場,此時受災人僅能夠依 靠自己逃離受災地點,而不正確的應對行為以及撤 離路線通常會引發二次受災.在歷史的空間數據,尤 其是人群過往的軌跡數據以及相應位置的地理以及 建筑結構數據的支持下,目前這一階段較為成熟的 應用方向包括了小范圍的突發狀態下(例如火災現 場)的人群疏散引導[31],以及城市尺度下的重大災 難時(例如突發的地震)的人流方向推導[32].相比于 能夠采集到大量數據的災前預測方向以及災難后的 災害管理方向,災難發生時的應用由于缺乏足夠的 數據支持,目前還有更多的研究空間. 3)災難發生后的災害管理.在2021年7月20日 時,河南省鄭州市連遭暴雨襲擊,同時產生了嚴重的 內澇現象,損失極其嚴重.但是在災后的救援過程之 中,一份收集受災人員的空間位置以及受災說明的 數據的騰訊文檔卻發揮了極大的作用.在短短1天 內其訪問量超過了250萬次,并且據不完全統計至 少救助了超過85名受災群眾.這充分說明了空間數 據在災難發生期間能夠發揮重大的作用.在現有的 研究之中,災 后 的 災 害 管 理 主 要 以 救 援 路 線 的 規 劃[33]以及救援物資分配[34]為主.依據災后受災人員 的位置,各個地方的受災情況進行規劃,從而盡可能 地減少災難發生后的損失.
2.3 傳染病防疫
基于人群傳播網絡的傳染病給人類社會帶來了 廣泛的影響,而傳染病的傳播和人的移動息息相關. 通過整合人口遷徙相關的空間數據,比如個人 GPS 軌跡、交通軌跡、航班數據等,結合傳染病物理傳播 模型和深度學習等方法進行建模,空間數據智能可 以在疫情預警、疫情預測、疫情排查、疫情物資配置 等方面發揮重要作用.
1) 空間數據智能助力疫情預警.基于區域間的 人口流動數據建模,可以預測下一個可能爆發的疫情區域[35],為各個地區提前預防、防疫政策調整提供 科學依據.
2)空間數據智能協助疫情傳播預測.在發生疫 情后,根據該地區包括人口遷徙[36]、交通運輸[37]在 內的空間數據,進行空間數據驅動的預測模型的建 立及傳播模擬,可以對傳染病的傳播態勢進行預測, 了解疫情發展態勢和峰值時間等,協助醫療專家對 疫情發展做出更加精確的評估,輔助政府部門制定 防疫政策.
3)空間數據智能協助疫情排查,通過對包括個 人軌跡在內的空間數據的整合以及密接判定模型的 建立,空間 數 據 智 能 方 法 可 以 快 速 鎖 定 密 接 接 觸 者[38].作為一種重要的“技防”,空間數據智能可以 讓傳染病排查工作在傳統的流行病學調查的基礎上 變得更加高效精準.
4)空間數據智能優化疫情物資配給[39].傳染病 爆發區域對防控物資的需求量大,空間數據智能通 過先進的計算機及通信技術整合各地的物資數據, 利用算法優化物資配置并規劃派送方案,并結合對 潛在風險區域的挖掘,協助防疫物資科學儲備.
2.4 智慧能源
為實現“碳達峰”和“碳中和”的目標,“十四五” 期間我國將加快能源數字化轉型,建設清潔低碳、安 全高效的現代智慧零碳能源體系.空間數據智能技 術通過利用物聯網、云計算、大數據、人工智能和5G 等技術,可以實時感知能源領域的時空信息,集成多 種能源(電、煤、石油、天然氣、供冷、供熱等)的生產、 傳輸、存儲、消費、交易等時空數據于一體[40],建立 能源體系的數字底座,實現風光儲一體化、石油管道 運輸規劃、電力供應、綠色能源交易、用戶需求預測 等能源全生命周期管理環節的價值挖掘和分析[41], 構建能源價值的一體化智能服務平臺.
空間數據智能技術可以大大提升能源領域的數 字化、自動化和智能化,做到零碳能源智能生產,實 現能源的脫碳生產和清潔利用;建立分布式智慧能 源網絡,提高能源的傳輸和利用效率;同時實現多能 協同供應與調度管理,充分發揮多種能源相互配合 使用的優勢.除此之外,空間數據智能技術還可以提 供能源的智能交易服務,實時高效地滿足供需側的 多樣化需求;打造低碳車聯網能源服務,促進新能源 汽車的快速發展,減少道路交通的碳排放和空氣污 染;同時提供一站式園區智慧能源服務,降低園區能 耗強度和碳排放強度.因此,空間數據智能技術能夠全面助力能源的數字化轉型,加快雙碳目標的實現.
2.5 國土空間規劃
國家“十四五”規劃提出要推進完善新型城鎮化 戰略,構建國土空間開發保護的新格局.如何在可持 續發展的目標下,研究土地利用變化過程,預測土地 利用未來發展趨勢,實現地區土地利用的數量、功 能、布局、強度等系統性優化,是當前國土空間規劃 研究的重點.空間數據智能技術是構建國土空間開 發新格局,實現土地資源高效利用和合理配置,為土 地管理部門提供成熟決策方法的關鍵技術[42]. 通過借助空間數據智能技術,將不同部門的多 源地理數據(地形地貌、遙感影像、地表覆蓋、測繪基 準、土壤、植被、環境監測等)聚合在一起,實現統一 數據訪問接口,構建數據庫集成管理和統計分析系 統,逐步構建地理時空信息云平臺,旨在實現國土空 間規劃“一張圖”,為政府部門提供準確標準的數據 支撐. 通過借助空間數據智能技術,構建融合統計方 法和地理學定律的空間計量模型,可以評估土地儲 備潛力,預測未來土地儲備需求量和土地價格;構建 人類活動與基礎設施的時空關聯關系模型,可以自 動提取城市邊界,分析城市混合功能空間結構,實現 城市功能區的精細化管理和動態監測;構建土地利 用變化模擬模型,可以挖掘復雜驅動力因素對城市 發展的驅動機制,分析主導影響因素,預測不同情景 下的未來土地利用;構建多目標土地利用優化模型, 可以提升用地強度利用效率,對土地資源進行空間 合理調控,實現經濟發展、環境保護、社會公平和區 域協調的平衡,為國土規劃部門提供有效的解決方 案和決策支持.
3 未來展望
3.1 多模態數據融合和數據庫的易用性
隨著5G 和物聯網技術的快速發展、以及時空 應用場景的不斷變化,時空數據庫在不斷發展的同 時,也面臨了諸多亟需解決的挑戰性難題,如多模態 數據融合.真實世界中時空數據除了時間序列和地 理位置數據外,還存在大量具有時空屬性的多模態 數據,如 GPS文本、運動圖像、交通視頻等,如何在 現有時空數據庫中融合具有時空屬性的多模態數 據,以支持多模態時空數據融合處理,是時空數據庫 領域面臨的新挑戰。
此外,隨著以博客、社交網絡、基于位置的服務 (locationbasedservice,LBS)等為代表的新型信息 發布方式的不斷涌現,以及云計算、物聯網技術的不 斷發展,高精尖的數據庫技術逐漸進入人們的視野, 并幫助一般用戶進行感知和決策.然而,用戶并不精 通數據庫專業技術,但仍然需要對許多事務進行決 策,因此需要高可用、易懂易用的數據庫.“數據庫平 民化”已經成為數據庫未來發展的一大趨勢,如何利 用即時查詢、查詢構造等提升時空數據庫易用性是 時空數據庫領域面對的又一新挑戰.
3.2 新一代時空數據數據挖掘算法
隨著移動智能設備和移動通信技術的快速發 展,空間數據的采集變得日益普遍,使得大規模空間 數據在醫療、能源、交通等領域具有重要應用價值, 然而與空間大數據相匹配的信息處理、知識提取算 法仍是亟待研究的領域.此外,人工智能和數據挖掘 算法在近十余年來取得了長足的發展,我國也在近 年提出了促進人工智能和大數據國家戰略,指出人 工智能和數據挖掘技術將成為發展國民經濟水平各 領域的重要抓手.在空間數據智能研究中,如何有效 地實現空間大數據和人工智能研究的深度融合、再 創新是重要的未來發展方向.
然而,在空間數據智能中,應用并發展人工智能 和數據挖掘技術也存在以下幾點重要問題:首先,空 間數據往往體量巨大且結構異質,這對發展、應用的 人工智能模型的計算效率、空間復雜度和可并行度 等性能指標提出了很高要求.其次,空間大數據由于 物體在空間上重疊、包含等原因,往往缺乏也難以獲 取高質量數據標簽.這使得現有算法模型大部分局 限在非監督學習、弱監督學習范式下,難以從大規模 無標簽空間數據中提取出高質量知識.此外,空間大 數據由于獲取渠道多元、大規模感知設備的精度低 等原因,存在數據質量差、單位數據價值密度低等問 題.空間數據噪音在很大程度上受定位設備的影響, 如 GPS、蜂窩基站、WiFi熱點等,且不同數據渠道采 集的數據存在較大差異,難以有效融合.因此,在空 間數據智能中設計數據挖掘和人工智能算法需要有 效解決對數據質量的兼容性問題,從而實現穩健的 空間知識提取.
3.3 時空復雜性與復雜系統
隨著社會分工的不斷深入,快速的城市化是過 去數十年中貫穿我國和世界各國的主旋律.空間上 的聚集和由信息技術發展帶來的高頻社交行為,使得復雜系統成為了研究人類社會及相關問題的必要 范式.
在此背景下,人的行為模式在不同空間尺度下 表現出完全不同的復雜行為模式.以交通規劃領域 為例,其在個體層面關注于出發地 目的地(OGD)的 建模,在聚合層面要建道路截面流量,而在城市區域 層面則要關注宏觀人群流動規律.復雜系統的內在 特性使得微觀機制和宏觀規律間存在難以預測的非 線性效應,這位多尺度的空間數據智能研究提出了 獨特的挑戰. 現有復雜系統研究主要采用演繹的研究方法, 即基于一系列預設的微觀機制推到、仿真宏觀的行 為規律.然而,這一研究范式無法有效利用日益豐富 的空間數據,無法實現數據驅動的規律發現和知識 獲取.另一方面,單純的數據挖掘算法無法有效地和 已有復雜系統理論相結合,挖掘出的觀測規律在理 論完備性和可泛化能力上存在隱患.因此,空間數據 智能的未來研究中,一個重要方向是提出能有效結 合復雜系統理論與空間大數據的新研究范式,并且 解決其在社會各領域的有效應用.
3.4 可解釋的時空關系建模
近年來,機器學習領域取得了蓬勃發展,對于現 有的機器學習方法來說,單純追求預測精度是不夠 的,這類模型具有一個共同的特點,內部結構復雜, 運行機制像一個黑盒子一樣.且大多數預測模型根 據相關性進行預測,但相關性并不意味著因果關系, 模型輸出結果也難以得到有效解釋.因此,在未來, 正確性和可解釋性成為了機器學習特別是深度學習 要實現的目標.
深度學習領域嘗試開展具有可解釋和分析能力 的關系模型,這些模型的一致目標是探究能否找到 一個原因,來對模型結果進行針對性的解釋以及可 靠的指導.因此,深度學習開始結合一些因果發現與 因果推斷方法,例如因果圖、結構因果模型等,通過 對觀測的時空數據進行分析來揭示隱藏的因果信 息.因果分析也是快速發展的可解釋人工智能領域 的一個重要課題,旨在構建可解釋和透明的算法,解 釋如何做出決定.從以往研究來看,因果關系已經在 無數領域和場景下得到學習,包括教育、醫學、經濟 學、流行病學、氣象學和環境健康等.
因果學習與機器學習領域有著密切的關系.機 器學習領域的蓬勃發展促進了因果發現和因果推斷 領域的研究與探討.例如,應用決策樹、集成方法、深度神經網絡等強大的機器學習方法,可以更準確 地估計潛在的結果.因果學習是解釋分析的強大建 模工具,它可以使當前的機器學習做出可解釋的預 測.因此,如何更進一步將因果學習與機器學習連接 起來,克服認識上的不透明性,從相關性最終獲得因 果性,是未來需要解決的難題.隨著數字傳感技術的 進步與發展,以及時空數據庫的不斷豐富,發展具有 因果關系挖掘能力的模型或許是破解黑箱模型的關鍵。
在優化和決策過程中,不確定性量化(UQ)在減少不確定性方面起著至關重要的作用。它可以應用于解決科學和工程中的各種實際應用。貝葉斯逼近和集成學習技術是目前文獻中使用最廣泛的兩種UQ方法。在這方面,研究者們提出了不同的UQ方法,并在計算機視覺(如自動駕駛汽車和目標檢測)、圖像處理(如圖像恢復)、醫學圖像分析(如醫學圖像分類和分割)、自然語言處理(如文本分類、社交媒體文本和再犯風險評分)、生物信息學得到廣泛應用。本研究綜述了UQ方法在深度學習中的最新進展。此外,我們還研究了這些方法在強化學習(RL)中的應用。然后,我們概述了UQ方法的幾個重要應用。最后,我們簡要地強調了UQ方法面臨的基本研究挑戰,并討論了該領域的未來研究方向。
摘要:
在日常情景中,我們處理很多領域的不確定性,從投資機會和醫療診斷到體育比賽和天氣預報,目的是根據收集的觀察和不確定的領域知識進行決策。現在,我們可以依靠使用機器和深度學習技術開發的模型來量化不確定性來完成統計推斷[1]。在人工智能(AI)系統使用[2]之前,對其效能進行評估是非常重要的。這種模型的預測具有不確定性,除了存在不確定性的歸納假設外,還容易出現噪聲和錯誤的模型推斷。因此,在任何基于人工智能的系統中,以一種值得信賴的方式表示不確定性是非常可取的。通過有效地處理不確定性,這樣的自動化系統應該能夠準確地執行。不確定性因素在人工智能中扮演著重要的角色
不確定性的來源是當測試和訓練數據不匹配,由于類重疊或由于數據[6]中存在噪聲而產生的不確定性。估計知識的不確定性要比數據的不確定性困難得多,數據的不確定性自然是通過極大似然訓練來度量的。預測中的不確定性來源對于解決不確定性估計問題[7]至關重要。不確定性有兩個主要來源,在概念上稱為aleatoric和epistemic不確定性8。
數據中的不可約不確定性導致預測中的不確定性是一種可選不確定性(也稱為數據不確定性)。這種類型的不確定性不是模型的屬性,而是數據分布的固有屬性;因此它是不可約的。不確定性的另一種類型是認知不確定性(也稱為知識不確定性),它是由于知識和數據的不足而產生的。人們可以定義模型來回答基于模型預測中的不同人類問題。在數據豐富的情況下,有大量的數據收集,但它可能是信息差的[10]。在這種情況下,可以使用基于人工智能的方法定義有效的模型,表征數據特征。通常這些數據是不完整的,有噪聲的,不一致的和多模態的[1]。
不確定性量化(UQ)是當今許多關鍵決策的基礎。沒有UQ的預測通常是不可靠和不準確的。為了理解深度學習(DL)[11],[12]過程生命周期,我們需要理解UQ在DL中的作用。DL模型首先收集可用于決策過程的最全面和潛在相關的數據集。DL場景的設計是為了滿足某些性能目標,以便在使用標記數據訓練模型之后選擇最合適的DL架構。迭代訓練過程優化不同的學習參數,這些參數將被“調整”,直到網絡提供令人滿意的性能水平。
在涉及的步驟中,有幾個不確定因素需要加以量化。很明顯的不確定性這些步驟如下:(i)選擇和訓練數據的集合,(ii)訓練數據的完整性和準確性,(3)理解DL(或傳統機器學習)模型與性能范圍及其局限性,和(iv)不確定性對應基于操作數據的性能模型[13]。數據驅動的方法,如與UQ相關的DL提出了至少四組重疊的挑戰:(1)缺乏理論,(2)缺乏臨時模型,(3)對不完美數據的敏感性,以及(4)計算費用。為了緩解這些挑戰,有時會采用模型變異性研究和敏感性分析等特殊解決方案。不確定性估計和量化在數字學習和傳統機器學習中得到了廣泛的研究。在下面,我們提供一些最近的研究的簡要總結,這些研究檢驗了處理不確定性的各種方法的有效性。
圖2給出了三種不同不確定度模型[9](MC dropout, Boostrap模型和GMM模型)的示意圖比較。此外,不確定性感知模型(BNN)與OoD分類器的兩種圖形表示如圖3所示。
在大數據時代,ML和DL,智能使用不同的原始數據有巨大的潛力,造福于廣泛的領域。然而,UQ在不同的ML和DL方法可以顯著提高其結果的可靠性。Ning等人總結并分類了不確定性下數據驅動優化范式的主要貢獻。可以看出,本文只回顧了數據驅動的優化。在另一項研究中,Kabir等人[16]回顧了基于神經網絡的UQ。作者關注概率預測和預測區間(pi),因為它們是UQ文獻中最廣泛使用的技術之一。
我們注意到,從2010年到2020年(6月底),在各個領域(如計算機視覺、圖像處理、醫學圖像分析、信號處理、自然語言處理等)發表了超過2500篇關于AI中UQ的論文。與以往UQ領域的文獻綜述不同,本研究回顧了最近發表的使用不同方法定量AI (ML和DL)不確定性的文章。另外,我們很想知道UQ如何影響真實案例,解決AI中的不確定性有助于獲得可靠的結果。與此同時,在現有的研究方法中尋找重要的談話是一種很好的方式,為未來的研究指明方向。在這方面,本文將為ML和DL中UQ的未來研究人員提供更多的建議。我們調查了UQ領域應用于ML和DL方法的最新研究。因此,我們總結了ML和DL中UQ的一些現有研究。值得一提的是,本研究的主要目的并不是比較提出的不同UQ方法的性能,因為這些方法是針對不同的數據和特定的任務引入的。由于這個原因,我們認為比較所有方法的性能超出了本研究的范圍。因此,本研究主要關注DL、ML和強化學習(RL)等重要領域。因此,本研究的主要貢獻如下: