亚洲男人的天堂2018av,欧美草比,久久久久久免费视频精选,国色天香在线看免费,久久久久亚洲av成人片仓井空

具有沉浸顯示、智能輔助、自然化人機交互等先進控制能力的新型無人機地面站已成為當前無人機控制領域的研究熱點。為分析其中的技術脈絡,系統性地梳理國內外一系列無人機先進地面站的功能要點及設計理念,在此基礎上從無人機地面站指揮控制的觀察—判斷—決策—行動回路出發,歸納提煉了其技術體系構成,分析指出了其中的任務環境構建、戰場態勢沉浸式顯示、智能化輔助決策和自然化人機交互等關鍵技術,并對各項技術的主要研究方法進行了深入剖析,還對無人機先進地面站目前存在的挑戰和未來發展趨勢進行了研判。該研究對新型地面站的研制具有指導和借鑒意義。

付費5元查看完整內容

相關內容

人工智能在軍事中可用于多項任務,例如目標識別、大數據處理、作戰系統、網絡安全、后勤運輸、戰爭醫療、威脅和安全監測以及戰斗模擬和訓練。

1. 引言

近年來,人類不斷探索和發現大腦的奧秘,并且試圖通過腦電信號來了解大腦的活動規律。隨著計算機技術、電子信息技術、心理學、通信處理技術等技術的發展,腦機接口技術BCI應運而生。該技術涉及的研究領域較為廣泛,包括生物學、計算機、通信工程、臨床醫學以及教育領域等等。腦機接口技術在人腦和計算機之間搭建了一條直接溝通和交流的通道,顛覆了傳統技術認知,真正實現人機的雙向交互、協同作業,改變人類傳統生活方式。

2. 腦機接口發展概況

腦機接口(Brain-Computer Interface, BCI)是美國教授Jacques Vidal在1973年最早提出 [1] 。他首次嘗試利用腦電圖在人腦和計算機之間進行交流,將腦機接口技術定義成是一項不依賴于正常的外周神經和肌肉組成的輸出通路的通信系統。在當時,腦機接口的實驗僅在靈長類動物身上開展,加之受到計算機技術和生物學技術發展的局限,腦機接口技術進展緩慢。1998年,布朗大學John Donoghue教授和所在團隊利用電腦芯片和人腦連接,實現遠程控制人腦 [2] 。進入21世紀以來,得益于腦科學、認知科學以及相關技術的飛速進步,腦機接口技術才能夠實現跨越式發展。2000年,M. Nicolelis已通過科學實驗實現對靈長類動物的神經解碼控制;2006~2017年間,施瓦茨和安德森等人研制了人類腦控假肢 [3] ;2019年,E. F. Chang提出了腦機接口生成語言,同年4月,美國加州大學舊金山分校廣泛征集志愿者,將電極植入他們的大腦運動區,完成了解碼腦電波、在大腦中直接合成語音等工作;2021年,科林格爾(J. L.Collinger)打造雙向閉環腦機接口,謝諾伊(K. V. Shenoy)實現了意念手寫。

目前,我國已在戰略層面對腦機接口做出了規劃與設想。2021年,“中國腦計劃”申報指南正式公布,將“腦科學與類腦研究”列為科技創新2030重大項目的試點項目之一,還提出了“新型無創腦機接口技術”“柔性腦機接口”“面向運動和意識障礙康復的雙向–閉環腦機接口”等相關重點項目。

3. 腦機接口研究進展

3.1. 信號處理

大腦由成千上億個神經元構成,并且每個神經元之間都相互連接,刺激信號在神經元之間傳遞,最終形成神經沖動。在產生神經沖動的過程中,大腦神經系統的電磁活動會發生相應的變化,并體現出某種節律和空間分布的特征。因此可利用傳感器采集并放大這些神經電生理信號,可以收集到頭皮腦電信號、皮層腦電信號和局部場電位 [4] 。腦機接口技術正是通過采集腦電信號,并對其進行預處理、特征提取和模式識別 [5] 一系列步驟來完成信號處理,破解大腦狀態或意圖,將處理后的信息編碼并轉化為具體指令,以此來控制外部設備應用,實現信息交流、運動輔助和功能恢復等,最終又將神經反饋信號傳輸給人腦,完成通信系統的閉環處理(見圖1)。

Figure 1. Brain-computer interface signal processing process

圖1. 腦機接口信號處理過程

3.2. 系統分類

3.2.1. 侵入式腦機接口

按照系統采集信號方式的不同,腦機接口技術可分為侵入式腦機接口和非侵入式腦機接口。侵入式腦機接口需采用神經外科手術方法將微電極陣列植入大腦,實時記錄大腦神經群體活動信號,從神經信號中解碼出活動意圖,利用解碼出的信號控制外設。目前,侵入式腦機接口在多個方面都已取得突破性進展 [6] 。在國外,匹茲堡大學的科學家已完成通過植入式腦機接口操控機械手產生多種不同手勢,來滿足日常生活中可能需要的基本抓取功能,并通過安置在機械手上的傳感器反饋接收到的微小電流刺激體感皮層,以達到恢復高位截癱患者手部觸覺的目的,進而實現腦機接口的閉環控制 [7] 。2019年,馬斯克的Neuralink公司發布一款可擴展的高帶寬侵入式BCI系統 [8] ,通過微創小孔,將超細線縫進大腦,再通過微電極Utah陣列對大腦信號解碼。在國內,有關侵入式腦機接口的研究也取得了一定的進展。2020年,浙江大學研究團隊已利用Utah陣列電極實現了高位截癱患者用意念控制機械臂完成握手、飲水和進食等動作 [9] 。2021年,中科院上海微系統所的陶虎團隊提出“免開顱微創植入式高通量柔性腦機接口”技術,將一根超細線植入人腦 [10] 。2022年,首都醫科大學附屬北京天壇醫院研發出一種BCI柔性電極技術,將僅有2微米的電極點組成的新型柔性電極放到大腦上,不僅能精確地分辨出大腦的神經核團、皮層功能區等,而且最大限度降低了患者的病死率,提高安全系數 [11] 。

3.2.2. 非侵入式腦機接口

非侵入式腦機接口通過頭皮穿戴設備從頭部表面記錄大腦活動,無需手術和設備植入。比較具有代表性的技術有:經顱直流電刺激、經顱磁刺激和經顱超聲刺激,這些經顱刺激手段較為安全,減少腦部手術風險,可用于治療多種神經系統疾病,更可用于探索雙向腦機接口和腦腦接口系統 [6] 。目前,基于腦電圖(EEG)式的非侵入式腦機接口是各國關注的重點。它將電極列陣貼附于人腦頭皮上,運用精密儀表實現多路EEG信號的同時采集和分析,廣泛用于大腦信號監測 [12] 。通過EEG,基于非感覺運動節律偵測腦信號的相關研究取得了很大進展,包括事件相關電位(ERP)、穩態視覺誘發電位(SSVEP)、聽覺誘發電位(AEP)和穩態觸覺誘發電位(SSSEP)等。其中SSVEP可為基于EEG的非侵入式BCI提供最高的信息傳輸速度 [13] 。此外,基于運動想象(MI)以及運動執行(ME)等感覺運動節律的腦機接口研究在疾病康復和機器人等輔助設備控制方面進展迅速,常被用于腦卒中或四肢癱瘓患者的肢體功能和運動想象能力的康復訓練之中 [14] ,當確認被試者有運動意圖時,腦機接口會驅動外部設備及時輔助肢體進行相應的運動訓練,這對于運動障礙患者的行動恢復具有重要意義。

3.2.3. 應用算法

腦機接口技術的應用算法也取得突破性進展。卡內基梅隆大學與合作研究團隊利用低維神經流形的對齊,開發了一種基于流形的神經信號穩定器,以實現腦機接口信號的穩定輸入,以便在神經信號不穩定時依然能維持腦機接口性能的穩定 [15] 。斯坦福大學及合作研究團隊提出一種時間約束的稀疏組空間模式(temporally constrained sparse group spatial patterns),通過同時優化共空間模式中濾波器頻帶和時間窗長,進一步提高想象運動腦機接口的性能 [16] 。清華大學研究團隊發布了基于穩態視覺誘發電位的腦機接口的BETA數據集,為個體水平的腦機接口性能評估梳理了信噪比與信息傳輸率的關系,極大推動了解碼算法的發展 [17] 。華中科技大學的研究團隊提出一種新穎的流形嵌入知識遷移方法,通過最小化源域和目標域之間的聯合概率分布偏移來實現域自適應,可同時處理一個或多個源域,實現高效計算 [18] 。

4. 腦機接口發展預測

4.1. 發展腦機雙向交互

腦機交互的信息按照交互方式可分為:“從腦到機”—將腦信號轉換成意圖運動指令和“從機到腦”—將從外部環境交互設備捕獲到的感覺信息傳遞至大腦 [19] 。當前以后者“從機到腦”為主,鮮有“從腦到機”的交互。近年來,美國相繼啟動“革命性假肢”、“下一代非侵入性神經技術(N3)”等雙向腦機接口計劃 [20] ,并陸續進入臨床應用。日前,匹茲堡大學合作研究團隊通過體感皮層內微電刺激來恢復觸覺感知反饋,使具有雙向腦機接口的受試者在使用神經控制的假肢完成物體運輸任務中的表現得到改善 [21] 。因此,筆者認為在未來腦機接口的發展中,腦機雙向交互或成為研究焦點,通過技術的發展實現腦機之間信息的實時交互和傳輸,以真正達到人工智能的最高境界。

4.2. 臨床醫學的治療

腦機接口在醫療領域的應用較為廣泛,可用于檢查與診斷、運動康復和輔助性功能替代 [22] ,幫助腦卒中患者、肌肉萎縮、神經受損的患者實現功能恢復。近日,Neuralink公司宣布將開展人體試驗,若試驗成功將大大降低精神和神經疾病的治療難度,為老年癡呆癥、癲癇、自閉癥、抑郁癥等疾病的診斷治療和康復打開一扇新大門。此外,可通過腦機接口監測患者的焦慮情緒狀態,并適時提供有效干預訓練,有效改善焦慮情緒狀態 [23] 。可見,腦機接口在老年癡呆癥、自閉癥、抑郁癥等精神障礙的治療方面展現出廣闊發展前景。

4.3. 智能設備的應用

隨著人們需求的日趨多元化,也更加希望通過智能化的設備來提高生活的便利程度。腦機接口作為一種新穎的人機交互方式,在自動駕駛、疲勞檢測、智能家居控制等領域都大有可為。通過腦機接口技術的進步,有望改變傳統的生活方式,引領新的生活風尚。

5. 結語

腦機接口融合了計算機技術、生物學技術、通信處理技術以及心理學等相關知識,成為當今一種新型的交流和控制方式,實現由大腦控制外界設備,在腦機雙向交互、臨床醫學治療和智能設備應用方面都顯示出廣闊發展空間。但科技是把雙刃劍,腦機接口技術也引發了安全性與有效性、人格同一性與真實性,腦隱私保護、決策自主權和責任歸屬等倫理問題 [24] 。因此,我們應該在保證安全性的前提下,進一步發展腦機接口技術,造福于人類。

參考文獻

參考文獻

[1] Jacques, V.J. (1973) Toward Direct Brain-Computer Communication. Annual Review of Biophysics and Bioengineering, 2, 157-180. //doi.org/10.1146/annurev.bb.02.060173.001105 [2] 祝曉平. 植入式腦-機接口鋒電位實時處理算法研究[D]: [博士學位論文]. 杭州: 浙江大學, 2012. [3] Nasmyth, K. (2022) The Magic and Meaning of Mendel’s Miracle. Nature Reviews Genetics, 23, 447-452. [4] 閔棟, 李靜雯, 王秀梅. 腦機接口技術在醫療健康領域應用白皮書[R]. 北京: 中國人工智能產業發展聯盟, 2021. [5] 于淑月, 李想, 于功敬, 孫健, 張忠海, 成藶委. 腦機接口技術的發展與展望[J]. 計算機測量與控制, 2019, 27(10): 5-12. [6] 孫從眾. 腦機接口進展、挑戰及展望[J]. 智能物聯技術, 2022, 5(3): 1-6+29. [7] Flesher, S., Downey, J.E., Weiss, J.M., et al. (2021) A Brain-Computer Interface that Evokes Tactile Sensations Improves Robotic Arm Control. Science, 372, 831-836. [8] Neuralink, M.E. (2019) An Integrated Brain-Machine Interface Platform with Thousands of Channels. Journal of Medical Internet Research, 21, e16194. [9] 腦機接口——未來生命科學和信息技術交叉融合的主戰場[J]. 電子產品可靠性與環境試驗, 2021, 39(3): 113. [10] 甄敏蔚. 未來已來, 幾多思考——2021年世界人工智能大會觀察[J]. 上海質量, 2021(7): 11-13. [11] 腦機接口領域迎來新型柔性電極[J]. 電子產品可靠性與環境試驗, 2022, 40(2): 15. [12] 蔣麗勇, 劉術, 刁天喜, 趙宇偉, 董罡. 腦機接口技術進展及潛在軍事醫學應用[J]. 軍事醫學, 2021, 45(10): 780-785. [13] Chen, X., Wang, Y., Nakanishi, M., et al. (2015) High Speed Spelling with a Noninvasive Brain-Computer Interface. Proceedings of the National Academy of Sciences of the United States of America, 112, e6058-e6067. [14] 梁文棟, 郭曉輝, 程波, 樂贊. 腦機接口在康復醫學中的應用進展[J]. 醫療裝備, 2022, 35(21): 193-196. [15] Degenhart, A., Bishop, W.E., Oby, E.R., et al. (2020) Stabilization of a Brain-Computer Interface via the Alignment of Low-Dimensional Spaces of Neural Activity. Nature Bio-Medical Engineering, 4, 672-685. [16] Zhang, Y., Nam, C.S., Zhou, G., et al. (2019) Temporally Constrained Sparse Group Spatial Patterns for Motor Imagery BCI. IEEE Transactions on Cybernetics, 49, 3322-3332. [17] Liu, B., Huang, X., Wang, Y., et al. (2020) BETA: A Large Bench-Mark Database toward SSVEP-BCI Application. Frontiers in Neuroscience, 14, 627. [18] Zhang, W. and Wu, D. (2020) Manifold Embedded Knowledge Transfer for Brain-Computer Interfaces. IEEE Transactions on Neural Systems and Rehabilitation Engineering, 28, 1117-1127. [19] 陳小剛, 楊晨, 陳菁菁, 高小榕. 腦機接口技術發展新趨勢——基于2019-2020年研究進展[J]. 科技導報, 2021, 39(19): 56-65. [20] 高越. 美國腦機接口技術研究及應用進展[J]. 信息通信技術與政策, 2020(12): 75-80. [21] Flesher, S.N., Downey, J.E., Weiss, J.M., et al. (2019) Restored Tactile Sensation Improves Neuroprosthetic Arm Control. [22] 付佳鈺, 王麗平. 基于腦電圖的無創腦機接口的臨床應用進展[J]. 醫學綜述, 2021, 27(23): 4619-4623. [23] 柯清超, 王朋利. 腦機接口技術教育應用的研究進展[J]. 中國電化教育, 2019(10): 14-22. [24] 顧心怡, 陳少峰. 腦機接口的倫理問題研究[J]. 科學技術哲學研究, 2021, 38(4): 79-85.

付費5元查看完整內容

智能機器人在服務國家重大需求, 引領國民經濟發展和保障國防安全中起到重要作用, 被譽為 “制造業皇冠頂端 的明珠”. 隨著新一輪工業革命的到來, 世界主要工業國家都開始加快機器人技術的戰略部署. 而智能機器人作為智能制造 的重要載體, 在深入實施制造強國戰略, 推動制造業的高端化、智能化、綠色化過程中將發揮重要作用. **本文從智能機器人 的感知與控制等關鍵技術的視角出發, 重點闡述了機器人的三維環境感知、點云配準、位姿估計、任務規劃、多機協同、柔順 控制、視覺伺服等共性關鍵技術的國內外發展現狀. 然后, 以復雜曲面機器人三維測量、復雜部件機器人打磨、機器人力控 智裝配等機器人智能制造系統為例, 闡述了機器人的智能制造的應用關鍵技術, 并介紹了工程機械智能化無人工廠、無菌化 機器人制藥生產線等典型案例. **最后探討了智能制造機器人的發展趨勢和所面臨的挑戰。

//www.aas.net.cn/cn/article/doi/10.16383/j.aas.c220995

1. 引言

近年來, 智能機器人作為國民經濟與社會發展 的基礎性與戰略性產品, 在服務國家航空航天、軌 道交通、海洋艦船、工程機械制造等領域重大需求, 引領國民經濟發展和保障國防安全中起到重要作 用, 被譽為 “制造業皇冠頂端的明珠”. 隨著新一輪 工業革命的到來以及人工智能、云計算、物聯網等 技術快速發展, 機器人技術受到美國、歐盟等世界 發達國家的高度重視, 同時世界主要工業國家都開 始加快機器人部署的步伐. 2013 年, 德國率先提出 “工業 4.0”, 旨在推動工業現代化和數字化轉型, 在 新一輪工業革命中占領先機; 2017 年, 美國推出 “國家機器人計劃 2.0”, 強調機器人可擴展性, 通過 多機器人協作實現復雜環境下分布式的感知、規劃、 行動和學習, 提升機器人的作業范圍. 2020 年美國 發布的 “機器人發展路線圖”以及 2021 年發布的 “無盡前沿法案”, 均將機器人與先進制造技術列為 發展重點; 而歐盟早在其 “火花計劃”、 “地平線 2020”等計劃, 以及日本發布的 “機器人新戰略”, 都著重強調了機器人的作業能力; 此外, 我國的 “智能制造 2025”等, 也明確了機器人在推動制造業 智能化轉型升級中將發揮重要作用[1?3] . 機器人感知與控制是實現機器人智能化作業的 關鍵核心技術. 機器人需要感知周圍環境和識別作 業對象, 從二維到多維信息的感知和融合, 實現快 速、精準的環境感知和目標識別, 充當機器人系統 “眼睛”. 感知環境之后, 結合智能規劃決策和自適 應控制等方法, 像 “大腦”一樣為機器人系統提供最 恰當的控制命令, 以使得機器人做出相應的動作和 反應. 近年來, 隨著深度學習, 大數據, 智能控制等 技術的快速發展, 機器人的智能感知與自主作業的 水平也在迅速提升. 如 DeepMind 開發的 AlphaGo, 可以讓機器人在不斷的游戲中自我學習與提高, 從 而實現更加智能的決策與控制; 特斯拉的人形機器 人, 其搭載了激光雷達、攝像頭、超聲波傳感器等, 用于感知周圍環境和避開障礙物, 還配備了一個自 主學習系統, 可以不斷學習和改進自己的行為和決 策, 從而更好地適應不同的任務和場景; 波士頓動 力的 Spot 機器狗, 可以與人類進行互動, 如識別和 追蹤人類, 并在人類的指示下執行指定任務如檢查 和搬運物體. 當前, 云計算、物聯網和大數據等新興信息通 信技術快速發展, 為機器人的高端制造應用提供了 新的思路和發展契機, 數字化、網絡化、智能化融合 創新引領未來工業發展已取得廣泛共識. 我國在 《十四五規劃和 2035 年遠景目標綱要》 也明確提出 要 “加快推進制造強國、質量強國建設, 深入實施 智能制造和綠色制造工程, 發展服務型制造新模式, 推動制造業高端化智能化綠色化”. 而傳統的人工 以及專機加工, 加工質量一致性差、效率低且只能 實現小批量生產, 已無法滿足智能制造需求. 區別 于傳統工業機器人簡單、重復性勞動, 高端制造機 器人是更信息化、網絡化、智能化、柔性化的機器人[4] . 在智能工廠中, 機器人的作業環境日益非結構化, 作業工序趨于柔性化, 作業對象日趨定制化, 生產 的動態性對機器人的環境感知與控制技術提出了越 來越高的要求. 在未來的智能工廠中, 變批量、多品 種、定制化、高柔性的生產模式將成為主流, 機器人 也將得到更加廣泛的應用, 機器人感知與控制技術 為智能工廠的高適應、高精度、智能化作業提供保障.

1 智能制造機器人共性關鍵技術

1.1 機器人感知關鍵技術

視覺感知是機器人系統的重要組成部分, 在復 雜的三維工業場景中利用視覺傳感器獲取周圍環境 的真實空間信息, 并進行預處理、配準融合以及空 間場景表面生成等過程, 實現對外界環境真實的刻 畫及數字模型的重建, 為機器人在工業制造中提供 豐富的二維和三維信息. 智能制造機器人通過視覺 等感知系統, 具備了實時觀察作業場景的能力, 可 以極大地增強其智能化程度, 如圖 1 所示. 本節將 對雙目三維環境感知、3D 點云配準、位姿估計等技 術進行介紹.

1.1.1 三維環境感知

三維環境感知是計算機視覺領域的核心, 它通 過模擬人類雙眼視覺系統的觀測原理, 利用雙目相 機對獲取圖像進行立體匹配得到圖像中像素點的準確視差, 結合雙目相機參數獲取周圍環境的準確深 度信息, 并利用機器學習算法實現場景目標感知識 別與定位 (圖 2). 機器人通過雙目視覺感知系統, 具 備了實時觀察作業場景的能力, 極大地增強了其智 能化程度, 能夠更加智能地完成復雜非結構化作業 環境下的各種加工作業任務。雙目立體匹配算法可劃分為匹配代價計算, 匹 配代價聚合, 視差計算, 視差優化等四個步驟[5] . 匹 配代價計算通過找出參考圖像 (通常為雙目圖像的 左圖像) 中待匹配像素與目標圖像 (通常為雙目圖 像的右圖像) 中候選像素的匹配對應關系. 為了提 高匹配代價計算方法的魯棒性, 代價匹配函數[6?7] 以 像素為中心的局部鄰域窗口為匹配單元, 計算參考 圖像與目標圖像中對應匹配像素間的相關性. Martin 等[6] 提出一種零均值歸一化互相關代價函數方 法, 可以補償圖像局部增益的變化, 并且可以消除 高斯噪聲的影響, 同時保持像素值的空間仿射一致 性. Zabih 和 Woodfill[7] 提出了 Rank 變換, 利用局 部區域像素值的相對次序性統計信息來實現匹配代 價計算. 匹配代價聚合[8?10] 主要通過對匹配代價空 間進行代價聚合來減少錯誤匹配或歧義匹配的像素 區域. 由于單個像素匹配代價的不穩定性, 代價聚 合往往在代價空間中通過對局部鄰域內的匹配代價 進行加權聚合, 來提高立體匹配算法的性能. Tomasi 等[8] 利用邊緣等特征信息, 采用傳統的雙邊濾 波器算法實現代價聚合. Zhang 等[11] 提出一種基于 非規則局部十字臂區域的代價聚合算法, 能夠很好 地利用場景的結構和輪廓等特征信息, 減少深度不 連續區域的視差估計誤差. 視差計算通常使用 WTA (Winner take all) 策略選取最佳匹配視差, 但是直 接使用 WTA 方法來計算視差可能會導致視差估計 誤差大. 因此, 為了獲得準確的視差估計結果, 視差 計算通常可以轉化為能量最小化與優化問題, 通過 構造能量函數, 求取能量函數的最小化來確定最優 視差, 如基于圖割[12] 的視差優化方法、基于置信度 傳播[13] 的視差優化方法、基于動態規劃[14] 的視差優 化方法和基于隨機行走[15] 的視差優化方法. 視差優 化是雙目立體匹配算法的后處理步驟, 來進一步優 化細化預測視差圖的誤差. 常用視差后處理算法主 要包括基于分割[16] 算法和基于置信度度量[17?19] 算 法. 基于分割的視差后處理方法通過利用雙目圖像 的邊緣和輪廓等圖像細節特征信息, 來引導視差優 化算法細化視差估計錯誤, 進一步提高雙目立體匹 配方法的性能. 如 Yan 等[20] 提出一種基于超像素分 割的視差優化算法來解決雙目立體匹配遮擋的問 題. 該方法利于超像素分割算法來提取圖像的邊緣 和輪廓特征信息, 并結合超像素分割圖預測出粗糙 的視差結果, 利用馬爾科夫隨機場在粗糙視差圖的 3D 鄰域空間中檢測并優化遮擋目標的匹配視差. 場景目標感知算法主要利用機器學習算法實現場景 目標感知識別、檢測與定位. 如 Yang 等提出一種 基于深度學習的單階段目標檢測網絡模型, 通過建 立一種目標預測解耦檢測新范式, 來合理推斷不同 目標的最合適位置, 實現目標識別與定位[21] . Wang 等提出一種新型邊緣保持和多尺度上下文神經網 絡, 高效生成具有尖銳對象邊界的顯著性特征圖, 實現高精度目標檢測, 解決傳統基于像素的卷積神 經網絡 (Convolutional neural network, CNN) 方 法由于卷積層和池化層而產生的模糊邊界問題[22]。裝備雙目視覺感知系統的機器人可以作為智能 制造自動化生產線中的生產作業單元, 承擔產品、 元件和零部件等目標物體的測量、檢測、識別與引導加工等作業任務. 根據機器人雙目視覺感知系統 的應用場景, 可將其劃分為識別、檢測、測量與定位 等四個方面的應用場景: 1) 基于雙目視覺的識別功 能[23] 是指識別目標物體的物理特征, 包括形狀、顏 色、字符、條形碼等, 其準確性和識別速度是衡量的 重要指標, 廣泛應用于機器人自動化產品識別、分 類與分揀中. 2) 雙目視覺檢測系統[24] 具有非接觸、 高效、低成本、自動化程度高等優點. 基于雙目視覺 的機器人自動化檢測能夠替代傳統的人工檢測, 解 放人工, 去除人工抽檢帶來的低效、誤檢與漏檢等 問題. 3) 通過基于雙目視覺的精密測量系統[25] , 機 器人可以獲得加工作業對象的形狀、位置、尺寸和 方向等作業信息, 比如打磨、焊接、銑邊等加工目標 的余量測量, 然后進一步在視覺的引導下進行加工 作業. 4) 基于雙目視覺定位的機器人作業[26] 是指通 過雙目視覺獲取目標物體的坐標和角度信息, 自動 判斷物體的位置, 來進一步引導機器人抓取、搬運、 焊接與裝配等.

1.1.2 3D 點云配準技術 3D 點云配準在工業場景具有重要應用, 通過 求解出同一坐標下不同姿態點云的變換矩陣, 利用 該矩陣實現多視點掃描點云的精確配準, 最終獲取 完整的 3D 數字模型, 在三維測量、逆向工程、即時 定位與建圖等領域有諸多應用。1.1.3 位姿估計技術 機器人在智能工廠中準確完成上料、裝配、分 揀、搬運任務, 必須利用視覺系統從作業場景中檢 測出目標物體并預測其三維位姿[49]

1.2 機器人規劃關鍵技術在智能工廠中, 機器人安全合理的運動規劃和 任務分配是實現高效、穩定和安全完成復雜作業任務的重要基礎. 在執行制造任務時, 考慮到狹小空 間以及機器人復雜多維結構, 如圖 4 所示, 機器人 有自主運動規劃能力, 能夠實現避碰規劃, 滿足由 機械結構環境等帶來的運動限制, 是機器人在智能 工廠中運行的必要因素.

1.3 機器人控制關鍵技術 在智能工廠中, 機器人的控制性能不僅影響到 最終的加工效果, 還影響到加工過程的安全. 高精、 高效、高柔性、高穩定性的控制策略為工件的安全 制造提供了保障 (圖 4).

2 智能制造機器人應用關鍵技術

2.1 復雜部件機器人三維測量三維測量在工業制造領域有大量的應用, 按照 基本功能可以分為尺寸測量、表面測量、坐標測 量[114] . 目前主流的工業三維測量方法包括, 激光跟 蹤儀、激光三角測量、攝影測量系統、結構光、飛行 時間技術等, 圖 6 為工業三維測量技術發展歷程. 三維測量包括數據獲取、數據處理、測量分析等主 要過程, 然而由于傳統手工測量方式在數據獲取過 程缺乏自主性, 需要引入視點規劃、點云配準等技術, 提高機器人三維測量的智能自主化程度.

2.2 復雜部件機器人力控磨拋

磨拋加工是表面改性技術的一種, 能夠有效提 高部件表面的平整度和光潔度, 獲取特定的表面粗 糙度, 消除焊接等加工過程中產生的應力, 具有柔 性靈活性強、作業效率高、加工一致性好等優點. KUKA、ABB、FANUC、YASKAWA 等機器人企 業均開展了磨拋機器人的應用研究. 如圖 9(a) 所 示, KUKA 公司研制的 KR 120 R2900 Fextra 機 器人, 通過將該機器人和負荷能力為 750 kg 的三軸 式定位裝置, 在不損傷工具且毛刺外形不同的情況 下, 能夠確保高標準、高質量完成打磨任務. 如圖 9(b) 所示, 奧地利 Fer Robotics 公司開發了基于氣控系 統的浮動打磨與拋光末端系統, 實現在單一方向上 的快速浮動打磨與拋光, 浮動力控制精度最高可達 到 1 N, 用戶通過快速簡便的編程, 在提升質量的 同時節約更多成本. 如圖 9(c) 所示, 加拿大 ESI 公 司依托自研的協作機器人, 開發了 E-Stial 柔性打 磨機器人工作站, 利用實時力控反饋、精密軌跡調 整、精密接觸力調整等先進技術實現了安全、穩定、 高效的拋光打磨作業, 克服了傳統磨拋方式調試時 間長、成品質量不一致等缺點. 美國 Carnegie Mellon University[133] 等科研機構從前沿理論探索的角 度對磨拋機器人進行了研究. 文獻 [134?135] 設計 了磨拋機器人模糊 PID 控制方法, 采用末端位置和 關節角度參數設計模糊規則, 使 PID 控制器參數在 每次采樣時在線更新, 提高了系統的響應速度和穩 態精度. 基于模糊邏輯方法[136] 和基于機器學習的方 法[137] 被用于對磨拋機器人關鍵模型信息進行估算, 從而減小對于模型信息的依賴. 國內的科研機構也對磨拋機器人的相關技術開 展了持續的研究, 華中科技大學陶波教授等針對大 型風電葉片加工區域大、形狀復雜、任務規劃難等 問題, 提出了基于幾何及任務信息的大型復雜構件 加工區域劃分方法[138] . Zhao 等以風電葉片表面打 磨為應用背景, 構建了大型復雜構件機器人移動打 磨硬件系統, 并在風電葉片表面打磨實驗中進行了 系統性驗證[139?140] .

2.3 機器人柔順智能裝配

軸孔類零部件裝配是工業機器人應用的重要場 景. 傳統機器人裝配按照示教或者離線編程所設定 的動作進行, 難以適應不斷變化的環境. 為滿足小 批量多品種的生產模式, 完成更加復雜的裝配任務, 現有研究通過將視覺傳感器、力傳感器和工業機器 人結合應用, 使機器人具備對周圍環境高度感知的 能力, 能夠根據環境變化做出相應調整Dietrich 等建立軸孔接觸狀態與力信息的關系 圖, 通過關系圖糾正軸孔之間的位姿誤差, 完成軸 孔裝配任務[141] . Liu 等提出了基于螺旋插裝策略的 飛機尾翼軸孔裝配方法[142] . Lefebvre 等[143] 提出機器人主動柔順控制方法, 通過接觸狀態規劃結合力 控算法, 能夠實現自主裝配運動. Abdullah 等[144] 建 立了裝配過程中軸孔之間的相對位置與接觸力/力 矩的映射關系, 并根據人為制定的決策規則來規劃 裝配運動軌跡.近年來基于強化學習的機器人裝配方法也受到 廣泛關注. 傳統機器人裝配方法中不具備自學習的 能力, 強化學習算法通過控制機器人和環境不斷接 觸試錯學習到合適裝配策略, 能夠自主完成復雜裝 配任務. Inoue 等提出了基于深度強化學習的高精 度軸孔裝配方法, 利用長短時記憶網絡和強化學習 算法結合有效的現實機器人裝配任務[145] . Chen 等 提出了一種基礎策略迭代的強化學習方法, 實現了 具有未知系統動態的連續時間系統的穩定控制[146] . Luo 等提出了面向齒輪的軸孔裝配任務的機器人控 制器, 通過最優控制方法生成裝配過程中的運動軌 跡, 能夠通過幾次訓練穩定的完成裝配任務[147]。

3 智能制造機器人典型應用案例

3.1 高端制造智能無人工廠

智能無人工廠也稱智慧工廠, 是在數字化工廠 的基礎上, 利用工業互聯網等技術提升工廠制造效 率和運營水平, 提高生產過程的可控率, 從而實現 制造企業的降本提質增效以及轉型升級. 按照德國 的 Scheer 教授提出的智能工廠構架理論, 智能工廠 可以分為基礎設施層、智能裝備層、智能產線層、智 能車間層和工廠管控層五個層級[148] . 隨著機器人、 人工智能及增材制造等新興技術信息迅速升級, 為 制造業推進智能工廠建設提供了良好的技術支撐. 德國梅賽德斯奔馳的 56 號工廠是按照工業 4.0 標準打造的未來工廠, 采用了無人運輸系統、數 字孿生、自動分揀等技術. 工廠大量的使用了 AGV 裝配線, 可以實現無軌裝配工位, 無軌自動運輸, 并 與自動分揀、DTS (Data transmission service) 系 統相匹配使用, 可實現多種車型混線生產. 在保 證大規模生產的同時, 也保障產品質量并降低生產 成本. 三一集團的 “18 號廠房”工程機械總裝車間, 采用 5G+AGV 小車完成智能分揀和精準配送, 在 智能化調度系統的控制下, 上百臺機器人能夠高效 協同工作 (圖 10); 采用 5G 高清傳感器, 組裝作業 時可以自動修復偏差, 減少因磕碰導致的質量缺陷; 大件激光切割軟件及系統, 在多品種鋼板物料特征 識別技術、基于激光測量的物料精確定位技術、激 光跟蹤與實時尋邊技術、機器人位姿魯棒控制與在 線補償技術以及基于激光尋邊的切割軌跡光順與優化技術等五個方面取得創新突破; 通過制造運營系 統、物流管理系統、遠程控制系統、智能搬運機器人 等系統優化運用與深度融合, 在數字化 “加持”下, 實現了從一塊鋼板進來到一臺整車出去的全流程自 動化生產.

3.2 高端制藥機器人智能檢測生產線

高端智能醫藥質量檢測主要是指通過新興的機 器人技術來代替人工進行質量檢測的過程. 相比于 傳統人工檢測而言, 它具有穩定性好、持續工作時 間長、精度和效率高等優點. 日本 Eisai 公司、德國 Brevetti CEA 集團、意大利 Seidenader 等企業紛 紛開展機器人醫藥檢測技術研究.我國制藥裝備需求量大, 醫藥制造裝備的性能 是保證藥品質量的基礎. 為解決傳統藥品質量檢測 環節依賴人工、漏檢、誤檢頻發等問題, 需研制高端 制藥機器人視覺檢測控制關鍵技術與裝備, 實現制 藥過程無菌化、無人化生產, 保障藥品質量安全. 高 端無菌化制藥機器人面臨的主要挑戰包括: 制藥技 術裝備工藝復雜, 無菌化控制難; 制藥過程污染顆 粒微小、種類多、檢測難; 高端制藥過程中多工序、 多任務、多機器的協同控制難. 湖南大學團隊針對 高端制藥裝備感知與控制的重大需求, 攻克高端制 藥灌裝封口機器人協作控制、高端制藥檢測機器人 視覺識別、高端制藥分揀機器人視覺控制等關鍵技 術, 研制出無菌化配藥雙臂機器人、藥品灌裝?轉運? 封口機器人、藥品質量視覺檢測機器人、藥品分揀 機器人等自動化生產線裝備, 如圖 11 所示

基于機器視覺的醫藥檢測是在藥物出廠前, 通 過對藥物的運動圖像或視頻進行分析和處理, 從而 實現對藥物的一系列質量檢測, 例如, 液體環境中 的外來異物檢測、凍干粉中的雜質檢測、外包裝和 標簽檢測等. 針對安瓿瓶型, Ge 等設計了一種自動 檢測安瓿注射雜質的系統, 采用空間在線極限學習 機算法, 驗證了該算法在區分氣泡和異物上的可行 性[149] . 針對藥液中的不溶異物檢測方法, 張輝等提 出了一種可行的高速度、高精度的機器視覺檢測方 法, 能在線檢測 30 多種微弱異物, 檢測精度達到 50 μm, 異物檢出率 99.7% 以上, 滿足醫藥微弱異物種類繁 多、特征多樣、高速高精度的在線檢測要求[150] .

4 智能制造機器人發展趨勢及挑戰

當前, 云計算、物聯網和大數據等新興信息通 信技術快速發展, 為高端制造業的發展提供了新的 思路和契機.

**1) “云?邊?端”融合的智能制造. **“云?邊?端” 融合的作業模式通過深度感知制造過程中生產實體 的特性和狀態, 動態/在線地在工業云 (云) 和生產 單元 (邊、端) 間進行數據交換和計算分發, 進而高 效、無縫、透明地協同使用云端和邊緣端的計算、存 儲及數據等資源, 以實現網絡化、智能化、柔性化生 產. 在智能制造機器人協同作業場景中, 在 “云?邊? 端”融合的架構集成了通信與計算技術, 克服了個 體設備信息存儲和計算資源等的固有局限, 能夠較 好地支撐機器人系統運行 (如圖 12). 有效地建立云 邊融合的網絡架構, 加強云邊端協同、智能共享的 頂層設計, 將是未來智能制造機器人研究的重點.

2) 新一代智能制造系統由通信、計算、感知、 控制與安全體系等組成, 通過新一代人工智能技術, 智能制造系統將具備 “感知?決策?執行”的閉環特 征, 而在動態環境中構建機器人的感知?決策?控制 協同作業機制具有重要意義. 在工業互聯網平臺設 備互聯互通的基礎上, 利用分布式傳感技術實現生 產場景要素的全面感知, 以適應復雜制造場景下感 知對象異構、干擾因素多等挑戰; 靈活運用集中式、 分布式與群體智能, 建立安全高效、強魯棒、易擴展 的任務調度和動態規劃體系, 設計機器人自主決策 機制, 保障大規模制造任務和工序井然有序地運行.

**3) 人機融合智能. **人機融合技術不斷深化, 標 準化結構、柔性人機交互技術不斷發展, 促進智能 制造領域工業機器人的便捷性和可靠程度越來越 高. 人機融合在智能機器人生產設計中, 越來越受 到重視. 人機協同既具備人類認知能力, 又具備機 器人的高效率, 通過人類與機器人的智能協作, 能夠完成復雜的加工、裝配等任務, 同時提升了安全 性與便捷性, 是人機融合的一個重要發展方向. 同 時, 隨著機器人技術日益成熟、智能倉儲機器人等 產品的快速發展, 人機協作技術在電子、建筑、家居 等一般行業的應用也在迅速演進.

**4) 集群機器人技術. **智能制造機器人涉及先進 信息技術、機器人技術、自動化技術以及機械工程 與材料工程交叉融合等前沿制造技術. 面對大規模 的智能制造任務, 機器人往往處于分散、低連通環 境, 為適應需求多變、異構感知對象、突發問題等情 況, 需根據特定感知任務, 準確描述跨域多實體、多 機器的動態協作關系, 進而探索自適應的群組動態 協作感知與融合策略, 實現智能制造機器人的跨域 融合感知. 還需在動態和多維信息收集的基礎上, 對復雜問題進行自主識別、判斷、推理, 并做出實時 性的決策, 實現集群機器人的精準感知與實時規劃, 集群機器人有望在新一代智能制造系統發揮重要作 用, 如圖 13 所示.

5 結論 隨著新一輪工業革命的到來以及人工智能、云 計算、物聯網技術的快速發展, 世界主要工業國家 都開始加快機器人技術戰略部署. 本文首先對機器 人感知與控制的關鍵共性技術進行了綜述和介紹, 如三維環境感知、3D 點云配準技術、位姿估計技術、 運動規劃技術、多機協同規劃、精準控制技術、柔順 控制技術、視覺伺服技術等. 然后介紹了機器人應 用的關鍵技術, 如機器人三維測量、機器人加工與 裝配等, 最后總結了機器人系統在智能制造領域應 用典型案例, 并探討了智能制造機器人的發展趨勢 和所面臨的挑戰.

付費5元查看完整內容

推理是人類智能的一個基本方面,在解決問題、決策和批判性思考等活動中起著至關重要的作用。近年來,大型語言模型(LLMs)在自然語言處理方面取得了重大進展,有人觀察到這些模型在足夠大的時候可能會表現出推理能力。然而,目前還不清楚LLMs的推理能力到何種程度。

本文對LLM推理的知識現狀進行了全面的概述,包括改進和誘導這些模型推理的技術、評估推理能力的方法和基準、該領域以前研究的發現和影響,以及對未來方向的建議。我們的目標是對這一主題提供詳細和最新的回顧,并激發有意義的討論和未來的工作。

//www.zhuanzhi.ai/paper/10caab0b58fcf5f8ddf7943e1a6060d5

1. 引言

推理是一種認知過程,包括使用證據、論據和邏輯來得出結論或做出判斷。它在許多智力活動中起著核心作用,如解決問題、決策和批判性思考。對推理的研究在心理學(Wason and Johnson-Laird, 1972)、哲學(Passmore, 1961)和計算機科學(Huth and Ryan, 2004)等領域很重要,因為它可以幫助個人做出決定、解決問題和批判性地思考。

**最近,大型語言模型(LLMs) (Brown et al., 2020; Chowdhery et al., 2022; Chung et al., 2022; Shoeybi et al., 2019, inter alia)在自然語言處理及相關領域取得了重大進展。**研究表明,當這些模型足夠大時,它們會表現出緊急行為,包括"推理"的能力(Wei等人,2022a)。例如,通過為模型提供"思維鏈",即推理范例,或簡單的提示" Let 's think step by step ",這些模型能夠以明確的推理步驟回答問題(Wei et al., 2022b;Kojima et al., 2022),例如,“所有鯨魚都是哺乳動物,所有哺乳動物都有腎臟;因此,所有的鯨魚都有腎臟。”這引發了社區的極大興趣,因為推理能力是人類智能的一個標志,而在當前的人工智能系統中,推理能力經常被認為是缺失的(Marcus, 2020; Russin et al., 2020; Mitchell, 2021; Bommasani et al., 2021)。

然而,盡管LLM在某些推理任務上表現強勁,但目前尚不清楚LLM是否真的在推理,以及它們在多大程度上能夠推理。例如,Kojima等人(2022)聲稱“LLMs是不錯的零次推理器(第1頁)”,而Valmeekam等人(2022)得出結論,“LLMs在對人類來說沒有問題的常見規劃/推理任務上仍然遠遠沒有達到可接受的性能(第2頁)。”Wei等人(2022b)也指出了這一局限性:“我們認為,盡管思維鏈模擬了人類推理的思維過程,但這并沒有回答神經網絡是否實際上是推理(第9頁)。

本文旨在對這一快速發展的主題的知識現狀進行全面概述。專注于改善LLM中推理的技術(§3);LLMs中衡量推理的方法和基準(§4);這一領域的發現和意義(§5);以及對該領域現狀的反思和討論(§6)。

2. 什么是推理?

推理是用邏輯和系統的方式思考某事的過程,利用證據和過去的經驗來得出結論或做出決定(Wason and Johnson-Laird, 1972; Wason, 1968; Galotti, 1989; Fagin et al., 2004; McHugh and Way, 2018)。推理包括根據現有信息進行推理、評估論點和得出邏輯結論。“推理”雖然是文學和日常生活中常用的術語,但它也是一個抽象的概念,可以指代很多事物。為了幫助讀者更好地理解這個概念,我們總結了幾種常見的推理類型:

演繹推理。演繹推理是一種基于前提的真實性而得出結論的推理。在演繹推理中,結論必須從前提中得出,這意味著如果前提為真,結論也必須為真。前提:所有哺乳動物都有腎臟。前提:所有鯨魚都是哺乳動物。結論:所有鯨魚都有腎臟。

歸納推理。歸納推理是一種基于觀察或證據得出結論的推理。根據現有的證據,這個結論很可能是正確的,但不一定是肯定的。觀察:我們每次看到有翅膀的生物,它就是鳥。觀察:我們看到一個有翅膀的生物。結論:這個生物很可能是一只鳥。

溯因推理。溯因推理是一種推理,它是在對一組給定的觀察做出最佳解釋的基礎上得出結論的。根據現有的證據,這一結論是最可能的解釋,但不一定是肯定的。觀察:汽車無法啟動,引擎下有一灘液體。結論: 最可能的解釋是汽車的散熱器有一個泄漏

3. 大語言模型中的推理

推理,尤其是多步推理,通常被視為語言模型和其他NLP模型的弱點(Bommasani et al., 2021; Rae et al., 2021; Valmeekam et al., 2022)。最近的研究表明,在一定規模的語言模型中可能會出現推理能力,例如具有超過1000億個參數的模型(Wei et al., 2022a,b;Cobbe等人,2021)。在本文中,我們遵循Wei等人(2022a)的觀點,將推理視為一種在小規模模型中很少出現的能力,因此關注于適用于改進或引出大規模模型中的“推理”的技術。

3.1 全監督微調

在討論大型語言模型中的推理之前,值得一提的是,有研究正在通過對特定數據集的全監督微調來激發/改進小型語言模型中的推理。例如,Rajani等人(2019)對預訓練的GPT模型進行微調(Radford等人,2018),以生成用構建的CoS-E數據集解釋模型預測的理由,并發現經過解釋訓練的模型在常識性問答任務上表現更好(Talmor等人,2019)。Talmor等人(2020)訓練RoBERTa (Liu等人,2019)基于隱式預訓練知識和顯式自由文本語句進行推理/推理。Hendrycks等人(2021)對預訓練語言模型進行微調,通過生成完整的分步解決方案來解決競賽數學問題,盡管準確性相對較低。Nye等人(2021)在產生最終答案之前,通過生成" scratchpad ",即中間計算,訓練語言模型進行程序合成/執行的多步驟推理。全監督微調有兩個主要限制。首先,它需要一個包含顯式推理的數據集,這可能很難和耗時創建。此外,模型僅在特定數據集上進行訓練,這將限制其應用于特定領域,并可能導致模型依賴于訓練數據中的工件而不是實際推理來進行預測。

3.2 提示與上下文學習

大型語言模型,如GPT-3 (Brown et al., 2020)和PaLM (Chowdhery et al., 2022),通過上下文學習在各種任務中表現出顯著的少樣本性能。這些模型可以通過一個問題和一些輸入、輸出的范例來提示,以潛在地通過“推理”(隱式或顯式)解決問題。然而,研究表明,這些模型在需要多個步驟推理來解決的任務方面仍然不理想(Bommasani et al., 2021; Rae et al., 2021; Valmeekam et al., 2022)。這可能是由于缺乏對這些模型的全部能力的探索,正如最近的研究所表明的那樣。

3.3 混合法

雖然"提示"技術可以幫助引出或更好地利用大型語言模型中的推理來解決推理任務,但它們實際上并沒有提高LLM本身的推理能力,因為模型的參數保持不變。相比之下,“混合方法”旨在同時提高LLM的推理能力,并更好地利用這些模型來解決復雜問題。這種方法既包括增強LLM的推理能力,也包括使用提示等技術來有效利用這些能力。

4 度量大型語言模型的推理能力

文獻中一直關注使用推理任務的下游性能作為模型"推理"能力的主要衡量標準。然而,直接分析這些模型產生的原理的工作相對較少。本節總結了評估LLM推理能力的方法和基準。

4.1 下游任務性能

衡量LLM推理能力的一種方法是評估它們在需要推理的任務上的表現。有各種現有的基準可用于此目的,組織如下。

**數學推理。**算術推理是理解和應用數學概念和原理以解決涉及算術運算的問題的能力。這涉及到在解決數學問題時使用邏輯思維和數學原理來確定正確的行動方案。算術推理的代表性基準包括GSM8K (Cobbe et al., 2021), Math (Hendrycks et al., 2021), MathQA (Amini et al., 2019), SVAMP (Patel et al., 2021), ASDiv (Miao et al., 2020), AQuA (Ling et al., 2017), and MAWPS (Roy and Roth, 2015).。值得一提的是,Anil等人(2022)生成了奇偶校驗數據集和布爾變量賦值數據集,用于分析LLMs的長度泛化能力(§3.3.1)。

**常識推理。**常識推理是利用日常知識和理解對新情況作出判斷和預測。這是人類智能的一個基本方面,它使我們能夠在環境中導航,理解他人,并在信息不完整的情況下做出決定。可用于測試llm常識推理能力的基準包括CSQA (Talmor et al., 2019), StrategyQA (Geva et al., 2021), and ARC (Clark et al., 2018)。我們建議讀者參考Bhargava和Ng(2022)的調研,以了解該領域的更多工作。

**符號推理。**符號推理是一種根據形式規則對符號進行操作的推理形式。在符號推理中,我們使用抽象的符號來表示概念和關系,然后根據精確的規則對這些符號進行操作,從而得出結論或解決問題。

4.2 推理的形式化分析

盡管LLM在各種推理任務中表現出令人印象深刻的性能,但它們的預測在多大程度上是基于真正的推理還是簡單的啟發式,并不總是很清楚。這是因為大多數現有評估側重于它們對下游任務的準確性,而不是直接評估它們的推理步驟。雖然對LLMs生成的原理進行了一些誤差分析(Wei et al., 2022b; Kojima et al., 2022, inter alia),這種分析的深度往往有限。已經有一些努力來開發指標和基準,以便對LLM中的推理進行更正式的分析。Golovneva等人(2022)設計了ROSCOE,一套可解釋的、詳細的分步評估指標,涵蓋了語義對齊、邏輯推理、語義相似度和語言一致性等多個角度。Saparov和他(2022)創建了一個名為PrOntoQA的合成數據集,該數據集是根據真實或虛構的本體生成的。數據集中的每個示例都有一個唯一的證明,可以轉換為簡單的句子,然后再轉換回來,允許對每個推理步驟進行形式化分析。Han等人(2022)引入了一個名為FOLIO的數據集來測試LLM的一階邏輯推理能力。FOLIO包含一階邏輯推理問題,需要模型在給定一組前提的情況下確定結論的正確性。總之,大多數現有研究主要報告了模型在下游推理任務中的表現,沒有詳細檢查產生的基礎的質量。這留下了一個問題,即模型是否真的能夠以類似于人類推理的方式進行推理,或者它們是否能夠通過其他方法在任務上取得良好的性能。還需要進一步的研究來更正式地分析LLM的推理能力。

付費5元查看完整內容

近年來,國內外在新一代知識圖譜的關鍵技術和理論方面取得了一定進展,以知識圖譜為載體 的典型應用也逐漸走進各個行業領域,包括智能問答、推薦系統、個人助手等.然而,在大數據環境和新 基建背景下,數據對象和交互方式的日益豐富和變化, 對新一代知識圖譜在基礎理論、體系架構、關鍵技 術等方面提出新的需求,帶來新的挑戰.將綜述國內外新一代知識圖譜的關鍵技術研究發展現狀,重點 從非結構化多模態數據組織與理解、大規模動態圖譜表示學習與預訓練模型、神經符號結合的知識更新 與推理3方面對國內外研究的最新進展進行歸納、比較和分析.最后,就未來的技術挑戰和研究方向進 行展望。

伴隨著過去10年浪潮,人工智能發展方興未 艾,正處于由感知智能到認知智能轉變的關鍵時期. 知識圖譜作為大數據時代的知識工程集大成者,是 符號主義與連接主義相結合的產物,是實現認知智 能的基石.知識圖譜以其強大的語義表達能力、存儲 能力和推理能力,為互聯網時代的數據知識化組織 和智能應用提供了有效的解決方案.因此,新一代知 識圖譜的關鍵技術研究逐漸受到來自工業界和學術 界的廣泛關注.

知識 圖 譜 最 早 于 2012 年 由 Google 正 式 提 出[1],其初衷是為了改善搜索,提升用戶搜索體驗. 知識圖譜至今沒有統一的定義,在維基百科中的定 義為:“Google知識圖譜(Googleknowledgegraph) 是 Google的一個知識庫,其使用語義檢索從多種來 源收集信息,以提高 Google搜索的質量.”從當前知 識圖譜的發展看來,此定義顯然是不夠全面的,當前 知識圖譜的應用儼然遠超其最初始的搜索場景,已 經廣泛應用于搜索、問答、推薦等場景中.比較普遍 被接受的一種定義為“知識圖譜本質上是一種語義 網絡(semanticnetwork),網絡中的結點代表實體 (entity)或者概念(concept),邊代表實體∕概念之間 的各種語義關系”.一種更為寬泛的定義為“使用圖 (graph)作為媒介來組織與利用不同類型的大規模 數據,并表達明確的通用或領域知識”.從覆蓋的領 域來看,知識圖譜可以分為通用知識圖譜和行業知 識圖譜;前者面向開放領域,而后者則面向特定的行 業.隨著知識圖譜在各行業的應用落地,知識圖譜技 術的相關研究得到了大量研究者的關注.以知識圖 譜為基礎的典型應用也逐漸走進各個行業領域,包 括智能問答、推薦系統、個人助手、戰場指揮系統等.

傳統的知識圖譜研究領域主要圍繞傳統的數據 存儲、知識獲取、本體融合、邏輯推理以及知識圖譜 應用等方面.文獻[2]詳細綜合和分析了知識圖譜存 儲管理最新的研究進展.文獻[3]從知識表示學習、 知識獲取與知識補全、時態知識圖譜和知識圖譜應 用等方面進行了全面的綜述.文獻[4]則重點對面向 知識圖譜的知識推理相關研究進行了綜述.

然而,在大數據環境和新基建背景下,數據對象 和交互方式的日益豐富和變化,對新一代知識圖譜 在基礎理論和關鍵技術等方面提出新的需求,也帶 來新的挑戰.和已有的知識圖譜研究綜述相比,本文 將從眾多最新的知識圖譜研究方法中,對3方面的 新一代知識圖譜關鍵技術和理論做分析:1)非結構化多模態數據組織與理解; 2)大規模動態圖譜表示學習與預訓練模型; 3)神經符號結合的知識更新與推理. 本文將綜述國內外新一代知識圖譜關鍵技術研 究發展現狀,對國內外研究的最新進展進行歸納、比 較和分析,就未來的技術挑戰和研究方向進行展望.

1. 非結構化多模態數據組織與理解

1.1 非結構化多模態數據組織

“模態”的定義較多,可以直觀地理解為不同類 型的多媒體數據,也可以作為一個更加細粒度的概 念,區分模態的關鍵點可以理解為數據是否具有異 構性.例如,對于某個歌手,互聯網上可以找到他的 照片和歌曲視頻,同時也有相關的文本信息(百科、 新聞等)以及具體的歌曲音頻.圖片、視頻、文本、語 音這4種數據,可以被理解為該對象的多模態數據.目前主要的非結構化多模態知識圖譜如表1所示:

DBpedia [5]作為近10年來知識圖譜研究領域的 核心數據集,其豐富的語義信息中也包含了大量的 非結 構 化 數 據,如 文 本 描 述 和 實 體 圖 片.目 前 DBpedia包含了超過260萬個實體,且每個實體具 有唯一的全局標識符.以此為基礎,越來越多的數據 發布者 將 自 己 的 數 據 通 過 SameAs 關 系 鏈 接 到 DBpedia資源,使 DBpedia一定程度上成為多類型 數據組織的中心.目前,圍繞 DBpedia的互聯網數據 源網絡提供了約47億條信息,涵蓋地理信息、人、基 因、藥物、圖書、科技出版社等多個領域.

Wikidata [6]中也存在大量的多模態數據資源, 它是維基媒體基金會(WikimediaFoundation)推出 的知識圖譜,也是維基媒體數據組織和管理的核心 項目.Wikidata充分利用了知識圖譜的圖數據模型, 綜合了 Wikivoyage,Wiktionary,Wikisource等各類 結構化和非結構化數據,其目標是通過創造維基百 科全球管理數據的新方法來克服多類數據的不一致 性,已經成為維基媒體最活躍的項目之一,越來越多 的網站都從 Wikidata獲取內容以嵌入提供的頁面 瀏覽服務. IMGPedia [7]是多模態知識圖譜的早期嘗試.相 較于 DBpedia和 Wikidata,其更關注在已有的知識 圖譜中補充非結構化的圖片信息.

IMGPedia的核心 思路是首先提取 WikimediaCommons中的多媒體 資源(主要是圖片),然后基于多媒體內容生成特征 用于視覺相似性的計算,最后通過定義相似關系的 方式將圖片內容信息引入到知識圖譜中,此外其還 鏈接了 DBpedia和 DBpediaCommons來提供上下 文和元數據.IMGPedia的優勢在于開創性地定義了 知識圖譜中圖像 內 容 的“描 述 符”,也 就 是 視 覺 實 體屬性(諸如灰 度 等),同 時 根 據 這 些 描 述 符 去 計算圖片相似度,方便人們進行相似圖片的查找.但 IMGPedia中定義的“描述符”種類較少,且圖片之 間的關系單一.

MMKG [8]項目旨在對不同知識圖譜(Freebase, YAGO,DBpedia)的實體和圖片資源進行對齊.其通 過對3個知識圖譜(Freebase15k,YAGO15k,DB15k, 均為從原始的知識圖譜中獲得的知識圖譜子集)進 行實體對齊,以及數值、圖片資源與實體的綁定,構 建了一個包含3個知識圖譜子集的多模態數據集 合.MMKG 包含的3個知識圖譜既有諸多對齊的實 體,又有各自不同的拓撲結構.值得一提的是,MMKG 的目標并非是提供一個多模態知識圖譜,而是定義 一個包含多模態信息的評估知識圖譜實體對齊技術 的基準數據集.但是其本質上還是以傳統的知識圖 譜為主,規模很小同時也沒有充分收集和挖掘互聯 網上多種類型的多模態數據,在將圖像分發給相關 文本實體時也未曾考慮圖像的多樣性.

KgBench [9]和 MMKG 類似,在 RDF 編碼的知 識圖譜上引入了一組新的實體分類基準多模態數據 集.對于多個知識圖譜基準實體分類任務,提供至少 1000個實例的測試和驗證集,有些實例超過10000 個,每個實例包含了多種模態的數據描述和特征.每 個任務都能夠以知識圖譜結構特征進行評估,或者 使用多模態信息來實驗.所有數據集都以 CSV 格式 打包,并提供 RDF格式的源數據和源代碼. 東南大學的 Wang等人[10]提出的多模態圖譜 Richpedia,是目前國內在多模態知識圖譜領域的代 表工作.其核心思路延續了知識圖譜的基本數據模 型,在 RDF框架下對現有的知識圖譜進行擴充(主 要是包含視覺信息的圖片實體),使其變為多模態知 識圖譜.相較之前的多模態知識圖譜,該工作的最大 貢獻在于收集與實體相關圖片的同時,利用圖片的 配文來識 別 圖 片 中 所 包 含 的 其 他 實 體,進 而 在 跨 模態實體之間的語義關系發現方面取得了顯著效果 提升.

西安交通大學的鄭慶華等人[11G12]提出了知識森 林的概念,旨在針對智慧教育領域的多模態數據,實 現基于知識森林數據模型的組織與個性化導學.知 識森林的特點在于針對教育領域的垂域特點,用自 然語言處理、圖像識別等人工智能技術突破了教育 領域給定課程科目的知識森林自動構建,研制了知 識森林 AR 交互系統,緩解學習過程中人機可視化 交互難題.知識森林的多模態類型不再局限于文本 和圖像的范疇,增加了與視頻數據交互的能力.

百度知識圖譜近年來也逐漸向多模態知識圖譜演變.基于海量互聯網資源,百度構建了超大規模的 通用知識圖譜,并隨著文本、語音、視覺等智能技術 的不斷深入,以及行業智能化訴求的提升,百度近年 來一直致力于知識圖譜在復雜知識表示、多模態語 義理解、行業圖譜構建和應用,其挖掘的多模態知識 在圖文視頻的基礎上,加入了更多語音數據來豐富 多模態知識圖譜的內容.

1.2 多模態數據理解

多模態數據理解旨在實現處理和理解不同模態 信息之間共同表達語義的能力.整體上,和知識圖譜 相關的多模態數據的理解主要分為基于本體的多模 態語義理解和基于機器學習的多模態語義理解.基 于本體的多模態語義理解是比較早期的工作,均和 知識圖譜相關,其主要活躍于深度學習的浪潮興起 之前,代表性的工作為 LSCOM(largeGscaleconcept ontologyformultimedia)[13]和COMM(coreontology formultimedia)[14]. LSCOM [13]是 一 個 由 IBM、卡 內 基 梅 隆 大 學 (CarnegieMellonUniversity,CMU)和哥倫比亞大 學領導開發的多模態大規模概念本體協作編輯任 務.在這項工作中,CyC公司與很多學術研究和工業 團體均有參與.其整個過程包含了一系列學術研討 會,來自多個領域的專家聚集在一起,創建了描述廣 播新聞視頻的1000個概念的分類.LSCOM 中對多 模態數據的實用性、覆蓋率、可行性和可觀察性制 定了 多 個 標 準.除 了 對 1000 個 概 念 進 行 分 類 外, LSCOM 還生成了一組用例和查詢,以及廣播新聞 視頻的大型注釋數據集. COMM [14]是由德國、荷蘭以及葡萄牙的研究團 隊聯合推出的多模態本體,其誕生的主要動機在于 LSCOM 為多模態數據語義分析研究創建了一個統 一的框架,但并沒有一個高質量的多模態本體正式 描述,也缺乏與已有的語義 Web技術兼容.針對此 問題,COMM 定義了一個基于 MPEGG7的多模態 本體,由多模態數據模式組成,滿足了本體框架的基 本要求,并且在 OWLDL 中完全形式化.基于本體 的多模態語義理解要求高質量的本體編輯以及精細 粒度的數據描述,因此 COMM 和 LSCOM 并沒有 很好地發展起來.

基于機器學習的多模態語義理解[15]是目前多 模態數據理解的主流方法,和知識圖譜的聯系主要 是利用多模態表示學習方法實現知識補全或應用到 下游任務中.多模態表示學習是指通過利用不同多 模態數據之間的互補性,剔除模態冗余性,從而將多 模態數據的語義表征為實值向量,該實值向量蘊含 了不同模態數據的共同語義和各自特有的特征,如 圖1所示.代表性的工作如 Srivastava等人[16]通過 深度玻爾茲曼機實現圖像和文本的聯合空間生成, 在此基礎上實現多模態數據的統一表示.

多 模 態 知 識 圖 譜 表 示 學 習 的 代 表 性 工 作 是 MoussellyGSergieh等人[17]將視覺特征、文本特征和 知識圖譜的結構特征共同學習成統一的知識嵌入, 在此 過 程 中 使 用 SimpleConcatenation,DeViSE,Imagined這3種不同的方法來集成多模態信息,最 終實現了知識圖譜的多模態表示學習,生成了蘊含 多種模態特征的知識圖譜實體和關系實值向量,相 較于傳統的基于結構的知識圖譜表示學習,其在鏈 接預測和實體分類任務上的效果均有提升.

GAIA [18]是最近提出的一個細粒度的多模態知 識抽取、理解和組織框架,旨在提取不同來源的異構 多媒體數據(包括多模態、多語言等),生成連續的結 構化知識,同時提供一個豐富的細粒度的多模態數 據描述本體.GAIA 整個系統主要有3個優勢:1)大 量使用計算機視覺和自然語言處理的深度學習框架 和其他知識圖譜算法作為其底層模塊,通過結合不 同領域的技術實現了特別是對于圖片資源的實體識 別和多模態實體鏈接,相較于之前的IMGPedia,這 樣的處理保證了對圖片內容細粒度識別的進一步深 入,而對于文本資源,也實現了實體識別和關系抽 取.2)相較于粗粒度的實體,細粒度可以保證內容查 詢的靈活性和更強的易用性,例如對場景的理解和 事件預測,故可以更廣泛地用于實際應用中.3)通過 將圖片和文本實體進行實體鏈接、關系抽取等處理, 實現了多模態知識融合和知識推理,充分利用了多 模態的優勢.GAIA 所提出的多模態知識圖譜提取 框架是當前比較全面的一種范式,有著較好的借鑒 意義.

北京大學的 Peng等人[19]提出了跨媒體智能的 概念,該概念和多模態數據理解的思路類似,其借鑒 人腦跨越視覺、聽覺、語言等不同感官信息認知外部 世界的特性,重點研究了跨媒體分析推理技術中的任 務和目標,包括細粒度圖像分類、跨媒體檢索、文本 生成圖像、視頻描述生成等.其代表性的工作為 PKU FGGXmedia [20],是第1個包含4種媒體類型(圖像、 文本、視頻和音頻)的細粒度跨媒體檢索公開數據集 和評測基準,并且在此基礎上提出了能夠同時學習 4種媒體統一表征的深度網絡模型 FGCrossNet.

中國科學院自動化研究所的張瑩瑩等人[21]提 出了一個基于多模態知識感知注意力機制的問答模 型.該模型首先學習知識圖譜中實體的多模態表示; 然后從多模態知識圖譜中與問答對相關聯的實體的 路徑來推測出回答該問題時的邏輯,并刻畫問答對 之間的交互系.此外,該模型還提出了一種注意力 機制來判別連接問答對的不同路徑之間的重要性.

清華大學的 Liu等人[22]最早在多模態知識圖 譜表示學習方面開展了研究,代表性的工作是IKRL, 其將視覺特征和知識圖譜的結構特征進行聯合表示 學習,進而通過不同模態信息之間的約束生成質量 更高的知識圖譜嵌入. 華南理工大學的 Cai等人[23]提出一種結合圖 像信息和文本信息的神經網絡來對 Twitter等短文 本中的實體進行識別和消歧.其核心思想是將視覺 和文本信息通過表示學習生成的嵌入連接起來,并 且為細粒 度 的 信 息 交 互 引 入 了 共 同 關 注 機 制.在 Twitter數據集上的實驗結果表明,其方法優于單 純依賴文本信息的方法. 中國科學技術大學的 Xu等人[24]在多模態信息 理解與關聯方面探索了如何有效聯合映射與建模跨 模態信息,進而從視頻概括性描述深入至實體間語 義關系,實現視覺元素多層次、多維度語義理解與關 聯,以形成對視頻等多模態內容更為全面的解析,有 效解讀其中的語義信息,進而為支撐面向多模態內 容的智能應用服務奠定重要基礎.其代表性的工作 為 MMEA [24],針對多模態知識圖譜的實體對齊問 題,設計了一種多視圖知識嵌入方法,實現多模態知 識圖譜實體對齊效果的提升.

國防科技大學的 Zhao等人[25]在多模態知識圖 譜的實體對齊任務上進一步進行了探索,其主要將 多模態實體對齊任務從歐氏空間拓展到了雙曲空間 進行建模表示,最終利用雙曲空間內的圖卷積網絡 和視覺特征抽取模型 DENSENET 實現了多個數據 集上的實體對齊效果.

2 大規模動態圖譜表示學習與預訓練模型

2.1 大規模動態表示學習

知識圖譜的本質是一種語義網絡,亦是一種特 殊的圖.動態知識圖譜同樣是一種特殊的動態圖.但 是因為知識圖譜的特殊性,動態知識圖譜可以被分 為2類:一類是時序動態知識圖譜,其中蘊含著時間 特征,知識圖譜的結構、實體和關系都會隨著時間的 推移發生改變;另一類是非時序動態知識圖譜,這類 知識圖譜中沒有顯式的時間特征,但是知識圖譜會 發生更新,有新的實體和關系添加到原有的知識圖 譜中.一般情況來說,已存在知識圖譜中的實體和關 系不會發生改變.

1)時序的動態知識圖譜表示學習

時序知識圖譜是一種特殊的知識圖譜,其相比 傳統的靜態知識圖譜多了時間信息,知識圖譜中的知識不是靜態不變的,反而是因為時間的變化,知識 三元組發生改變.如表2中所總結,我們根據其對時 間信息處理方式的差異將所有算法模型分為三大 類:具有時間約束的歷時性時序知識圖譜表示模型、 基于時間序列編碼的時序知識圖譜表示模型和基于 路徑推理的時序知識圖譜表示模型.其中在各通用 數據上表現最佳的模型為2021年Zhu等人[26]提出 的 CyGNet,其模型結構如圖2所示.

2) 非時序的動態知識圖譜表示學習

對于非時序動態知識圖譜,其在應用和更新過 程中,可以加入新的實體和關系,新實體與原有實體 構成的三元組只要在現實應用場景下為正確的,則可 將此三元組納入到原有的知識圖譜中.所以非時序動 態知識圖譜的規模是可以隨著現實情況不斷增大的, 被認為是一種動態變化的知識圖譜.針對非時序知識 圖譜,其中最初的模型是在原有的 DKRL模型[34]上 進行簡單的更改,直接應用于開放世界知識圖譜上, 其效果相比其他靜態的算法有所提高,成為了這個任務的一個基準結果,其模型基礎框架如圖3所示. DKRL的優勢不僅在于提升了實體表示的區分能 力,而且更在于其對新實體的表示,當一個未在知識 圖譜中出現的新實體出現時,DKRL 將根據新實體 的簡短描述生成它的表示,用于知識圖譜補全.

Shi等人[35]提出了一種以文本為中心的表示方 法 ConMask,其中頭實體、關系和尾實體基于文本 的向量表示是通過注意力模型在名稱和描述上得出 的,并且通過全卷積 神 經 網 絡 (fullyconvolutional neuralnetwork)得到三元組的評分,最后通過評分 完成實體與關系的預測. Shah等人[36]提出了區別于 DKRL和 ConMask 這2種方法的新模型 OWE,其獨立地訓練知識圖 譜和文本向量,然后通過缺失實體的描述文本向量 模糊代替實體的表示,在知識圖譜中進行匹配,最終 得到實體與關系的預測結果.該模型可以調整和選 用不同的基礎知識圖譜表示模型得到不同的融合模 型,在不同環境任務中發揮更好的作用. Wang等人[37]提出了一種基于膠囊網絡的新模 型 CapsGOWKG,其在融合知識圖譜的結構信息和 描述信息后,采用膠囊網絡提取三元組的特征,得到 動態非時序知識圖譜三元組的表示.Gaur等人[38]提 出了一個框架 HUKA,它使用起源多項式通過編碼 生成答案所涉及的邊來跟蹤知識圖譜上查詢結果的 推導. Das等人[39]證明了基于案例的推理(caseGbased reasoning,CBR)系統通過檢索與給定問題相似的 “案例”來解決一個新問題是可以實現動態知識庫 (KBs).其通過收集知識庫中相似實體的推理路徑 來預測實體的屬性.概率模型估計路徑在回答關于 給定實體的查詢時有效的可能性. 在國內,最 初 的 模 型 是 在 Xie等 人[34]提 出 的 DKRL模型上進行簡單的更改,直接應用于開放世 界知識圖譜上,其效果相比其他靜態的算法有所提 高,成為了這個任務的一個基準結果. 杜治娟等人[40]提出一種表示學習方法 TransNS. 其選取相關的鄰居作為實體的屬性來推斷新實體, 并在學習階段利用實體之間的語義親和力選擇負例 三元組來增強語義交互能力.Xie等人[41]提出了一種基于深度遞歸神經網絡 DKGCGJSTD的動態知識圖譜補全模型.該模型學習 實體名稱及其部分文本描述的嵌入,將看不見的實 體連接到知識圖譜.為了建立文本描述信息與拓撲 信息之間的相關性,DKGCGJSTD 采用深度記憶網 絡和關聯匹配機制,從實體文本描述中提取實體與 關系之間的相關語義特征信息.然后利用深度遞歸 神經網絡對拓撲結構與文本描述之間的依賴關系進 行建模. Zhou等人[42]提出了一種聚合器,采用注意網 絡來獲取實體描述中單詞的權重.這樣既不打亂詞 嵌入中的信息,又使聚合的單詞嵌入更加高效. Niu等人[43]使用多重交互注意(MIA)機制來 模擬頭部實體描述、頭部實體名稱、關系名稱和候選 尾部實體描述之間的交互,以形成豐富的表示.此 外,還利用頭部實體描述的額外文本特征來增強頭 部實體的表示,并在候選尾部實體之間應用注意機 制來增強它們的表示.

2.2 知識圖譜的預訓練模型

知識廣泛存在于文本、結構化及其他多種模態 的數據中.除了通過抽取技術將知識從原始數據中 萃取出來以支持搜索、問答、推理、分析等應用以外, 另外一種思路是利用數據中本身存在的基本信號對 隱藏的知識進行預訓練.預訓練的核心思想是“預訓 練和微調”,例如預訓練一般包含2個步驟:首先利 用大量的通用知識數據訓練一個知識模型,獲取文 本中包含的通用知識信息;然后在下游任務微調階 段,針對不同下游任務,設計相應的目標函數,基于 相對較少的監督數據進行微調,便可得到不錯的效 果.近2年對面向知識表示、面向自然語言、面向下 游任務和基于圖結構的預訓練模型這4類有所進 展,代表性模型如表3所示:

**1) 面向知識圖譜表示的預訓練模型 **

在詞向量表示中,預訓練模型分為2個部分,分 別是預訓練與微調,這樣的模式可以使詞向量表示 更適合于不同的應用環境.同樣地,在面向知識表示 的預訓練模型中,同樣先采用預訓練的向量表示,然 后再基于此進行進一步的深化挖掘.這類預訓練模 型,旨在通過引入新的處理方法對預訓練的知識表 示進行進一步的特征挖掘,以此可以得到原有表示 不具備的特征,如 ConvKB [44],CapsE [45]等.這類模 型不能最大化地提取三元組的特征,模型預訓練效 果依賴于基礎知識圖譜表示學習模型的選擇.

2) 面向自然語言問題的預訓練模型

知識圖譜在處理與自然語言相關的任務時,必 不可少地與語言模型相互聯系.這一類預訓練模型, 主要是將知識融合到一個詞向量模型中形成一個既 包含知識又具備上下文信息的預訓練詞向量.近幾年 的相關研究主要是將知識融合到BERT 中形成新的 預訓練模型.典型的模型有:CMU 和微軟聯合提出的 JAKET [46]、清華大學和華為聯合提出的 ERNIE [47]、 北京大學和騰訊聯合提出的模型 KGBERT [48]、復旦 大學和亞馬遜提出的 CoLAKE [49]、清華大學和 Mila 實驗室提出的 KEPLER [50]等.這類模型利用實體信 息增強了預訓練效果并減少了訓練時間,但不適用 于缺少實體相關描述的預訓練任務. 3) 面向下游任務的預訓練模型

知識圖譜預訓練模型還可以通過不同的特殊下 游任務來幫助向預訓練模型融入任務相關的知識. 主要方法是在對具體的下游任務進行微調時,可以 采用不同的適配器來針對性地加入特征,進而增強 其效果.代表性的工作有復旦大學和微軟提出的 KG ADAPTER [51]和阿里巴巴實驗室提出的“預訓練+ 知識向量服務”的模式 PKGM [52],結構如圖4所示. 這類模型需要盡可能大且全量的知識圖譜數據集, 這樣才能發揮模型預訓練的優勢,因此模型對于圖 譜完成性差、稀疏度高的知識圖譜預訓練較差.

4) 基于圖譜中圖結構的預訓練模型

知識圖譜是一種特殊的信息圖,可以通過適用 于圖的方法 GNN 獲取知識圖譜的部分結構特征. 圖神經網絡(graphneuralnetworks,GNNs)已被 證明是建模圖結構數據的強大工具,然而,訓練 GNN 模型通常需要大量的特定任務的標記數據,而獲取這些數據往往非常昂貴.利用自監督 GNN 模型對 未標記數據進行預訓練是減少標記工作的一種有效 方法,預訓練學習到的模型可用在只有少量標簽圖 譜數 據 的 下 游 任 務 中.代 表 性 的 工 作 有:GPTG GNN [53],GI [54],GraphCL [55],GCC [56]等.這 類 方 法 不依賴于圖譜的節點與邊信息,僅利用圖結構進行 預訓練,避免復雜的特征工程,但缺陷是耗時巨大.

3 神經符號結合的知識更新與推理

ACM 圖靈獎獲得者 YoshuaBengio在 NeuIPS 2019的特邀報告中明確提到,深度學習需要從系統1 到系統2轉化.這里所說的系統1和系統2來源于 認知科學中的雙通道理論,其中系統1可以理解為 神經系統,它表示直覺的、快速的、無意識的系統;系 統2可以理解為符號系統,它表示慢的、有邏輯的、 有序的、可推理的系統.Bengio所提的系統2關于深 度學習的想法與“神經+符號”的知識表示與推理目 標基本一致.神經系統優勢在于能夠輕松處理圖像 識別、文本分類等一類機器學習擅長的問題,模型能 夠允許數據噪音的存在,但缺點在于其端到端的過 程缺乏可解釋性,并且在模型求解答案過程中難以 嵌入已有的人類知識.相反地,符號系統可以完美地 定義各類專家經驗規則和知識,形成對結構化數據 的各類原子操作,在此基礎上通過搜索和約束進行 求解,整個過程的解釋性和可理解性也很強.但是, 符號系統的缺點在于難以處理很多擁有異常數據和 噪音的場景.然而,“神經+符號”到底如何有機結合, 實現起來并不容易.知識圖譜從早期的知識庫、專家 系統,到谷歌2012年正式提出知識圖譜,其發展歷 程也體現了神經系統和符號系統的各自發展縮影, 整體上可分為神經助力符號和符號助力神經兩大類.

3.1 神經助力符號推理

神經助力符號推理方法的特點在于將神經的方 法應用在傳統符號系統的問題求解,通常主要是解 決淺層的推理問題,其核心在于如何將神經系統學 到的“淺層知識表示”(計算結構和連續型數值表示 的知識)更新到已有的符號知識體系中(離散的、顯 式的符號化知識),敏捷邏輯(swiftlogic)是牛津大學 Gottlob等 人[57]關于“神經+符號”的嘗試,如圖5所示,該系 統既能夠執行復雜的推理任務(以 Datalog ± 語言為 理論基礎),同時在可接受的計算復雜度下,利用神 經網絡在大數據上實現高效和可擴展的推理.此外,敏捷邏輯還定義了與企業數據庫、網絡、機器學習和 分析軟件包的接口,以實現與數據庫和人工智能中 不斷出現的新技術相結合.敏捷邏輯的特點是不局 限于模型層面的結合,更關注從知識圖譜管理系統 框架層面來使用神經和符號多種技術.

3.2 符號助力神經計算

符號助力神經方法的特點在于將符號的方法應 用在神經網絡的訓練過程中.

3.3 神經符號結合的知識表示與推理

一個完美的“神經 + 符號”系統的特點和優勢 為:1)能夠輕松處理目前主流機器學習擅長的問題; 2)對于數據噪音有較強的魯棒性;3)系統求解過程 和結果可以被人容易地進行理解、解釋和評價;4)可 以很好地進行各類符號的操作;5)可以無縫地利用 各種背景知識.從以上標準來看,實現神經符號知識 表示的充分結合還有很長一段路要走.國外目前最 具代表性的研究為 Cohen等人[91]和 Lamb等人[92] 的研究工作. Cohen [91]作為人工智能領域的重要學者,近年 來發表了一系列的神經符號結合的研究工作,其中 典型工作 DrKIT 的整體框架如圖6所示.DrKIT 使 用語料庫作為虛擬的知識圖譜,進而實現復雜多跳 問題求解.DrKIT 采用傳統知識圖譜上的搜索策略 進行文本數據的遍歷,主要是遵循語料庫中包含文 本提及實體之間的關系路徑.在每個步驟中,DrKIT 使用稀疏矩陣 TF∕IDF 索引和最大內積搜索,并且 整個模塊是可微的,所以整個系統可使用基于梯度 的方法從自然語言輸入到輸出答案進行訓練.DrKIT 非常高效,每秒比現有的多跳問答系統快10~100 倍,同時保持了很高的精度.

4 研究進展比較

4.1 非結構化多模態數據組織與理解

在非結構化多模態數據組織方面,多模態知識 圖譜目前已經成為國內外學者對于多種類型數據組 織的共識,國內外的學者均有新的研究成果.對于國 外研究團隊而言,其核心思路依然是從維基百科中 抽取已有知識圖譜的多模態數據資源,而國內研究 團隊將范圍擴展到了通過全域的數據資源來補充已 有知識圖譜中的視覺和文本信息.可以看出,對于知 識圖譜而言,開放域的非結構化數據資源豐富,但是 如何同已有結構化的圖譜融合并建立不同模態數據 之間的語義關聯是關鍵.此外,國內研究團隊面向垂 直領域(智慧教育)提出了系統級的研究工作,這一 點要比國外的研究更具有落地思維,可以預見未來國 內在更多垂域會出現以多模態知識圖譜為基礎的系 統和應用.在多模態數據理解方面,受益于深度學習技術的持續發展,國內外在該領域都取得了最新的 研究成果.可以看出,國內研究人員已經可以從延續 他人工作轉變為開辟新的研究領域,這一點說明國 內在該領域走在世界學術前沿.值得一提的是,國內 學者在知識圖譜驅動的多模態數據理解方面同樣具 有較強的應用落地思維,分別面向推薦系統等垂直 場景進行了探索嘗試.

4.2 大規模動態知識圖譜表示學習與預訓練

在大規模動態表示學習方面,國內外均有新的 研究成果,在不同的方向有所突破.國外在序列模型 編碼方法上有更多模型被提出,對 GCN,GNN 等類 型的編碼器進行了改進,在動態表示方面取得了更 好的結果;而國內主要的工作集中在基于分解、基于 歷時性編碼和基于隨機游走改進3個方面,雖然與 國外的方法思路不同,但是在動態表示方面也有亮 點和突出表現.知識圖譜預訓練是近兩年的一個熱 點方向,國內外很多研究機構都針對此方面有所研 究并做出了突破.國外在圖譜表示的預訓練方面有 一些新的工作,并在基于知識圖譜圖結構的預訓練 方面有更多的進展.而國內,基于自然語言方面的知 識預訓練有更多的新模型產生,諸如北京大學、清華 大學等學校,百度等企業均在這方面有新的研究成 果產生.尤其是面向基于大規模知識下游任務的預 訓練模型,有了重大突破,對數以10億計規模的知 識進行了預訓練,并應用于阿里電商平臺,為商品推 薦、語義搜索和智能問答等下游任務提供支持.

4.3 神經符號結合的知識表示與推理

在神經助力符號方面,國內外均有新的研究成 果.通過比較可以看出,國外研究團隊在知識圖譜表 示學習技術的初期走在該領域的前沿,提出了一系 列開創性的工作;國內的研究團隊主要針對各類模 型和數據特點進行改進,在后期逐漸提出了創新性 更高和實用性更強的工作,尤其是知識圖譜表示學 習技術在其他任務(如智能問答、近似搜索、推薦系 統、實體對齊、社交網絡等)中有效地使用,國內研究 團隊走在學術的前沿,可以看出國內學者更傾向于 應用層級的研究.除此之外,在邏輯推理等偏理論的 模型中如何引入神經網絡,國內研究工作還不多.在 符號助力神經方面,國內外都走在學術的前沿.在神 經符號結合方面,谷歌公司依然走在世界的最前沿, 提出了一系列開創性工作,國內這方面的工作還偏 少.不過整個神經符號的有機結合還屬于初期探索 領域,隨著越多的研究者開始關注,未來我國研究團 隊還有很大的提升空間.

總結

本文圍繞支撐新一代知識圖譜的關鍵技術研究 進展與趨勢展開系統性論述,內容包括:非結構化多模態圖譜組織與理解、大規模動態圖譜表示學習與預 訓練模型、神經符合結合的知識表示與推理.在此基 礎上,給出了國內與國際的當前研究進展,并對國內 外研究進展進行比較.最后對這些關鍵技術的發展趨 勢進行了展望.

付費5元查看完整內容

摘要: 元宇宙作為一個新興的概念受到了產業界、學術界、媒體界及公眾的廣泛關注,國內外眾多公司也紛紛在“元宇宙”領域布局,但布局的背后離不開強大的技術支持。本文從技術維度深入剖析元宇宙。首先,從科學與技術的角度論述元宇宙的概念及內涵,并總結了目前從業者、專家以及學者對元宇宙的不同見解。其次,概述了元宇宙相關關鍵技術,包括網絡及運算技術(5G、6G、物聯網、云計算、霧計算及邊緣計算)、管理技術(能耗管理、資源管理、會話管理及時空一致性管理)、虛實對象連接、建模與管理技術(X聯網、身份建模、社會計算、去中心化管理技術)、虛實空間交互與融合技術(拓展現實、電子游戲技術、腦機接口技術)等。元宇宙不宜稱為新技術,而是IT新技術的綜合運用。技術的進步與發展,將為元宇宙的實現和應用奠定堅實的基礎,同時元宇宙的發展也會促進現有技術的升級換代。最后,展望了元宇宙發展面臨的諸多挑戰,以清晰認識、理智決策、穩步探索元宇宙。

引言

1992 年,美國著名作家Neal Stephenson在《Snow Crash》中提到元宇宙(Metaverse)一詞,他這樣描述:“戴上耳機和目鏡,找到連接終端,就能夠以虛擬分身的方式進入由計算機模擬、與真實世界平行的虛擬空間。”[1] 其實Metaverse這個概念的思想源頭是由美國數學家和計算機專家Vernor Vinge教授在 1981 年出版的《True Names》中描述的通過腦機接口技術進入并獲得真實感官體驗的虛擬世界[2]。 在元宇宙時代,人類的生活方式會受到較大的影響。其一,傳統的哲學與科學會受到巨大的沖擊,需要不斷挖掘和研究新的理論與方法;其二,元宇宙的興起將推動人類社會邁進一個新階段,相應地,時代的演變又進一步為技術的發展添磚加瓦。元宇宙技術在融合已有技術的同時,也將不斷衍生出更多的新技術。本文先從科學與技術的角度論述元宇宙的概念及內涵,并總結了目前從業者、專家以及學者對元宇宙的見解;其次,從技術維度深入剖析元宇宙,即從網絡及運算技術、管理技術、元宇宙虛實對象連接、建模與管理技術以及虛實空間交互與融合技術四個方面闡述元宇宙中涉及的關鍵技術。最后,對未來元宇宙技術發展所面臨的挑戰進行歸納與總結。

1. 元宇宙概念與內涵

元宇宙作為一個新興的概念,受到了產業界、學術界、媒體界及公眾的廣泛關注,但對于元宇宙的定義及概念還不夠統一和明確,不同從業者、專家以及機構給出了對元宇宙的見解,如表1所示

為進一步理解元宇宙的概念及內涵,本文從科學和技術的角度對其進行剖析,具體如下: 從科學角度上說,元宇宙的誕生是多學科融合的結果。元宇宙將促進信息科學、量子科學、數學和生命科學等學科的融合與互動,創新科學范式,推動傳統的哲學、社會學甚至人文科學體系的突破。元宇宙,實質上就是廣義網絡空間[7],在涵蓋物理空間、社會空間、賽博空間以及思維空間的基礎上,融合多種數字技術,將網絡、軟硬件設備和用戶聚合在一個虛擬現實系統之中,形成一個既映射于、又獨立于現實世界的虛擬世界。

從技術角度上說,元宇宙不宜稱為新技術,而是現有IT技術的綜合集成運用,它是信息化發展的一個新階段。因此,隨著元宇宙的發展不僅會促進現有技術的升級換代,而且也會促進新技術的出現。本文將從技術維度對元宇宙中涉及的關鍵技術進行概述,如圖1 所示

2. 元宇宙中的網絡及運算技術

網絡及運算技術是元宇宙的基礎設施,可為元宇宙提供高速通信、泛在連接以及共享資源等功能,本節主要介紹5G、6G、物聯網、云計算、邊緣計算、互聯網等在元宇宙中的作用。

2.1 高速無線傳輸——5G、6G

無論是遠程執行計算繁重的任務、訪問大型數據庫、還是在用戶之間提供共享體驗,都離不開網絡與通信[8],元宇宙時代所需要的沉浸式體驗,要求網絡具有低延遲、大帶寬、高可靠性等特點。5G作為新一代信息化基礎設施的出現,為元宇宙的沉浸式體驗提供可能。為了滿足不同行業和市場的需求,國際電信聯盟(The International Telecommunication Union, ITU)將5G劃分為超可靠低延遲通信(Ultra-reliable low-latency communication, URRLC)、增強移動帶寬(Enhanced mobile broadband, eMBB)和海量機器類通信(Massive machine-type communications, mMTC)[9], URRLC 和 eMBB 恰好可滿足元宇宙對沉浸感體驗的需求[10],眾多學者近年來不斷為 URRLC 和 eMBB 做研究,以提高 5G 的通信效率,減少能源消耗。例如,Kumar和Ahmad[11] 提出基于 ANFIS 的 5G 新空口技術(5G New radio, 5G NR)中 URRLC 和 eMBB多路復用反應策略,為 URLLC 流量提供高優先級,同時保證了 5G 蜂窩網絡場景中其他 eMBB 流量的可靠性。Malik等[12]提出一種干擾感知無線資源分配方法,并與傳統的循環調度算法作比較,結果表明,提出的算法比傳統的循環調度算法在鏈路可靠性和延遲降低方面有明顯的改善。Buccheri等[13]提出混合重傳策略,以滿足URRLC需求并最小化消耗資源。

6G 作為 5G 的必然演進方向,6G 將打破時間、虛實的限制,為元宇宙的實現提供網絡基礎。6G 的出現,更多地實現現實世界與虛擬世界的交互和未來的共存共生。中國移動通信研究副院長黃宇紅表示,未來不僅會有物理世界,也將有數字世界,一方面是物理世界的孿生世界,另一方面會演變成元宇宙和平行世界 。未來,元宇宙將不僅是對現實世界的模擬與仿真,更重要的是物理世界與虛擬世界的融合與交互發展,6G 將對其發展提供強大的驅動力。東南大學尤肖虎教授團隊[14]在“6G 的最新進展及發展趨勢”一文中,提出 6G 無線通信網絡有望提供更高的頻譜、能量、更高地傳輸速率、更低傳輸時延、超大連接密度、更高覆蓋率和亞毫秒級的時間同步,6G 所具有的特征將在元宇宙中大顯身手。

在 5G、6G 網絡環境下,利用量子通信保障通信安全方面,Chowdhury等[15]提出基于量子不可克隆性定理和測不準原理,量子通信通過應用量子密鑰提供了強大的安全性。

2.2 虛擬世界與現實世界的聯接——物聯網

物聯網(Internet of Things, IoT)在元宇宙的網絡基礎設施的實現和發展中將發揮重要作用。虛擬世界與現實世界的泛在連接,離不開大量傳感器、智能終端等物聯網設備實時采集和處理數據,故物聯網可為用戶提供真實、持久且順暢的交互體驗,是虛擬世界與現實世界的聯接和橋梁。物聯網經典的三層架構,即感知層、網絡層和應用層,與元宇宙的建立緊密聯系。表2 列舉了近年來部分學者對物聯網三層架構的研究成果,將來為物聯網技術在元宇宙中的應用做好鋪墊,支撐元宇宙的發展。

從物聯網的三層架構來看,要想支撐元宇宙的發展,仍存在一些瓶頸,例如,存在于感知層的數據爆炸與有限感知資源之間的不平衡問題,Shi等[27]提出了將人工智能與選擇性感知相結合的解決方案;傳感器/制動器性能不佳問題,Ning和Liu[28]提出使用納米技術用于改善傳感器/制動器的性能(例如,更高的靈敏度和選擇性、更短的響應時間和更長的使用壽命)。因此,納米材料(如石墨烯、納米線等)的應用將為元宇宙的感知與通信領域提供可選性。存在于網絡層的連接爆炸與高效通信之間的問題[29];存在于應用層的應用爆炸與精準服務之間的矛盾[30],都是現在正面臨的問題。未來隨著科技的進步,解決上述“卡脖子”問題,將為構建元宇宙提供進一步的支撐。

另外,觸覺互聯網也是支撐元宇宙發展的一種新的物聯網形式。觸覺互聯網是由Fettweis[31]提出,它允許人和機器能夠在移動中和特定空間通信范圍內,通過觸覺實時地與周圍環境進行互動。觸覺互聯網有潛力使元宇宙更具有沉浸感。5G 關于低時延、高可靠性的研究客觀上是為觸覺互聯網作了鋪墊,Saches等[32]描述了 5G 在觸覺互聯網(Tactile internet)中發揮的基礎作用,并展示了 5G 新空口技術(5G NR)和 5G 長期演進技術(5G LTE)如何實現有保證的低遲延無線傳輸,提出了基于分布式云平臺的 5G 系統架構,以滿足觸覺互聯網對可靠性和低延遲方面的苛刻通信需求。Antonakoglou等[33]關注 5G 如何結合觸覺數據通信協議、雙邊遠程操作控制方案和觸覺數據處理,讓觸覺應用發揮作用。

2.3 云計算、霧計算與邊緣計算賦能元宇宙

有十余年發展史的云計算,成為元宇宙中可以大量賦能的領域。元宇宙所需要的身份建模、現實世界與虛擬世界的交互以及多元宇宙之間的互動,都會產生難以想象的海量數據,這離不開云計算的支持。本節將從數據處理和數據存儲兩個維度論述云計算的重要作用。

(1) 數據處理。 具有算力動態分配的云計算是元宇宙最重要的網絡基礎設施。元宇宙的構建需要一個強大的算力系統處理數據,當前的算力架構依然無法滿足元宇宙對于低用戶門檻、高體驗感的需求,云計算一定程度上能夠推動算力發展。日前,元宇宙借助游戲技術來展現,大型游戲采用的客戶端與服務器結合的模式,其對客戶端設備的性能和服務器的承載能力有較高要求[34],并且在全球范圍內集中部署的云數據中心[35],旨在處理來自物聯網設備的傳感數據或基于嵌入式設備的實時視頻、圖像等非結構化數據。例如,Zhang等[36]提出了用于嵌入式設備實時視頻處理的流式云平臺,并對該平臺的處理速度、功耗和網絡吞吐量等進行評估。

(2) 數據存儲。 在云上存儲數據,即云存儲(Cloud storage),一般不用考慮存儲容量、存儲設備類型、數據存儲位置以及數據的可用性、可靠性和安全性等繁瑣的底層技術細節,按需付費就可以從云服務提供商那里獲得近乎無限大的存儲空間和企業級的服務質量[37]。近幾年來學者們一直在云存儲方面的研究,如Sharma等[38]綜述了區塊鏈技術在云存儲安全方面的應用;Qiu等[39]提出了基于可逆小波變換的以用戶為中心的云存儲數據保護方法;Doan等[40]提出云存儲系統中數據一致性維護的虛擬服務器解決方案。 元宇宙在構建過程中產生的大量數據需要云計算按需調配資源,以進行海量數據處理及存儲,但若把所有的資源都集中在云端,那對于元宇宙的沉浸感體驗、負載均衡以及能量消耗將帶來巨大的挑戰。對此,需要在本地部署帶有計算和存儲功能的設備,以縮短終端用戶到計算和存儲資源的距離,這就需要霧計算來支撐[41]。霧計算由終端用戶層、霧層及云層構成,霧層的存在極大地降低傳統云計算的時延,可以自己向用戶直接提供服務,還可以利用云層強大的算力和存儲能力協同進行服務。

另外,霧計算中更加靠近邊緣終端的部分,稱之為邊緣計算(Edge computing)。邊緣計算可將元宇宙計算所需的大型服務分解為小巧且易于管理的子任務,并將這些任務分散到邊緣節點去處理。邊緣計算在物理上更接近終端用戶,進一步將遲延時間最小化,為用戶流暢、優質的體驗提供保障[42]。另外,當元宇宙的內容涉及多個用戶時,會大大增加網絡流量負載,Kim[43]提出了一種在邊緣網絡中基于云 VR 的服務配置和部署方法,這只是對其的初步探索。由于云計算、邊緣計算以及霧計算各有優缺點及特性,如表3 所示,故利用云邊協同策略降低網絡時延及流量負載[44–45]受到關注,為元宇宙關鍵技術的研究提供一種選擇。

2.4 元宇宙≠下一代互聯網

元宇宙將用戶與互聯網交互的界面(體驗感)從“二維”上升到“三維”,將對互聯網的技術和發展起到推動作用。值得注意的是,元宇宙是互聯網之上的應用,二者不宜等同起來,更不能將元宇宙簡單地看成下一代互聯網。對行業、企業來說,互聯網的“升維”將催生新的生產力,但是找到“入口”僅是第一步。還要在技術層面上,提供更多的連接與通信方式,以及基礎設施。硬件設施也要不斷適配升級,這也將是一個相對艱難的探索過程[46]。

3. 元宇宙管理技術

元宇宙管理技術保障虛擬空間(即賽博空間)與真實空間(含物理空間、社會空間及思維空間)的泛在連接與空間融合所需要的軟硬件環境,主要包括能耗管理、資源管理、會話管理、時空一致性管理等。

3.1 能耗管理

節能環保一直是信息系統所追求的,未來的元宇宙一大挑戰便是能耗。元宇宙中能耗管理的目標和理念是實現最低能耗和綠色能源占比最大化,提高能源利用效率。在元宇宙中,傳感器設備、網絡及通信基礎設施(如,5G、6G、云計算系統等)、虛擬世界與現實世界的交互(如,VR/AR/MR、腦機接口等)等需要大量的能源消耗。許多學者提出了能源監測的方法。例如,Somula 和Sasikala[47]提出基于物聯網的方法監控負載消耗并以高效的方式節約能源。Bi等[48]創建了 Elman 遞歸神經網絡模型和指數電力預測模型,幫助減少電力損耗、節約成本。能源可持續發展既是元宇宙的核心約束也是投資機遇。 元宇宙中節能環保的目標是建立綠色元宇宙。這需要我們做到兩點:一是不斷創新與發展先進的能源基礎設施,實現對能源的自動測量、收集、存儲、分析等智能化處理,以提高能源的高效循環利用率為目的,研發能源循環設備,加速能源網絡的變革;二是優化能源管理的算法與模型,通過對物理空間、社會空間及思維空間的資源創建虛擬資源以便實現能源重組織與優化,提高能源利用率。未來,隨著納米及量子等技術的成熟,將研發出新型材料并應用于高性能設備、裝備或平臺,以獲取納米級別或量子級別的網絡,從而增強高性能能源使用率、降低能耗[49]。

3.2 資源管理

元宇宙,本質上就是廣義網絡空間[7,49],在涵蓋物理空間、社會空間、賽博空間及思維空間的基礎上,共享資源。資源管理主要包括資源描述、資源尋址、資源發現和資源分配等,以滿足元宇宙的低延遲、高度沉浸等需求。目前,在資源管理的四個典型階段上已經有了一些較為成熟的技術,如表4 所示。

3.3 會話管理

元宇宙的會話管理,是管理異構網絡中無處不在的資源和資源用戶之間的交互[28]。在元宇宙中,會話管理主要針對具有動態特性的長時間、持久性交互,特別是針對具有多個資源用戶參與的會話。會話管理需要解決切換延遲、瞬時數據包丟失、端到端通信延遲以及跨異構網絡的無縫會話切換等問題,以提高用戶的沉浸感體驗。例如,針對5G網絡基礎設施,學者們研究在5G網絡上的會話管理方法,以盡可能地滿足未來元宇宙對實時性、低能耗等需求,如,Kim等[51]提出了一種有效的5G系統低延遲通信會話管理方案,并且避免了移動設備的網絡資源浪費和電池消耗。Park等[52]探討了如何在5G無線網絡環境中實現用戶的高性能會話管理。另外,元宇宙中的會話管理還應預防會話過程被攻擊的情況發生。Nadar等[53]研究了一種針對破壞性身份驗證和會話管理攻擊的防御方法。Marlinspike等[54]研究了Sesame算法,對異步消息進行加密,提高會話過程中的安全系數。

3.4 時空一致性管理

在物理空間、社會空間及思維空間中的實體與賽博空間實體映射過程中離不開時空一致性管理。元宇宙實質上是廣義網絡空間,它是一個虛實結合的世界,人在現實世界中,時間、空間的連續和唯一是嚴格按照物理規律,若要在虛擬世界中享受到沉浸式體驗,故也需要考慮時空一致性管理。現在已有學者提出一些管理時空一致性的方法,例如,時間同步法、目標定位法、時間配準法及空間配準法等時空一致性管理方案[28]。一致的時空數據對現實世界和虛擬世界之間的映射非常重要,Atluri等[55]綜述了時空數據的挖掘方法。

4. 元宇宙虛實對象連接、建模與管理技術

現實世界中的人和物以另一種虛擬身份的形式存在于元宇宙,這將構建成一種新型的虛擬社會,并在新的虛擬社會中重塑數字經濟體系、社會關系等。然而,虛實對象的映射與連接、虛擬社會的構建與管理離不開X聯網(Internet of X, IoX)、身份建模、社會計算、去中心化管理技術的支持。

4.1 IoX

X聯網包括物聯網、人聯網和思維聯網。物聯網(IoT)在物理空間和元宇宙之間建立虛實對象的泛在連接,將物理對象映射到虛擬世界中。人聯網(Internet of People, IoP)描述的是由各種人類節點組成的互連網絡[56]。節點的互連離不開人與人之間的社會關系、以物為媒介的社會關系、與時空屬性相關的社會關系等。在元宇宙時代,IoP在人類社會和元宇宙之間建立了虛實對象的泛在連接,從“社會關系的數字化”過渡到“人與世界的關系數字化”。在元宇宙內容不斷豐富的過程中,不僅僅要賦予虛擬原生人與數字人身份,還要考慮其認知與思維。思維聯網(Internet of Thinking, IoTk)強調思維創造的過程,進一步深化思維空間與元宇宙之間的互動,使得元宇宙中的對象擁有自動獲取、處理、學習和思考知識的自適應感知能力,克服時間和空間的限制,可在不同的地點和時間交換思想,實現準確、高效及便利的合作與交流[57]。

4.2 身份建模

隨著多種技術的融合以及新興技術的出現,進入元宇宙的對象數量和種類將急劇增長,如何對物理對象的身份標識進行建模及解析,以實現物理對象在與元宇宙的感知和映射,這將是未來發展元宇宙的核心問題之一。物理對象身份標識主要包括唯一標識法和非唯一標識法。其中,唯一標識法采用外界賦予對象的標識號,標識身份并應用于對象的網絡身份/資源的發現、尋址和訪問等,除了使用Bar Code技術、QR code技術、RFID技術等外界賦予的對象身份,還有利用對象的生物屬性、時空屬性等自身屬性信息進行身份標識[58],典型的有利用虹膜、人臉、指紋等生物特征標識與解析技術等。

除元宇宙中映射的物理對象外,存在于元宇宙的人類也需要身份標識,其被稱為“虛擬數字人”。“虛擬數字人”是元宇宙的重要參與者,也是大眾最能接受的元宇宙表現形式之一。在未來,元宇宙用戶分為兩類:虛擬原生人和數字人。虛擬原生人(如,虛擬偶像、虛擬主持人、虛擬記者等),與現實世界不存在映射關系,脫離現實世界而存在;數字人則是指現實世界中的人類在虛擬世界的數字分身。無論是虛擬原生人還是數字人,都需要身份標識以便對其管理及研究。目前,身份建模與解析在物聯網領域比較常見,如Verma等[59]提出了基于區塊鏈的身份管理系統建模;Ning等[60]綜述了身份建模與解析現狀,以及其未來的發展趨勢與挑戰; Bouras等[61]提出了一種基于輕量級區塊鏈的物聯網身份管理方法。未來,隨著身份建模與解析技術應用領域的擴大,也將是元宇宙時代重要的研究領域。

4.3 社會計算

首先,通過身份建模技術,對數據、信息以及屬性進行描述,構建出進入元宇宙的實體對象。進一步,通過IoP、社會計算等技術進行實體的關系建模與行為形式化,從而實現實體的關聯及行為挖掘、理解與分析[62]。社會計算具體包括社交網絡分析(Social network analysis)、群體智能(Swarm intelligence)、人工社會(Artificial society)等。社交網絡分析指的是利用圖論、代理模型等方法對個體之間通過社會關系結成的網絡體系進行研究。群體智能指的是在集體層面表現得分散的、去中心化的自組織行為。人工社會指的是通過對復雜社會問題建立計算機模型,進行實驗分析并提供決策支持。 社會計算以處理社會關系為導向。元宇宙的出現,虛擬社會關系不會取代現實中的社會關系,但會催生線上線下一體的新型社會關系。通過社會計算研究人類的行為、新型社會關系能夠預測元宇宙的運行規律及未來發展趨勢,同時在元宇宙中更容易收集用戶的位置、年齡、偏好等數據信息,進行深度挖掘以更好地構建元宇宙中的社會運行機制。

4.4 去中心化管理技術

元宇宙中的對象在身份建模、IoP、IoTk、社會計算等技術的支持下,擁有獨立的身份、思維、行為及社會關系。根據需求,可在元宇宙中組建社區、城市,共同構建區別于或類似于現實世界的法律法規,衍生出新的虛擬社會文明。但實現這一切的前提是,元宇宙需要擁有獨立的經濟系統和經濟屬性。元宇宙的每一塊組成部分信奉的是去中心化概念,需要借助去中心化底層技術來重塑元宇宙的數字經濟系統。去中心化技術的典型代表區塊鏈[63],借助區塊鏈加密算法、共識機制、智能合約等技術,可能會為元宇宙發展提供新的金融體系,為用戶提供保險、交易、證券化等虛擬資產的金融服務,也可實現虛擬世界與現實世界經濟體系的聯動。但是元宇宙經濟系統不等價于互聯網經濟系統,它不是互聯網經濟系統的復制品。需要說明的是,獨立的去中心化金融體系,與現實社會中的國家治理、主權貨幣等機制往往是矛盾的,這也許是元宇宙未來發展的制約。

區塊鏈技術主要包括點對點傳輸、數字加密技術、分布式存儲、共識機制和智能合約等[64],這也決定了基于區塊鏈的經濟系統將為元宇宙經濟系統的實現奠定基礎。因為,數字加密技術在區塊鏈中具有核心地位,可以保證元宇宙用戶身份信息和交易數據的安全,文獻[64]中簡要介紹了哈希函數、對稱加密算法、非對稱加密算法、數字簽名等加密技術原理;分布式存儲系統(例如,Storj, IPFS),將數據分布式存儲于各個節點,可以保證數據的安全與隱私;雖然共識機制在公鏈和私鏈/聯盟鏈上有很大的差別,公鏈上使用的POW/POS共識機制[65],私鏈上使用PBFT及其變種算法的共識機制,但元宇宙將會基于區塊鏈形成自己的共識機制,去約束去中心化網絡中的每一個分散節點,并驗證每個節點的身份產生信任,保障元宇宙的去中心化價值網絡;基于以太坊的智能合約,一旦寫入無法篡改的特點及其可追蹤性,為元宇宙用戶提供可信交易。

除此之外,還有一些去中心化交易載體、組織機構也為元宇宙經濟系統建設增磚添瓦。目前,去中心化交易載體——數字貨幣,幣種已達21種 [66],包括MANA, AXS, SAND, CHR, TLM, SLP, ILV, ALICE, STARL, GHST, DPET等。另外,非同質化代幣(Non-fungible token, NFT)的出現引爆了元宇宙,可充當元宇宙激勵環節的媒介。它表示獨特物品所有權的代幣,包含特定商品或資產的獨特信息,實現虛擬物品的資產化,由于自身的數字稀缺性被率先應用于收藏、藝術品以及游戲場景。去中心化自治組織(Decentralized Autonomous Organization, DAO)將組織的管理和運營規則以智能合約的形式編碼在區塊鏈上,從而在沒有集中控制或第三方干預的情況下自主運行[67]。去中心化交易所(Decentralized Exchange, DEX)將資金保管在用戶的錢包中,交易平臺只負責提供數字貨幣流動性,撮合交易由智能合約來完成。現在DEX比較著名的有基于以太坊網絡的Uniswap、Sushiswap、IDEX、Bancor、Kyber,基于幣安智能鏈的Pancakeswap,基于Heco鏈上的MDEX [68]。

去中心化管理技術不僅在構建元宇宙經濟系統上起到了關鍵性作用,而且去中心化數據傳輸、存儲與管理等方面至關重要。如,數據傳輸和存儲過于集中,會出現單點故障和數據安全問題,文獻[69]提出了基于區塊鏈技術、門限代理重加密技術以及IPFS技術的去中心化數據共享方案;文獻[70]提出了基于分布式賬本的去中心化存儲系統框架,以提供可靠的數據存儲服務。因此未來去中心化管理技術將作為核心技術之一,保障元宇宙數據及經濟體系的安全,同時也能保障元宇宙中用戶的信息安全。

5. 元宇宙虛實空間交互與融合技術

虛實世界的交互、虛實世界視覺、聽覺、觸覺、嗅覺的統一,是元宇宙虛實空間融合的基石,這離不開擴展現實、電子游戲及腦機接口等技術。

5.1 擴展現實技術——從“二維界面”到“三維場景”

在較長的一段時間,人們與機器的交互拘泥于鍵盤、鼠標及顯示屏等外部設備。隨著科技的進步,擴展現實技術誕生,將人機交互從二維界面過渡到了三維交互,大大增加了人們的沉浸感體驗,這逐步變成了構建元宇宙技術支柱之一。實現其中的交互效果,XR及全息影像將承擔重要角色。 虛擬現實 (Virtual reality, VR)是一個先進的、理想化的虛擬現實系統,為用戶提供了完全沉浸式的體驗,讓他們感覺自己置身于現實世界。增強現實 (Augment reality, AR) 通過設備識別和判斷(二維、三維、GPS、體感、人臉和其他識別對象)將虛擬信息疊加在基于識別對象的位置上,并顯示在設備屏幕上,從而實現虛擬信息的實時交互。混合現實 (Mix reality, MR) 是一種結合現實世界和虛擬世界的新型可視化環境。在新的可視化環境中,物理對象和數字對象實時共存和交互。VR/AR/MR的邊界將在未來變得模糊,成為一種融合產品。目前,元宇宙采用的主要交互方式是為用戶創建高度交互的虛擬世界。 全息影像是通過光學的手段呈現物體真實的三維圖像的記錄和再現技術,是計算機技術和電子成像技術結合的產物。利用相干光干涉,記錄光波的振幅信息和相位信息,得到物體包含形狀、大小等的全部信息。全息影像技術是真正的三維立體影像,用戶在不借助可穿戴設備的情況下,就可以在不同的角度裸眼觀看全息影像。隨著技術的發展,全息影像技術可以模糊現實世界和虛擬世界的邊界,這將為真正實現元宇宙打下堅實的基礎。

5.2 電子游戲技術——游戲“泛化”打造元宇宙應用場景

電子游戲技術,是元宇宙的最直觀的表現方式,不僅可以為元宇宙提供內容創作平臺,還可以實現娛樂、社交場景的聚合。元宇宙產品實質是游戲的泛化(娛樂游戲、嚴肅游戲等),比如,美國著名歌手Travis Scott在《堡壘之夜》舉辦元宇宙演唱會;GUCCI與Roblox推出的“元宇宙GUCCI品牌展覽會”;歐萊雅發布的全球首個品牌虛擬代言人“M姐”等等。游戲開發中,最重要的是游戲引擎,類似于制造機床的母機床,這也將是大規模元宇宙平臺的“卡脖子”技術之一。游戲引擎的出現降低了游戲設計者及開發者建立虛擬場景的難度,使他們無需從基礎的代碼做起。其發展決定了元宇宙中NPC建模、場景實時渲染、用戶操作與交互等方面的質量及性能,讓用戶有更加接近于真實世界的體驗。目前,比較知名的游戲引擎如表5 所示。

5.3 腦機接口技術 — 助力元宇宙“虛實相生”

腦機接口(Brain-computer interface, BCI)是通過識別大腦信號,對大腦活動過程中腦信號進行編碼和解碼。用戶通過腦機接口進行操作,如玩游戲、打字等。腦機接口技術通過將個人的大腦信號解碼成計算機設備可識別的命令,將人類的神經世界和外部物理世界連接起來[71],其過程主要包括:腦電信號采集、腦信號處理、設備控制及信息反饋四個方面[72]。腦機接口技術讓人類突破身體、可穿戴設備的限制,特別是可以幫助殘障人士以一種新的姿態重新融入到社會中。這種姿態是意識與思維的融入,將真正達到虛實空間融合,助力元宇宙虛實相生。 BCI目前已經有了許多可行的方法,Abiri等[73]綜述了基于腦電圖的腦機接口方法,其他學者基于人工智能算法的腦機接口進行了研究[71,74–75]。根據傳感器和計算設備的部署方式,可以分為侵入式接口和非侵入式接口,由于侵入式接口會對生物體造成一定的損傷,而且考慮到元宇宙的沉浸式體驗,未來元宇宙研究將重點關注非侵入式接口的研究,為元宇宙虛實空間融合奠定基礎。

6. 元宇宙發展的四大挑戰

2021年被成為元宇宙元年,自此,“元宇宙”概念和應用不斷地出現在我們視野中,國內外許多科技公司(例如,Facebook、英偉達、字節跳動等)開始布局元宇宙。隨著各種信息技術的逐漸成熟,元宇宙時代已經悄然來臨,并被應用于房地產、服裝、娛樂、會議、教育等應用場景。當前元宇宙正處于一個起步發力階段,潛力巨大,但它也會面臨諸多挑戰,具體如下所示。

6.1 倫理與道德

元宇宙是否能夠被社會所接受,以及接受之后隨之而來產生的倫理與道德問題,比如,人機相處、虛擬婚姻家庭、虛假身份和信息、知識產權等[76]。也許在未來,會有公司/研究機構開發道德與倫理的數字協議,作為底層的技術來支撐元宇宙的運行。元宇宙概念構建的是一種高自由度、高包容度的“烏托邦”世界,如何在去中心化的框架中構架元宇宙的倫理與道德共識并被真實社會所接受,這需要從多視角進行探索。

另外,元宇宙的法律法規建設問題也需要同步研究。現實世界里用法律法規來約束正常的社會秩序,而元宇宙還處于初步探索期,是繼續沿用現實世界的法律還是依靠群體共識來約束元宇宙中人的行為及社會治理,都需要進一步研究。

6.2 安全與隱私

元宇宙的發展,會帶來眾多的安全與隱私問題。其一,國家信息平臺整體安全問題。元宇宙作為新興的數字生態,其將遭受網絡攻擊。網絡攻擊既可針對元宇宙的最終用戶和設備終端,也可針對元宇宙的運營商或關鍵服務提供商,這將會影響國家的關鍵基礎設施。而且,元宇宙促進虛擬世界與現實世界的融合,將擴大網絡攻擊的危害性,嚴重影響國家信息平臺的整體安全。另外,由于元宇宙的技術發展模式,造成元宇宙產品蘊藏較多的設計缺陷和漏洞,這將威脅用戶在元宇宙中的“化身”資產,加大數字內容治理難度。其二,用戶數據的安全與隱私保護問題。元宇宙的出現,收集個人數據的數量以及豐富程度是前所未有的。在未來極有可能是多個公司/機構一起打造一個或多個元宇宙,那么公司/機構之間如何進行數據協調消除“數據孤島”問題以及不同元宇宙之間如何進行數據交互,保障元宇宙中用戶的隱私及安全成為亟待解決的問題。例如,Zhang等[77]從人工智能的角度概述了用戶訪問認證、網絡態勢感知、危險行為監控和異常流量識別等方面的研究,為優化元宇宙安全與隱私保護手段提供參考;Falchuk等[78]也提出了在元宇宙中面臨的隱私問題。

6.3 技術的挑戰

當前的技術遠不能實現概念中所描述的理想元宇宙,現在進入元宇宙空間主要依靠高沉浸感的XR(VR/AR/MR)設備,但當前的虛擬實現技術很難將設備小型化、便攜化以及低成本化,供用戶隨時隨地的進入元宇宙,而且長時間佩戴XR設備會讓人感覺不舒服。 元宇宙將會大量使用人工智能(Artificial intelligence, AI)算法(如機器學習、深度學習、強化學習等)。AI三要素,即數據、算法及算力,對元宇宙的建立及發展具有關鍵性的作用,助力實現超越現實世界限制的社會和經濟活動[79],但人工智能還存在諸多缺陷[80]。利用計算機視覺、智能語音、自然語言處理等技術可以產生逼真的視覺、聽覺等感覺。不管是硬件發展水平,還是數據、算法、算力的發展水平使得元宇宙目前遠不能達到高沉浸感體驗,而且體驗過程中,對于可靠性、穩定性及舒適度等方面具有較高要求,這些都還需要繼續和深度研究。

6.4 對現實國家主權的挑戰

元宇宙強調了去中心化管理、用戶定制內容和高沉浸感等特點,尤其是去中心化的社會和經濟模式,一方面,包括貨幣、交易、資產、司法等都嚴重依賴現實世界的相應機構進行約束;二方面,去中心化模式發展的天花板是現實世界的各種限制,尤其是超大規模的元宇宙平臺實際上挑戰的是國家主權。因此,需要辯證地看待元宇宙的發展:小規模的元宇宙應用(平臺)可能會發展很快很廣泛;中等規模的元宇宙平臺(如社交網絡、購物平臺)受投資規模及運營風險等限制,進入的門檻還是很高的;至于超大規模的元宇宙社區,挑戰的是現實世界的國家主權,發展一定會受到限制。

7. 結論

元宇宙的誕生將促進現實世界與虛擬世界的聯接與融合,可能會成為人類社會發展的新形態,改變人們的生活方式。在元宇宙的發展初期,技術是根,技術的發展與創新是重中之重,本文概述了元宇宙涉及的網絡及運算技術、管理技術、虛實對象連接、建模與管理技術和虛實空間融合技術,為研究人員提供參考,推動技術創新來帶動產品、場景和應用創新。但是,“元宇宙”概念的爆火,其發展速度、終極形態,甚至對哲學、文化、社會及經濟治理,以及對人類的影響都還未知。隨著元宇宙應用雛形的落地,賦能實體經濟也將成為熱點方向,在政府堅持以技術賦能實體經濟的政策導向下,其在“元宇宙”時代仍將適用。當下“元宇宙”概念逐漸回歸理性,行業開始逐漸顯現出脫虛向實的趨勢。此外,隨著元宇宙的發展和應用的逐漸落地,其安全與監管問題,也將逐步提上日程。總之,無論處于何種趨勢,我們要清晰認識、理智決策、穩步探索元宇宙!

參考文獻

[1] What is the metaverse of the recent fire? [EB/OL]. CNR(2021-09-13) [2021-11-18].//baijiahao.baidu.com/s?id=37385158&wfr=spider&for=pc 最近大火的元宇宙是什么?[EB/OL]. 央廣網(2021-9-13) [2021-11-18]. [2] What is the metaverse of the recent fire [EB/ OL]. Mr. Xiong Hongmeng development (2021-11-09) [2021-11-18]. 最近大火的“元宇宙”到底是什么[EB/OL]. 鴻蒙開發大熊老師(2021-11-09) [2021-11-18].

付費5元查看完整內容

對話系統作為人機交互的重要方式,有著廣泛的應用前景。現有的對話系統專注于解決語義一致性和內容豐富性等問題,對于提高人機交互以及產生人機共鳴方向的研究關注度不高。如何讓生成的語句在具有語義相關性的基礎上更自然地與用戶交流是當前對話系統面臨的主要問題之一。首先對對話系統進行了整體情況的概括。接著介紹了情感對話系統中的對話情緒感知和情感對話生成兩大任務,并分別調研歸納了相關方法。對話情緒感知任務大致分為基于上下文和基于用戶信息兩類方法。情感對話生成的方法包括規則匹配算法、指定情感回復的生成模型和不指定情感回復的生成模型,并從情緒數據類別和模型方法等方面進行了對比分析。然后總結整理了兩大任務下數據集的特點和鏈接便于后續的研究,并歸納了當前情感對話系統中不同的評估方法。最后對情感對話系統的工作進行了總結和展望。

//fcst.ceaj.org/CN/abstract/abstract2684.shtml

付費5元查看完整內容

隨著人工智能技術的深入發展,自動駕駛已經成為人工智能技術的典型應用,近十年得到了長足的發展,作為一類非確定性系統,自動駕駛車輛的質量和安全性得到越來越多的關注.對自動駕駛系統,特別是自動駕駛智能系統(如感知模塊,決策模塊,綜合功能及整車)的測試技術得到了業界和學界的深入研究.本文調研了56篇相關領域的學術論文,分別就感知模塊、決策模塊、綜合功能模塊及整車系統的測試技術、用例生成方法和測試覆蓋度量等維度對目前已有的研究成果進行了梳理,并描述了自動駕駛智能系統測試中的數據集及工具集.最后,對自動駕駛智能系統測試的未來工作進行了展望,為該領域的研究人員提供參考.

//www.jos.org.cn/jos/ch/reader/view_abstract.aspx?file_no=6266&flag=1

付費5元查看完整內容

我們生活在一個由大量不同模態內容構建而成的多媒體世界中,不同模態信息之間具有高度的相關性和互補性,多模態表征學習的主要目的就是挖掘出不同模態之間的共性和特性,產生出可以表示多模態信息的隱含向量.該文章主要介紹了目前應用較廣的視覺語言表征的相應研究工作,包括傳統的基于相似性模型的研究方法和目前主流的基于語言模型的預訓練的方法.目前比較好的思路和解決方案是將視覺特征語義化然后與文本特征通過一個強大的特征抽取器產生出表征,其中Transformer[1]作為主要的特征抽取器被應用表征學習的各類任務中.文章分別從研究背景、不同研究方法的劃分、測評方法、未來發展趨勢等幾個不同角度進行闡述.

//www.jos.org.cn/jos/ch/reader/view_abstract.aspx?file_no=6125&flag=1

付費5元查看完整內容

摘要:大數據是多源異構的。在信息技術飛速發展的今天,多模態數據已成為近來數據資源的主要形式。研究多模態學習方法,賦予計算機理解多源異構海量數據的能力具有重要價值。本文歸納了多模態的定義與多模態學習的基本任務,介紹了多模態學習的認知機理與發展過程。在此基礎上,重點綜述了多模態統計學習方法與深度學習方法。此外,本文系統歸納了近兩年較為新穎的基于對抗學習的跨模態匹配與生成技術。本文總結了多模態學習的主要形式,并對未來可能的研究方向進行思考與展望。

付費5元查看完整內容
北京阿比特科技有限公司