亚洲男人的天堂2018av,欧美草比,久久久久久免费视频精选,国色天香在线看免费,久久久久亚洲av成人片仓井空

**摘要

3D點云表示在保持物理世界的幾何保真度方面發揮著至關重要的作用,使得對復雜三維環境的理解和交互更加精確。人類可以通過多感官系統自然地理解物體之間的復雜關系、空間布局及其變化,而人工智能(AI)系統尚未完全復現這一能力。為了彌合這一差距,整合多種模態(如圖像、文本、音頻和點云)變得尤為重要。能夠無縫集成并在這些模態之間進行推理的模型被稱為基礎模型(Foundation Models, FMs)。 在2D模態(如圖像和文本)方面,基礎模型的研究取得了顯著進展,這主要得益于大規模數據集的豐富性。然而,在3D領域,由于標注數據的稀缺性和高計算開銷,其發展相對滯后。針對這一問題,近年來的研究開始探索將FMs應用于3D任務的潛力,借助現有的2D知識克服這些挑戰。此外,語言作為一種能夠進行抽象推理和環境描述的媒介,通過大規模預訓練語言模型(LLMs)提供了一種增強3D理解的潛在途徑。 盡管近年來FMs在3D視覺任務中的發展和應用取得了快速進展,但仍缺乏全面和深入的綜述性研究。本文旨在填補這一空白,系統性地回顧當前最先進的利用FMs進行3D視覺理解的方法。我們首先回顧了構建3D FMs所采用的各種策略,然后對不同FMs在感知任務等領域的應用進行分類和總結。最后,我們對該領域的未來研究方向進行了探討。本綜述旨在為研究人員和實踐者提供一個結構化的指南,既總結現有知識,也為未來的探索提供一條清晰的路線圖。 此外,為了補充本綜述,我們提供了一個相關論文的精選列表://github.com/vgthengane/Awesome-FMs-in-3D

**關鍵詞

點云、3D視覺、基礎模型、視覺-語言模型、大型語言模型、多模態模型

1 引言

在當前推動人工智能(AI)系統向類人思維和行為發展的競賽中,一個至關重要的因素是AI對三維(3D)世界的理解和導航能力。為了使AI系統能夠有效地部署在現實環境中,它們必須具備穩健的三維世界感知能力[1]。三維世界可以采用多種形式進行表示,包括深度圖像、網格(meshes)、體素網格(volumetric grids)和點云(point clouds)[2]。其中,點云是最常用的一種表示方式,由三維坐標系中的點集合構成[3]。 三維點云是空間數據表示領域中的核心范式[4],在多個領域發揮著關鍵作用,包括計算機視覺、機器人技術、自動駕駛、增強現實等[5]。在計算機視覺中,點云可用于精確建模現實場景,從而促進目標檢測、場景理解和三維重建等任務[2]。同樣,在機器人和自動駕駛領域,點云在感知和導航中起著至關重要的作用,有助于障礙物檢測、環境建圖和路徑規劃[6]。此外,在增強現實應用中,點云作為核心數據結構,支持虛擬對象在物理世界上的疊加,增強用戶體驗和交互[7]。總體而言,點云所蘊含的豐富信息和多功能性使其成為三維理解和交互不可或缺的工具。 盡管點云在三維數據處理中扮演著重要角色,但其應用仍面臨諸多挑戰。首先,三維數據集的采集過程復雜,成本高昂,且耗時較長[8]。此外,為點云數據提供用于目標識別、語義分割和推理等任務的標注(ground truth)極為繁瑣,需依賴專業知識[9]。訓練大規模模型需要處理海量數據集,這對計算資源和基礎設施提出了較高要求,往往需要高性能計算系統[10]。更進一步,盡管點云能夠捕捉幾何細節,但其數據本質上是稀疏的,缺乏關于物體或場景的語義信息[11]。 這些挑戰促使研究者們思考以下核心問題:我們能否利用其他數據模態,如圖像、文本和音頻,以增強對三維數據的理解,并借助能夠提取特征的模型實現這一目標?此外,我們能否在無需大量數據采集和昂貴模型訓練的情況下,彌補數據、標注和語義信息的缺失? 這種思考催生了基礎模型(Foundation Models, FMs)。“基礎模型”一詞首次由文獻[12]提出,指的是基于大規模數據集進行自監督學習訓練的深度學習模型。這類模型展現出前所未有的適應性,可跨多種任務和領域應用,其特點包括預訓練[13]、可泛化性、可通過遷移學習進行適配[14],在模型規模和數據規模上都具備大規模性,以及以自監督學習為核心的訓練方式。 盡管基礎模型(FMs)的基本組成部分(如神經網絡和遷移學習)已存在多年,但近年來,它們在自然語言處理(NLP)領域取得了顯著進展,尤其是在大型語言模型(LLMs)如BERT和GPT-3的推動下[15, 16]。隨著NLP的成功,計算機視覺(CV)領域也取得了類似進展。例如,視覺-語言模型(Vision-Language Models, VLMs),如CLIP[17],在大規模圖像-文本數據集上進行訓練,在多個下游任務中展現出卓越的泛化能力[18, 19]。進一步地,SAM等模型[20]針對分割任務的適應性,使其能夠用于無類別約束(class-agnostic)的分割應用,包括醫學圖像分割[21]和三維視覺任務[22]。 為了更有效地理解三維世界,研究者嘗試結合圖像、文本和音頻等多模態信息,并借助基礎模型(FMs)推動多種方法的發展[1]。例如,一種研究方向是利用二維基礎模型(2DFMs)構建三維基礎模型(3DFMs)[23, 24]。另一種方向是利用這些2DFMs進行點云分類[25, 18]、語義分割[26, 27]和目標檢測[28, 29]等任務。此外,隨著開源大型語言模型(LLMs)[30, 31, 32]的出現,一些方法已被提出用于三維理解,涵蓋物體級別[33, 34]和場景級別[35, 36]的任務。盡管LLMs本質上是為基于文本的推理設計的,但它們可以通過與視覺模型結合來適用于三維任務。例如,LLMs從文本描述或指令生成的嵌入向量可以與三維模型的特征進行對齊,從而實現視覺定位(visual grounding)[37]、三維文本描述(3D captioning)[38]和三維問答(3D question-answering)[39]等任務。 盡管2DFMs在三維視覺任務中的應用取得了快速發展和廣泛采用,但現有文獻仍缺乏對這些方法的深入總結。為填補這一空白,我們提出了一份全面且結構化的指南,旨在為研究人員和實踐者提供權威參考。

分類體系(Taxonomy)

本綜述詳細分析了用于三維點云理解的二維基礎模型(2DFMs)。它旨在為研究人員提供幫助,無論是新入門者還是經驗豐富的專家,并通過結構化的分類體系(如圖1所示)幫助理解關鍵概念。我們首先在第2節奠定基礎,詳細討論點云、可用數據集、單模態和多模態模型以及下游任務適配等核心主題。隨后,第3節探討了利用2DFMs構建3D基礎模型(3DFMs)的早期研究工作。接著,第4節分析了這些2D-和3DFMs在分類、分割和檢測等3D任務中的應用。同樣地,第5節探討了2D-和3DFMs與LLMs結合以解決3D任務的研究進展。整個綜述中,我們總結了相關方法,并分析了它們在不同數據集上的表現。此外,第6節展望了當前的局限性及未來發展方向,并在第7節對本綜述進行總結。

研究范圍(Scope)

本綜述聚焦于針對三維點云的基礎模型(FMs)。這些FMs涵蓋了單模態模型(主要為文本處理的大型語言模型LLMs),如LLaMa[30]、GPT-3[16]和Vacuna[31],以及其多模態擴展模型,如CLIP[17]、SAM[20]、ImageBind[40]及其變體[41],以及融合LLMs的多模態模型,如LLaVa[42]和MiniGPT-4[43]。我們排除了使用2DFMs進行圖像生成、操作或渲染的研究,因為這些方向已在現有文獻中得到廣泛覆蓋。此外,我們未涉及醫學影像或遙感等特定領域的應用,因為這些方向更適合獨立的綜述論文。相反,我們提供了對現有文獻的全面概述,這些研究可廣泛適用于多個領域。

相關綜述(Related Surveys)

我們將本綜述與現有三維點云相關文獻進行比較。Guo等人[44]對深度學習在三維點云處理中的應用進行了全面回顧。此外,[5, 2, 45]提供了針對基于Transformer架構模型的詳細分析,但僅關注于這一特定類別的模型。一些研究總結了自動駕駛領域的三維目標檢測方法[6, 46, 47, 48],但未涵蓋更廣泛的三維應用。此外,這些綜述較為過時,未能反映近年來利用預訓練大模型進行三維理解的最新進展。Awaise等人[49]對2DFMs在計算機視覺任務中的應用進行了總結,但未涉及三維應用。其他文獻如[7, 50]研究范圍較為局限,例如,[7]僅關注于點云的自監督學習方法,[50]專注于點云的標簽高效(label-efficient)學習方法。相比之下,我們的綜述旨在提供盡可能全面的方法列表,涵蓋利用2D/3D FMs解決各類三維下游任務的最新研究進展。

特性(Features)

本綜述是首個對三維點云學習領域的基礎模型(FMs)進行全面探討的研究,填補了當前文獻中的重要空白,旨在為新入門者和資深研究人員提供一個起點和參考指南。本綜述的核心特性包括: ? 三維視覺任務與數據集背景介紹:提供點云基礎知識,并概述用于訓練和評估的多種數據集,重點分析其關鍵特性及面臨的挑戰。 ? 基礎模型(FMs)及關鍵概念討論:簡明扼要地解釋FMs的概念和重要術語,以確保讀者能夠清晰理解其在不同應用場景中的作用。 ? 方法的全面分析:詳細回顧現有方法,并與替代方案進行比較,使讀者能夠清楚地理解各方法的優缺點及其適用場景。


貢獻(Contributions)

本研究的主要貢獻如下: ? 全面的背景介紹:我們介紹了三維點云的基本概念、現有可用的數據集,以及基礎模型(FMs)及相關術語。這一背景知識為理解綜述中討論的方法奠定了基礎。 ? 結構化分類體系(Taxonomy):我們提出了一種結構化的分類體系,使新研究人員能夠快速理解該領域的核心概念,同時為資深研究者提供深入探索當前趨勢的途徑。該分類體系按照不同任務、模型適配策略以及其他重要因素對方法進行分組,以便更好地組織和理解現有文獻。 ? 對未來發展方向的深入探討:此外,我們基于本綜述討論的研究成果,對未來發展趨勢進行了深入分析。內容涵蓋數據集構建、模型適配三維任務的有效方法,以及該領域的其他新興趨勢。 通過對基礎模型(FMs)、分類體系、數據集及方法的全面綜述,本研究為研究人員、從業者和愛好者提供了有價值的指導,旨在推動三維世界理解領域的發展。

付費5元查看完整內容

相關內容

摘要—基礎模型已經革新了人工智能,在性能上設定了新的基準,并在廣泛的視覺和語言任務中實現了變革性能力。然而,盡管時空數據在交通、公共衛生和環境監測等關鍵領域中廣泛存在,時空基礎模型(STFMs)仍未取得相應的成功。本文提出了時空基礎模型的未來愿景,闡述了其基本特征以及廣泛應用所需的泛化能力。我們對當前的研究狀態進行了批判性評估,識別出與這些理想特征相比的研究空白,并突出了阻礙其進展的關鍵挑戰。最后,我們探討了推動研究向有效且廣泛適用的時空基礎模型發展的潛在機會和方向。

I. 引言 深度學習的出現顯著推進了各類應用中的最先進性能。在近幾年,基礎模型(FMs)[8]——在大規模和廣泛數據上預訓練的大型神經網絡——憑借其卓越的“泛化”能力,尤其在語言和視覺任務中,通過遷移學習的概念,取得了變革性的成功。然而,基礎模型尚未在涉及時空數據的任務中取得類似的影響。時空(ST)數據涵蓋了具有空間和時間維度的各種數據,廣泛存在于許多領域,包括城市分析 [37]、[45]、[50]、[53]、[58]、天氣預報 [9]、[30]、[38]、氣候科學 [16]、[18]、[31]、[54]、環境監測 [1]、[4]、[26]、[51]、農業 [10]、[14]、[34]、[55]、公共衛生 [36]、[42]、[49]、[60]、[64]等。隨著時空數據從不同來源不斷增長,其可行性和潛力也在增加,時空基礎模型(STFMs)有望在不同領域學習共享模式,提高效率,特別是對于數據匱乏的應用,增強其泛化能力。然而,由于時空數據的若干特性,大大增加了STFM學習的復雜性,導致進展緩慢。此外,現有的研究高度分散,主要依賴于特定的應用,這阻礙了朝著一種真正通用的時空基礎模型(STFM)的進展,而這種模型可以與現有的語言和視覺模型相媲美。

本文提出了時空基礎模型的未來愿景,并探討其在各類時空應用中推進最先進性能的潛力。我們概述了廣泛適用的時空基礎模型所必需的關鍵泛化能力,并分析了它們發展的主要挑戰和障礙。我們對當前的研究狀態進行了批判性評估,識別出與這些理想特征相比的研究空白。我們還探討了通過有針對性的研究和創新推動進一步發展的機會。總結來說,本文的主要貢獻如下:

我們通過識別時空基礎模型的關鍵理想能力,提出了時空基礎模型發展的方向。 我們審視了時空基礎模型研究中的現有努力,并根據這些理想評估了當前的能力。 我們考慮了進一步研究的主要途徑和機會,以提高性能和適用性。 II. 基礎知識 A. 時空數據 時空數據是涉及空間和時間維度的任何類型數據。最抽象地說,它可以被理解為一組時間序列,每個序列都與特定的空間位置相關聯。我們將時空序列表示為 X∈RV×N×TX \in R^{V \times N \times T}X∈RV×N×T,其中 VVV 代表變量或特征的數量,NNN 是空間位置的數量(通常但不一定由傳感器或測量設備的數量決定),TTT 是時間步數。在實際應用中,時空數據有多種不同的格式或結構,不同的格式適合不同的應用。圖1對四種類型的時空數據進行了分類,并提供了其應用示例。下面我們將詳細描述每種類型的時空數據。

柵格數據:柵格數據在一個規則且固定的空間網格上結構化,具有高度 HHH 和寬度 WWW。在這種格式下,NNN 等于網格中單元格的總數,即 N=H×WN = H \times WN=H×W。需要注意的是,每個單元格中的特征可能并不對應于物理系統中的唯一數據記錄或傳感器,這取決于物理和后勤的限制。相反,原始測量值可以通過各種插值技術轉換為所需分辨率的柵格數據。柵格數據廣泛應用于時空應用領域,如交通、天氣與氣候分析、醫學成像、遙感等。視頻數據也可以視為一種特殊形式的柵格數據,其中每個單元格代表一個像素,并在每個時間步包含自己的RGB值。 點參考數據:點參考數據與柵格數據類似,不同之處在于數據測量的空間位置可能隨著時間步的變化而變化。例如,氣象氣球收集的氣候數據,由于氣流的影響,氣象氣球隨時間移動,或者漂浮在海面上的浮標傳感器記錄的海表溫度。在這種情況下,變化的空間位置成為一個額外的變量,必須在每個時間步進行追蹤和記錄,從而增加了數據結構的復雜性。 軌跡數據:軌跡數據代表了物體在空間中隨時間變化的路徑,包含一對地理坐標和時間戳:{li,ti}{ l_i, t_i }{li,ti}。它通常應用于與移動相關的領域,例如行人或車輛運動跟蹤。在處理多個移動物體時,通常將軌跡數據分為離散的桶,其中特征表示在特定空間邊界和特定時間段內的軌跡數量,這與柵格數據非常相似。 事件數據:事件數據通過一組元組 {ei,li,ti}{ e_i, l_i, t_i }{ei,li,ti} 特征化,其中每個元組對應一個特定類型的事件 eie_iei,并在位置 lil_ili 和時間 tit_iti 記錄。事件通常較為稀有,例如犯罪或交通事故。因此,事件數據通常比其他形式的時空數據更加稀疏,大部分條目為零。由于這種稀疏性,事件數據的建模和分析需要采用專門的技術。 正如 [20] 所述,時空數據具有兩個關鍵特性。第一個特性是異質性,意味著時空模式可能會在空間(從一個位置到另一個位置)和時間(從一個時間段到另一個時間段)范圍和尺度上有所不同。異質性是一個特別具有挑戰性的特性,因為它違反了所有數據樣本都是獨立同分布的假設,即來自同一概率分布。第二個特性是自相關性,反映了相近時間和空間的測量往往遵循相似的分布,這里的相近既可以理解為空間上的接近,也可以是時間上的接近。這一點在托布勒的地理第一定律中得到了很好總結:“一切都是相互關聯的,但近的事物比遠的事物更相關。”

B. 時空數據挖掘 時空數據挖掘涉及學習建模時空數據中的空間和時間模式。近年來,結合卷積和遞歸模塊的神經網絡在捕捉空間和時間依賴性方面表現出了特別的成功。CNN-LSTMs 首先使用卷積神經網絡(CNN)從輸入數據中提取空間特征,隨后使用長短期記憶(LSTM)網絡從提取的空間特征中學習序列模式 [7],[11],[57]。另一種方法,ConvLSTMs [5],[15],[22],[27],[41],[47],將LSTM門中的矩陣乘法替換為卷積操作,以捕捉序列模型中的空間依賴性。

時空圖神經網絡(ST-GNNs)[3],[21],[30],[33],[39],[40],[44],[58],[65] 最近由于其能夠靈活處理不符合規則網格結構的時空數據而受到關注。它們在時空圖上操作,將空間位置表示為圖中的節點或頂點,連接的邊表示鄰近節點之間的空間關系,如接近性或連通性。更多關于ST-GNNs的細節可以參考 [20]。

繼其他模態的成功之后,Transformer [46] 也因其能夠通過自注意力機制捕捉跨越空間和時間的長程依賴關系而在時空數據中引起了廣泛關注 [2],[17],[23],[29],[56],[59]。與卷積模型(在局部感受野上操作)或遞歸模型(依賴于順序處理)不同,Transformer可以通過同時關注輸入序列的所有部分來學習全局關系。這在那些復雜的、非線性的互動在大范圍空間和長時間周期內演變的領域中特別有用。Transformer模型在其他模態的基礎模型中也得到了廣泛應用。然而,絕大多數時空研究依然采用單任務模型的方式,即為特定任務和訓練數據訓練單獨的模型。

III. 時空基礎模型 單模型任務范式與基礎模型范式的關鍵區別在于它們的泛化能力。

定義 3.1:泛化是模型從一組數據到另一組數據的有效遷移學習模式的能力。

在單模型任務范式中,模型是針對單一任務和單一領域的數據進行訓練的,期望其僅能對來自同一概率分布的未見樣本進行泛化。另一方面,基礎模型是在更廣泛的數據上進行訓練的,期望其能夠對來自其他分布的新數據進行泛化。在這種背景下,我們對時空基礎模型(STFM)的定義如下:

定義 3.2:時空基礎模型(STFM)是一個在多種時空數據源上進行大規模預訓練的神經網絡,旨在通過學習空間和時間依賴性的普遍模式,從而在多個任務之間實現泛化。

這個描述故意保持廣泛,以反映現有時空基礎模型研究中的顯著多樣性。我們觀察到,基礎模型的“基礎性”并不是一個二元的描述,而是存在于一個光譜上,其泛化能力的展示程度各不相同。為了開始解讀這種多樣性,我們提出了一個基本問題:時空基礎模型應該能夠做什么?我們通過識別時空上下文中任務的四種主要變化方式來回答這個問題,從而得出四種泛化形式,用于評估時空基礎模型的能力。總的來說,這些泛化能力如下:

領域泛化:跨越不同數據源,代表不同的物理系統和應用類別。 空間泛化:跨越不同的空間位置或區域。 時間泛化:跨越不同的時間段和間隔。 尺度泛化:跨越不同的數據分辨率、頻率或粒度。 這些泛化能力可以通過兩種不同的方式進行評估:

同分布泛化:我們可以通過評估模型在預訓練階段遇到的任務上的表現,來評估其在多個領域和分布上學習到的可泛化模式的能力。 跨分布泛化:或者,我們可以評估模型在沒有接觸過的數據分布的情況下,將其遷移到預訓練階段未見過的新任務的能力。 A. 時空基礎模型的泛化能力 在本節的其余部分,我們全面詳細地探討四種泛化方式,并識別在當前數據和技術限制下實現這些泛化能力的關鍵挑戰。

  1. 領域泛化 如前所述,時空數據在廣泛的應用中都有存在。圖3展示了按頂層類別或領域組織的一小部分應用示例:交通、天氣與氣候以及城市活動。每個類別都包含了大量的具體應用。例如,交通領域包括通過道路網絡傳感器測量的交通流量、交通事故的時間和地點,或公共交通網絡中乘客在不同站點的進出量。在天氣與氣候領域,則有各種不同的大氣變量,如氣溫、降水量或不同污染物的濃度。鑒于這些應用的多樣性,第一種泛化方式是跨越不同數據領域的泛化。

挑戰:基礎模型依賴于跨不同數據源或領域之間存在共享模式。例如,在語言學中,單詞的語義意義在不同的上下文中通常是一致的,句子遵循一套共同的語法規則。相比之下,時空數據的分布規律高度依賴于應用。例如,在交通網絡中,交通流量和交通事故等應用可能會有很強的相關性,因為它們都涉及相同的基礎物理系統。同樣,在天氣與氣候研究中,空氣中污染物的濃度通常與降水的發生和強度密切相關。在這些情況下,通過結合這兩類應用的時空數據訓練時空基礎模型(STFM)可能會通過共享模式帶來相互的好處。然而,在更為離散的應用之間,例如交通事故和疾病爆發之間,是否能通過同時建模這兩類應用來提高STFM的表現,仍然存在不確定性,這種現象在深度學習領域中被稱為負遷移。這突出了開發能夠有效跨多個應用領域進行泛化的時空基礎模型的挑戰。如第IV節所述,目前的研究通常側重于更為狹義的STFM,通常局限于某一領域中的少數應用,而非解決跨領域泛化的問題。 2) 空間泛化 第二種泛化方式是跨越不同空間位置。一個時空基礎模型不應僅限于從有限的地理空間選擇中進行應用,它應該能夠從不同的環境和條件中學習,并能夠在推理階段遷移到未見過的地方。

挑戰:時空數據可能表現出顯著的空間異質性。換句話說,數據模式可能在不同的位置間有顯著的變化,即使在同一應用中也是如此。例如,在交通流量應用中,基于一個城市的交通數據訓練的模型可能很難將其泛化到另一個有不同道路網絡或交通法規的城市中。在污染物濃度應用中,基于高度城市化區域的數據訓練的模型可能很難將其泛化到郊區或農村地區。這種挑戰在某些現有數據集的預訓練中尤為嚴重,因為這些數據集往往在某些特定區域有偏倚。例如,現有研究中使用的交通數據集,往往過度集中在像北京、紐約市和倫敦這樣的主要城市,這增加了時空基礎模型(STFM)對這些城市及類似城市中的模式的偏倚,而無法對其他大多數區域做出有效的泛化,尤其是在那些較小的、甚至沒有出現在訓練數據中的地區。 3) 時間泛化 時空基礎模型還應能夠跨越不同的時間段進行泛化。例如,它應在白天和夜晚、工作日和周末以及從一年到下一年的時間段中都能表現良好。

挑戰:時空模式本質上是動態的,持續以復雜的方式演變。因此,模型所學習到的模式可能隨時間推移而失去相關性。這些變化可能是漸進的,例如某一城市的總體人口增長導致交通和公共交通的使用量逐步增加。這類漸進變化通常較為容易管理,因為數據分布的變化速度較慢,為通過重新訓練模型來適應新數據提供了機會。相反,某些變化可能是突如其來的劇烈變化。例如,某個新景點的開設可能導致交通量急劇增加,或是自然災害等突發事件的發生。這類變化的應對要困難得多,因為它們的影響復雜且分布發生了突變,造成了歷史數據和新現實之間的顯著差距。這限制了模型在面對這些突變時的重新訓練能力。 4) 尺度泛化 時空數據跨越了廣泛的尺度。從空間尺度來看,可以從小尺度的測量(如米級)到大尺度的觀測(覆蓋數百公里甚至更遠)。同樣,時間尺度也從高頻觀測(如秒級或分鐘級時間戳)到低頻數據(如天級或周級數據)不等。一個時空基礎模型必須能夠跨越這些不同的空間和時間尺度進行泛化。

挑戰:時空模式可能高度依賴于尺度,也就是說,數據在不同尺度下觀察時,模式可能會有所不同。這在天氣應用中尤為顯著。例如,基于全球天氣模式訓練的模型可能無法在區域級的精細尺度上表現良好,因為各個區域有其獨特的特征和微氣候,這些特征在更廣泛的全球數據中不那么明顯。為克服這個挑戰,現有的時空數據挖掘研究探索了層次化架構,這些架構旨在捕捉不同級別和不同尺度的模式。

IV. 當前時空基礎模型研究 本節中,我們將審視當前時空基礎模型(STFM)研究的現狀,重點介紹一些特別近期和具有影響力的模型。我們首先簡要描述每個模型。

UniST [61] 采用基于 Transformer 的編碼器-解碼器架構,使用掩碼補丁建模進行訓練,目標是從模型輸出中的掩碼標記恢復原始數據。在預訓練階段,使用多種掩碼來模擬重建階段中的不同問題。此外,UniST構建了學習到的提示池,以編碼不同形式的時空知識,例如空間鄰近性和日常或每周的周期性,這些信息被添加到掩碼標記嵌入中,引導模型朝著更好的預測方向發展。

OpenCity [25] 將 Transformer 架構與圖神經網絡結合,學習來自大規模異構交通數據集的時空依賴關系。

UrbanGPT [24] 學習將時空序列編碼為新表示,可以將這些表示嵌入到自然語言提示中,從而使得大型語言模型能夠理解和處理這些提示。

ClimaX [35] 使用視覺 Transformer 進行多種天氣和氣候相關任務。它獨立地對每個變量進行標記化和嵌入,以靈活地處理不同數量的輸入變量,然后聚合這些變量以減少內存復雜度。

Pangu-Weather 設計了一個三維地球專用 Transformer(3DEST),將天氣信息處理為立方體數據,并進行有監督訓練,以執行各種天氣預測任務。

A. 當前STFM泛化能力 表I 展示了我們對當前最先進的STFM在泛化能力方面的定性評估,基于原始文獻中展示的性能。接下來,我們將詳細解釋我們的評估標準。

B. 領域泛化 一個顯著的觀察是,與其他模態的基礎模型不同,STFM在應用上高度碎片化。UniST、UrbanGPT 和 OpenCity 幾乎完全專注于交通數據。UniST 和 OpenCity 總共在21個數據集上進行訓練和評估,但這些數據集中的大多數都涉及交通速度或流量,另外一些數據集包括自行車使用、出租車軌跡和蜂窩使用。兩個模型都通過完全排除某些數據集來評估它們在適應未見過的應用中的能力。另一方面,UrbanGPT 僅使用四個來自出租車、自行車和犯罪應用的數據集,其中三個用于預訓練。

Pangu-Weather 和 ClimaX 則專注于各種大氣變量。ClimaX 總共接受48個輸入變量,但只評估了其中的4個變量。Pangu-Weather 只在預測任務中進行評估。

C. 空間泛化 公共交通數據集的空間覆蓋僅限于少數幾個主要的城市中心。UniST 和 OpenCity 在預訓練和評估中使用的數據集分別來自美國和中國的不同城市,并在這些城市的未見區域上評估泛化能力。UrbanGPT 完全在紐約市的數據上進行訓練,并在其對未見區域的泛化能力以及對新城市(如芝加哥)的泛化能力上進行評估。由于這些地理位置非常有限,因此很難評估它們在與訓練集高度不同的位置上的泛化能力。

常用的天氣數據集使用來自衛星的全球覆蓋的真實觀測數據,并結合數值天氣預測模型,這意味著它們相比交通數據集提供了更廣泛的空間覆蓋。特別是,ClimaX 在 CMIP6 [32] 上進行訓練,并在 ERA5 [19], [43] 上進行測試,而 Pangu-Weather 在 ERA5 中的不同年份數據上進行訓練和評估。這兩項工作的主要實驗是在全球范圍內進行性能測試,盡管ClimaX 也在北美區域進行區域預測。然而,由于訓練和推理是同時在整個全球范圍內進行的,這并沒有展示從已見區域到未見區域的泛化能力。這兩項研究也缺乏對空間維度中誤差分布的分析。

D. 時間泛化 來自中國的大多數交通數據集僅記錄了2022年3月和4月的同一月份數據,時間間隔為5分鐘。其他數據集在時間跨度和總長度上略有差異,涵蓋過去十年。UrbanGPT 在長期預測能力方面的評估通過使用2017年數據進行訓練,并在2021年數據上進行測試。

天氣數據集通常包含更長的時間跨度,使得訓練和評估可以涵蓋更長的時間范圍。Pangu-Weather 在 ERA5 中使用了38年的數據(1979-2017),并在2019年驗證,在2018年和2020-2021年的數據上進行測試;而ClimaX 則使用 CMIP6 數據進行訓練,時間范圍從1850年到2014年,并在 ERA5 上進行測試。此外,ClimaX 的氣候預測任務擴展至2100年,盡管需要注意的是,這并非一個時間建模任務,因為它并未使用歷史觀測數據來預測未來狀態。

E. 尺度泛化 大多數交通數據集的記錄時間間隔為5到30分鐘。UniST 執行了6個時間步長的短期實驗和64個時間步長的長期實驗,無論是輸入還是目標輸出的大小。UrbanGPT 只考慮了12個時間步長的單一時間尺度。

跨空間尺度的泛化對于天氣相關應用尤其重要。從空間上看,Pangu-Weather 只考慮了一個空間分辨率;0.25° × 0.25°,大約對應28km × 28km的格網大小。相比之下,ClimaX 使用了5.625° × 5.625°的格網以及1.40625° × 1.40625°的格網進行評估。它還評估了模型從5.625°降尺度到1.40625°的能力,以及僅在北美的區域預測。然而,這些都屬于相對大尺度且粗略的分辨率,無法捕捉到最有用的局部模式,這對于地方級預測至關重要。

從時間上看,Pangu-Weather 為不同的預報時間(1小時、3小時、6小時和24小時)訓練了四個獨立的模型,并將這些模型進行聚合,以進行任意時間的預測。這是為了減少預測中的誤差傳播,尤其是在較長預測時間下,但這也與基礎模型的初衷相悖。另一方面,ClimaX 在預訓練時隨機化了6小時到168小時(1周)之間的預報時間,并在評估時使用了不同的預報時間。此外,它考慮了各種預測任務,包括季節性預測和跨越更長時間范圍的氣候預測。

V. 機會 A. 跨領域協同 在第III-A1節中探討了來自不同應用或來源的時空序列之間復雜的關系。這些關系在現有的時空模型中被嚴重低估。例如,基于我們對傳染病通過密切接觸傳播的理解,我們可以推測人類流動模式和交通流量可能會顯著影響疾病傳播。因此,捕捉人類流動模式的模型也可能為模擬疾病傳播提供有價值的見解。通過訓練時空基礎模型(STFM)來理解來自多個領域的數據模式,我們可以通過識別和利用跨領域的相關性,增強在特定應用中的性能。

一個重要的考慮是,許多應用之間的關系是有方向的。例如,天氣條件可能會影響出行模式,因此準確的天氣預測有助于預測交通流量,但反過來并不成立。因此,一個有前景的方法可能是設計機制,將關于時空動態的先驗知識(如物理法則和約束)融入模型中。如果某些特征之間的關系尚不明確,我們還可以借助因果學習的最新進展來揭示這些關系。已經有一個專門的研究領域,致力于在時空背景下發現和推斷因果關系[13],[28],[67],這一研究線索在時空神經網絡時代[12],[48],[52],[66]中得到了延續。

B. 統一架構 如第II節所述,時空數據以各種不同的類型和格式出現。一個有效的時空基礎模型應能夠處理所有這些數據類型,但現有的模型主要或完全專注于單一數據類型(即基于網格的柵格數據)。最近有一些初步的工作開始嘗試將更靈活的時空圖數據納入模型[62],[63],然而這些方法大多將其視為簡單的預處理步驟,可能未能充分考慮不同數據類型的獨特屬性。此外,當前研究中對Transformer架構的關注過于集中,而Transformer由于其自注意機制存在二次復雜度,隨著時空數據集的規模以及待建模變量和特征數量的增長,這一復雜度逐漸成為學習時空模式的障礙。為了解決這些挑戰,需要創新性的方法,如稀疏注意力機制、高效的基于圖的表示以及將Transformer與其他架構(如卷積神經網絡)結合的混合模型。

C. 多樣化目標 現有的時空研究主要集中在預測變量的空間分布或基于歷史觀測數據預測其未來狀態。盡管這些目標具有重要的實踐意義,但時空基礎模型(STFM)有能力執行許多其他任務。例如,異常檢測可以自然地從預測任務中衍生出來,通過測量預測序列與真實序列之間的差異。在這種情況下,底層表示學習的質量起著至關重要的作用,一個在某一任務中表現優秀的模型,通常也能在其他任務中有效地發揮作用,因為它已經學習到強大的特征表示。然而,如果能夠為STFM賦予執行其他任務的能力,如分類、聚類或推薦系統,將大大擴展其在各種應用中的實用性,同時又不影響其在其他任務中的準確性。一種有效的方式是為基礎模型添加一個輕量級模塊,使其能夠在不損失準確性的情況下,靈活高效地適應新任務。

D. 適應數據分布偏移 基礎模型通過大量數據進行訓練,跨越不同來源和領域,從而使其暴露于各種場景下。然而,在推理階段,它們仍然嚴重依賴于訓練數據的統計特性。如果測試數據與訓練分布偏離(例如,由于城市發展等時間變化或區域政策等空間差異),模型的表現可能會急劇下降。此外,時空數據的高復雜度和維度增加了在實際應用中遇到未見過的模式或分布外(OOD)場景的可能性。第III-A2節和III-A3節中已經識別出了這一挑戰。基礎模型的適應性提供了一個有前景的解決方案來應對這一挑戰。近年來,關于計算機視覺中基礎模型適應性的研究引起了廣泛關注,以提高它們在特定任務中的性能,尤其是在數據分布外的任務中。最新的研究集中在如領域對抗訓練等技術上,旨在鼓勵模型學習領域不變的特征,此外還有元學習技術,可以通過有限的新分布數據迅速適應新的分布。

VI. 結論 時空基礎模型(STFM)作為一種新興的研究方向,展現出極大的潛力,能夠提高現有任務的性能,并解鎖與時空數據相關的新任務。盡管STFM在捕捉時空關系的復雜性方面展現了顯著的潛力,其在空間區域、時間段和新的下游任務上的泛化能力仍然是一個關鍵挑戰。我們強調了空間變化性、時間動態、數據分布偏移和尺度依賴模式等問題,這些問題限制了有效的泛化能力。

隨著時空模型的不斷發展,未來的研究應重點開發增強模型適應未見數據分布和動態環境的技術。通過集成更強大的機制來處理跨領域的相關性,并融入細粒度的適應性技術,我們可以充分發揮STFM在廣泛實際應用中的潛力。通過持續創新和完善,時空模型有望推動我們對復雜系統的理解,進而實現更準確的預測、更好的決策支持以及跨領域的更優成果。

付費5元查看完整內容

摘要—基礎模型(FM)驅動的代理服務被視為一種有前景的解決方案,用于開發智能化和個性化的應用,推動人工通用智能(AGI)的發展。為了在部署這些代理服務時實現高可靠性和可擴展性,必須協同優化計算和通信資源,從而確保有效的資源分配和無縫的服務交付。為實現這一愿景,本文提出了一個統一框架,旨在提供一個全面的綜述,探討在異構設備上部署基于FM的代理服務,重點是模型和資源優化的集成,以建立一個強大的基礎設施支持這些服務。特別地,本文首先探索了推理過程中的各種低層次優化策略,并研究了增強系統可擴展性的方法,如并行化技術和資源擴展方法。接著,本文討論了幾種重要的基礎模型,并調查了專注于推理加速的研究進展,包括模型壓縮和標記減少等技術。此外,本文還研究了構建代理服務的關鍵組件,并突出了值得關注的智能應用。最后,本文提出了開發具有高服務質量(QoS)實時代理服務的潛在研究方向。 關鍵詞—基礎模型、AI代理、云/邊緣計算、服務系統、分布式系統、AGI。

I. 引言

人工智能(AI)的快速發展使得基礎模型(FM)成為創新的基石,推動了自然語言處理、計算機視覺和自主系統等多個領域的進步。這些模型的特點是參數空間龐大,并在廣泛的數據集上進行了深度訓練,孕育了從自動化文本生成到高級多模態問答和自主機器人服務等眾多應用[1]。一些流行的基礎模型,如GPT、Llama、ViT和CLIP,推動了AI能力的邊界,提供了處理和分析大量數據的復雜解決方案,涵蓋了不同格式和模態。基礎模型的持續進展顯著增強了AI在理解和與世界互動方面的能力,使其在某種程度上類似于人類認知。 然而,傳統的基礎模型通常僅限于提供問答服務,并根據已有知識生成回答,往往無法整合最新信息或利用先進工具。基礎模型驅動的代理服務旨在增強基礎模型的能力。這些代理具備動態記憶管理、長期任務規劃、高級計算工具以及與外部環境的交互功能[2]。例如,基礎模型驅動的代理能夠調用不同的外部API以訪問實時數據,執行復雜的計算,并根據最新的可用信息生成更新的響應。這種方法提高了響應的可靠性和準確性,并使與用戶的互動更加個性化。 開發具有低延遲、高可靠性、高彈性并且資源消耗最小的服務系統,對于向用戶提供高質量的代理服務至關重要。這樣的系統能夠有效地管理不同的查詢負載,同時保持快速響應并減少資源成本。此外,在異構的邊緣-云設備上構建服務系統,是利用邊緣設備的閑置計算資源和云端豐富計算集群的一種有前景的解決方案。邊緣-云設備的協同推理能夠通過根據計算負載和實時網絡條件動態分配任務,提升整體系統效率。 盡管許多研究已經探討了小型模型在邊緣-云環境中的協同推理,但在這種范式下部署基礎模型以支持多樣化的代理服務仍然面臨著一些嚴重挑戰。首先,波動的查詢負載極大地挑戰了模型服務。隨著越來越多的用戶希望體驗基礎模型驅動的智能代理服務,查詢負載急劇增加。例如,截至2024年4月,ChatGPT的用戶約為1.805億,其中每周活躍用戶約為1億[3]。這些用戶在不同時間訪問服務,導致請求速率變化。因此,彈性服務系統應根據當前的系統特性動態調整系統容量。其次,基礎模型的參數空間極為龐大,達到數百億規模,這對存儲系統提出了巨大挑戰。然而,邊緣設備和消費級GPU的存儲容量有限,無法容納整個模型。龐大的參數量導致了顯著的推理開銷和較長的執行延遲。因此,有必要設計模型壓縮方法,并在不同的執行環境中采用不同的并行化方法。此外,用戶在不同應用中有不同的服務需求和輸入。例如,有些應用優先考慮低延遲,而有些則優先考慮高精度。這要求動態資源分配并調整推理過程。此外,AI代理需要在復雜環境中處理大量艱巨任務,這要求有效管理大規模內存、實時處理更新的規則和特定領域知識。此外,代理具有不同的個性和角色,因此需要設計高效的多代理協作框架。

為了解決上述挑戰,并推動實時基礎模型驅動的代理服務的發展,本文提出了一個統一框架,并從不同優化角度調查了多項研究成果。該框架如圖1所示。底層是執行層,邊緣或云設備在此執行基礎模型推理。聯合計算優化、輸入/輸出優化和通信優化被應用于加速推理,并促進構建強大的基礎模型基礎設施。資源層由兩個組件組成,幫助在不同設備上部署模型。并行化方法設計了不同的模型拆分和放置策略,以利用可用資源并協同提高吞吐量。資源擴展根據查詢負載和資源利用情況動態調整硬件資源,從而提高整體可擴展性。模型層專注于優化基礎模型,提出了兩種輕量級方法,包括模型壓縮和標記減少,旨在推動基礎模型的廣泛應用。基于這些基礎模型,構建了許多AI代理來完成各種任務。為了增強代理的四個關鍵組件,提出了許多方法,包括多代理框架、規劃能力、記憶存儲和工具利用。最終,利用上述技術,可以開發各種應用,為用戶提供智能化和低延遲的代理服務。

A. 相關工作

許多研究集中于優化在邊緣-云環境中部署機器學習模型的系統。KACHRIS回顧了一些用于大規模語言模型(LLMs)計算加速的硬件加速器,以解決計算挑戰[4]。Tang等人總結了旨在優化網絡和計算資源的調度方法[5]。Miao等人提出了一些加速方法以提高大規模語言模型的效率[6]。這項綜述涵蓋了系統優化,如內存管理和內核優化,以及算法優化,如架構設計和壓縮算法,以加速模型推理。Xu等人關注人工智能生成內容(AIGC)的部署,并概述了AIGC的移動網絡優化,涵蓋了數據集收集、AIGC預訓練、AIGC微調和AIGC推理過程[7]。Djigal等人研究了機器學習和深度學習技術在多接入邊緣計算(MEC)系統中資源分配的應用[8]。該綜述包括了資源卸載、資源調度和協同分配。許多研究提出了不同的算法來優化基礎模型和代理的設計。[1]、[9]和[10]提出了流行的基礎模型,特別是大規模語言模型。[11]、[12]和[13]總結了大規模語言模型的模型壓縮和推理加速方法。[2]、[14]和[15]回顧了代理開發中的挑戰和進展。 總之,上述研究要么優化了邊緣-云資源分配和調度以支持小型模型,要么為大規模基礎模型設計了加速或效率方法。據我們所知,本文是首篇全面綜述和討論實時基礎模型驅動的代理服務在異構設備上部署的研究,近年來這一研究方向已經變得尤為重要。我們設計了一個統一框架,填補了這一研究空白,并從不同視角回顧當前的研究成果。該框架不僅勾畫了基礎模型部署的關鍵技術,還識別了基礎模型驅動的代理服務的關鍵組件和相應的系統優化方法。

B. 貢獻

本文全面綜述了在邊緣-云環境中部署基礎模型驅動的代理服務,涵蓋了從硬件到軟件層的優化方法。為方便讀者,本文提供了綜述的大綱(見圖2)。本文的貢獻總結如下:

  • 本綜述提出了第一個全面的框架,旨在深度理解在邊緣-云環境中部署基礎模型驅動的代理服務。該框架具有促進人工通用智能(AGI)發展的巨大潛力。
  • 從低層次硬件角度出發,本文展示了各種運行時優化方法和資源分配與調度方法,這些技術旨在為基礎模型構建可靠且靈活的基礎設施。
  • 從高層次軟件角度出發,本文闡述了專注于模型優化和代理優化的研究工作,提供了構建智能化和輕量化代理應用的多種機會。

本文其余部分安排如下:第二節介紹了一些低層次的執行優化方法;第三節描述了資源分配和并行機制;第四節討論了當前的基礎模型及模型壓縮和標記減少技術;第五節闡明了代理的關鍵組件;第六節介紹了批處理方法及相關應用;最后,第七節討論了未來的研究方向并作結論總結。

付費5元查看完整內容

摘要—三維點云配準是計算機視覺、計算機圖形學、機器人學、遙感等領域中的一個基礎問題。在過去的三十年中,我們見證了這一領域的驚人進展,出現了許多不同的解決方案。盡管已有一些相關的綜述文章,但它們的覆蓋范圍仍然有限。在本研究中,我們提供了一篇全面的三維點云配準綜述,涵蓋了一些子領域,如配對粗配準、配對精細配準、多視角配準、跨尺度配準和多實例配準。本文全面介紹了數據集、評估指標、方法分類、優缺點討論以及對未來研究方向的深刻思考。該綜述的項目頁面可通過以下鏈接獲取:

//github.com/Amyyyy11/3D-Registration-in-30-Years-A-Survey。

關鍵詞—三維點云、點云配準、綜述、性能評估、數據集。

1 引言

對三維點云進行統一坐標系配準(即三維點云配準)是計算機視覺、計算機圖形學、機器人學、遙感等多個領域中的一個基礎問題。配準后的點云可以帶來兩個關鍵結果:1)提供更完整的點云用于重建、信息融合和誤差測量;2)為魯棒的姿態估計、三維跟蹤、物體/地點定位和運動流估計提供六自由度(6-DoF)姿態。隨著三維主動和被動獲取技術的發展(如英特爾的RealSense、蘋果的iPhone系列),三維點云配準在過去三十年中引起了越來越多的研究關注。 特別地,針對魯棒的三維點云配準,已經根據數據獲取方式或應用場景的不同,衍生出多個子領域(見圖1)。從處理的數據序列的角度看,配對配準主要關注對齊兩組點云,而多視角配準則處理多個順序或無序的點云。從誤差最小化的角度看,粗配準大致對齊具有較大姿態變化的點云,而精細配準通常聚焦于最小化較小的殘差誤差。從方法學的角度看,早期的方法設計了手工優化或啟發式方法,而近年來的方法則依賴于深度學習技術。還有一些其他的研究視角,如特征學習、對應學習和魯棒的6-DoF姿態估計。因此,三維點云配準領域涉及了大量的方法和研究主題。 現有的綜述通常聚焦于點云配準任務的不同部分或有限范圍。例如,早期的綜述[1]涵蓋了點云配準的多個方面,但缺乏對各子領域之間內在關系的深入分析,未能系統地揭示它們之間的相互聯系和互動。最近的綜述[2]回顧了常用的數據集和評估指標,但缺乏在統一實驗設置下的性能比較,未能展示不同方法在一致條件下的優缺點。因此,這些綜述未能從更加全面的視角覆蓋過去三十年的文獻。 為填補這一空白,我們在本文中提供了對過去幾十年三維配準方法的全面綜述。主要貢獻如下:

  • 全面回顧與新分類法。據我們所知,如圖2所示,這是第一篇全面回顧點云配準方法的綜述論文,涵蓋了配對粗配準、配對精細配準、多視角配準、跨尺度配準和多實例配準等子領域。本文提供了一個系統的分類法,并廣泛覆蓋了相關文獻。
  • 基準概述與性能比較。本文系統總結了三維點云配準的流行基準數據集和性能評估指標,并報告了代表性最前沿方法在標準基準上的一組比較結果。
  • 對未來方向的展望。本文突出分析了現有方法的特點、優缺點,并就當前面臨的挑戰以及未來的研究方向進行了深入討論,以期激發該領域后續的研究工作。

本文的其余部分安排如下:第二節回顧了點云配準的數據集和評估指標;第三節介紹了配對粗配準方法,包括基于對應和無對應的方法;第四節討論了配對精細配準方法,重點介紹了基于ICP和GMM的方法;第五節介紹了多視角粗配準方法,包括幾何方法和基于深度學習的方法;第六節介紹了多視角精細配準方法,包括基于點的和基于運動的方法;第七節介紹了其他配準問題,如跨尺度、跨源、彩色點云和多實例配準;第八節討論了該領域的挑戰與機會。最后,第九節總結了全文。

付費5元查看完整內容

移動智能體在復雜和動態的移動環境中自動化任務方面至關重要。隨著基礎模型的不斷演進,對能夠實時適應并處理多模態數據的智能體需求也隨之增加。本綜述全面回顧了移動智能體技術,重點關注提升實時適應性和多模態交互的最新進展。近期開發的評估基準更好地反映了移動任務中的靜態和交互式環境,從而對智能體的性能提供更準確的評估。

我們將這些進展分為兩大主要方法:基于提示的方法,利用大型語言模型(LLM)執行基于指令的任務;以及基于訓練的方法,對多模態模型進行微調,以適應特定的移動應用。此外,我們還探討了增強智能體性能的互補技術。通過討論關鍵挑戰并概述未來的研究方向,本綜述為推進移動智能體技術提供了寶貴的見解。完整的資源列表可訪問://github.com/aialt/awesomemobile-agents

1 引言

移動智能體在處理復雜的移動環境中取得了顯著的成功,能夠在各種應用中實現任務執行的自動化,且僅需最少的人為干預 (Zhang等, 2023a; Li等, 2024; Bai等, 2024)。這些智能體被設計用于感知、規劃和執行任務,以適應動態環境,特別適用于需要實時適應性的移動平臺。多年來,關于移動智能體的研究顯著發展,從簡單的基于規則的系統演變為能夠處理多模態和動態環境中復雜任務的先進模型 (Shi等, 2017; Rawles等, 2023)。

在早期階段,移動智能體主要關注通過輕量級的基于規則的系統執行預定義的工作流程,這些系統針對移動設備上的特定任務進行了優化。這些早期智能體通常受限于硬件的計算和存儲約束,主要依賴基本的交互模式和靜態流程。然而,移動技術的快速進步為更先進的智能體架構鋪平了道路,使其能夠執行更豐富的任務。 評估移動智能體面臨獨特的挑戰,因為傳統的靜態評估方法往往無法捕捉現實移動任務的動態和交互特性。為了解決這一問題,最近的基準如AndroidEnv (Toyama等, 2021)和Mobile-Env (Zhang等, 2023a) 提供了交互式環境,以評估智能體在真實條件下的適應性和表現。這些基準不僅測量任務完成情況,還評估智能體在應對不斷變化的移動環境方面的反應能力,從而對其能力進行更全面的評估。

移動智能體研究的最新進展可分為兩種方法:基于提示的方法和基于訓練的方法。基于提示的方法利用大型語言模型(LLM),如ChatGPT (OpenAI, 2023)和GPT-4 (OpenAI, 2023),通過指令提示和鏈式思維(CoT)推理處理復雜任務。OmniAct (Kapoor等, 2024) 和AppAgent (Yang等, 2023)等著名研究展示了基于提示的系統在交互式移動環境中的潛力,但其在可擴展性和穩健性方面仍面臨挑戰。另一方面,基于訓練的方法專注于微調多模態模型,例如LLaVA (Liu等, 2023a)和Llama (Touvron等, 2023),專門用于移動應用。這些模型能夠通過整合視覺和文本輸入來處理豐富的多模態數據,從而提升其在界面導航和任務執行等任務中的表現 (Ma等, 2024; Dorka等, 2024)。

本綜述對移動智能體技術進行了深入分析,重點關注感知、規劃、行動和記憶的基本組成部分。我們將現有研究分為基于提示和基于訓練的方法。此外,我們還探討了用于評估移動智能體性能的基準和指標,并討論了互補技術在增強智能體與移動環境交互中的作用。通過本次綜述,我們旨在識別當前的挑戰和未來在推進移動智能體研究方面的機遇。

付費5元查看完整內容

摘要遙感 (RS) 是一種關鍵技術,用于觀測、監測和解讀我們的星球,廣泛應用于地球科學、經濟學、人道主義等領域。雖然人工智能 (AI),特別是深度學習,在遙感領域取得了顯著進展,但開發更智能的遙感系統仍面臨諸多挑戰,包括地球環境的復雜性、多樣的傳感器模式、獨特的特征模式、不同的空間和光譜分辨率以及時間動態等問題。同時,隨著大型基礎模型 (Foundation Models, FMs) 的最新突破,由于其卓越的泛化能力和零樣本遷移能力,AI 在多個領域的潛力得到了擴展。然而,它們的成功主要局限于自然數據,如圖像和視頻,而對于各種非光學模式的遙感數據表現較差,甚至失敗。這激發了開發遙感基礎模型 (RSFMs) 的興趣,以應對覆蓋地表、大氣和海洋等地球觀測 (EO) 任務的復雜需求。本綜述系統性地回顧了新興的 RSFMs 領域。首先,概述了它們的動機和背景,隨后介紹了其基礎概念。接著對現有的 RSFM 研究進行分類和評審,包括它們的數據集及其在視覺基礎模型 (VFMs)、視覺-語言模型 (VLMs)、大型語言模型 (LLMs) 等方面的技術貢獻。此外,我們基于公開數據集對這些模型進行了基準測試,討論了現有的挑戰,并提出了這一快速發展的領域未來的研究方向。

關鍵詞—基礎模型、遙感、地球科學、多模態、視覺識別、視覺-語言模型、大型語言模型、地球觀測、人工智能。

1 引言

深度學習的快速發展為遙感 (RS) 和各種地球觀測 (EO) 應用帶來了顯著進展。然而,當前的大多數模型依賴于明確設計的、任務特定的學習目標。這種方法需要大量的人力進行數據集收集和標注,同時也需要大量的計算資源進行模型訓練和評估。此外,這些模型在不同任務之間的泛化和遷移能力有限,從而限制了 RS 系統的廣泛采用。RS 數據來自多種傳感器和平臺,具有大規模、復雜、動態和異構的特性。如何以協同、穩健和多功能的方式準確智能地解讀 RS 數據,仍是推動 RS 解讀系統進步的一個關鍵但尚未充分探索的挑戰。

隨著深度學習的持續進展,一種革命性趨勢正朝向大型基礎模型 (Foundation Models, FMs) 演進,定義為“任何基于廣泛數據訓練(通常使用大規模自監督學習)并能夠適應多種下游任務的模型(例如,通過微調)”[1]。FMs 包括大型語言模型 (LLMs)視覺基礎模型 (VFMs)視覺-語言模型 (VLMs),在不同任務上展示了顯著的泛化能力和小樣本遷移能力。這一轉變標志著從單一用途模型向通用模型的過渡,以及從監督預訓練向自監督預訓練的過渡,大大減少了訓練資源的需求,同時擴展了模型的應用范圍。

然而,這些進展主要集中在自然數據領域,如圖像和文本,面對分布外領域如 RS 時常面臨重大挑戰。例如,RS 與自然圖像的根本區別——如傳感器模式、捕捉視角、空間分辨率、光譜帶以及時間規律性——阻礙了 FMs 在 RS 應用中的直接應用。盡管存在這些挑戰,FMs 在自然領域的成功為遙感基礎模型 (RSFMs) 的開發提供了有希望的啟示,RSFMs 在利用大規模地理空間數據、建模復雜動態地球表面、提高數據效率、擴展應用范圍、增強任務性能和減少碳足跡方面顯示出巨大潛力。

相比于一般領域的 FMs,開發 RSFM 面臨幾大關鍵挑戰:(1) 自然數據與 RS 數據之間的顯著領域差異;(2) 缺乏用于 RSFM 預訓練的大規模數據集;(3) 缺少適合 RSFMs 的深度架構;(4) 需要應對不同于自然領域通用 FMs 的獨特 RS 應用。為了應對這些挑戰,近年來不斷有努力致力于開發先進的 RSFMs,并在 RS 領域內更好地整合各種 FMs,如圖 1 所示。

盡管取得了快速進展,RSFMs 領域仍然缺乏一篇全面的綜述,提供對這一新興且多方面領域的深入概述。本文旨在彌補這一空白,通過呈現對 RSFMs 最新進展的廣泛調查,涵蓋學習范式、數據集、技術方法、基準測試以及未來研究方向。如圖 2 所示,我們根據模型類型將現有方法分為三大類:用于 RS 的 VFMs、用于 RS 的 VLMs,以及其他 RSFMs,如 LLMs 和生成式 FMs。這些類別將在后續章節中詳細回顧。 本文的主要貢獻有三方面:首先,它對 RSFMs 的最新進展進行了全面系統的回顧。根據我們所知,這是首篇跨越不同類型 FMs 的綜述,涵蓋了這一快速發展的領域。其次,它對各種傳感器模式和任務下應用的 RSFMs 進行了基準測試和深入分析。第三,它確定了多個研究挑戰,并提出了 RSFMs 領域的潛在研究方向。

本綜述的結構如下:第二部分介紹 RSFMs 的背景知識,包括學習范式、常見的 RS 傳感器模式以及相關綜述。第三部分探討了 RSFMs 的基礎,涵蓋了深度網絡架構和典型的 RS 解讀任務。第四、第五和第六部分系統性地回顧了用于 RS 的 VFMs、用于 RS 的 VLMs 及其他類型的 RSFMs 的方法。第七部分總結并比較了現有方法在多個基準數據集上的性能。最后,第八部分提出了 RSFMs 的幾個有前途的未來研究方向。

付費5元查看完整內容

摘要—大型模型智能體(LM agents),由如 GPT-4 和 DALL-E 2 等大型基礎模型驅動,代表了實現人工通用智能(AGI)的重要一步。LM 智能體展示了自主性、具身性和連接性等關鍵特征,使其能夠在物理、虛擬和混合現實環境中無縫與人類、其他智能體及周圍環境互動。本文提供了對 LM 智能體最前沿技術的全面調查,重點討論其架構、合作范式、安全性、隱私和未來前景。具體而言,我們首先探討 LM 智能體的基礎原則,包括一般架構、關鍵組件、使能技術和現代應用。隨后,我們從數據、計算和知識的角度討論 LM 智能體的實際合作范式,以促進其連接智能。此外,我們系統分析了與 LM 智能體相關的安全漏洞和隱私泄露,特別是在多智能體環境中。我們還探討了其底層機制,并回顧現有和潛在的對策。最后,我們概述了構建穩健和安全的 LM 智能體生態系統的未來研究方向。 關鍵詞—大型模型、人工智能智能體、具身智能、多智能體合作、安全、隱私。

I. 引言 A. 大型模型智能體的背景 在1950年代,艾倫·圖靈提出了著名的圖靈測試,以評估機器是否能夠表現出與人類相當的智能,為人工智能(AI)的發展奠定了基礎。這些被稱為“智能體”的人工實體,是AI系統的核心組件。一般來說,AI智能體是能夠理解并響應人類輸入、感知環境、做出決策并在物理、虛擬或混合現實環境中采取行動以實現其目標的自主實體[1]。AI智能體的范圍從遵循預定義規則的簡單機器人到通過經驗學習和適應的復雜自主實體[2]。它們可以是基于軟件的或物理實體,能夠獨立運行或與人類或其他智能體合作。 自20世紀中葉以來,AI智能體的發展取得了顯著進展[3]–[5],如深藍、AlphaGo和AlphaZero,如圖1所示。盡管取得了這些進展,之前的研究主要集中在精細化專業能力上,如符號推理或在特定任務(如圍棋或國際象棋)中表現優異,往往忽視了在AI模型中培養通用能力,如長期規劃、多任務泛化和知識保留。創造能夠靈活適應廣泛任務和復雜環境的AI智能體的挑戰仍然在很大程度上未得到探索。為了進一步推動AI智能體的邊界,開發強大的基礎模型以整合這些關鍵屬性是至關重要的,為下一代AI智能體提供多功能的基礎。 隨著大型模型(LMs)的興起,也稱為大型基礎模型,如OpenAI的GPT-4、Google的PaLM 2和Microsoft的Copilot,LMs為全面增強AI智能體的內在能力開辟了新可能性[6][7]。如圖2所示,一個LM智能體,無論是軟件形式還是具身形式,通常由四個關鍵組件組成:規劃、行動、記憶和互動。這些智能體能夠在物理、虛擬或混合現實環境中無縫操作[1][8]–[10]。特別是,LMs作為AI智能體的“大腦”,賦予它們在人機互動(HMI)、復雜模式識別、知識保留、推理、長期規劃、泛化和適應性方面強大的能力[9]。此外,通過先進的推理和少量/零樣本規劃技術,如思維鏈(CoT)[11]、思維樹(ToT)[12]和反思[13],LM智能體能夠形成復雜的邏輯連接,有效解決復雜的多面任務。例如,AutoGPT[14],一個有前途的LLM智能體原型,可以將復雜任務分解為幾個可管理的子任務,從而促進結構化和高效的問題解決。將LM與檢索增強生成(RAG)技術[15]結合,進一步使智能體能夠訪問外部知識源,并基于檢索的信息提高其響應的準確性。此外,LM智能體可以靈活集成多種LM,包括大型語言模型(LLM)和大型視覺模型(LVM),以實現多方面的能力。 LM智能體被視為實現人工通用智能(AGI)的一重要步驟,并廣泛應用于網絡搜索[16]、推薦系統[17]、虛擬助手[18][19]、元宇宙游戲[20]、機器人技術[21]、自動駕駛汽車[22]和電子設計自動化(EDA)[23]等領域。據MarketsandMarkets[24]報告,2023年全球自主AI和自主智能體市場的估值為480億美元,預計到2028年將以43%的年均增長率增長,達到285億美元。LM智能體引起了全球關注,包括Google、OpenAI、Microsoft、IBM、AWS、Oracle、NVIDIA和百度等領先科技巨頭正在進入LM智能體行業。

B. LM智能體的路線圖和關鍵特征 圖3描繪了LM智能體的未來愿景,其特征為三個關鍵屬性:自主性、具身性和連接性,為實現AGI鋪平道路。

  1. 自主智能。LM智能體的自主智能指的是它們獨立運行的能力,能夠在沒有持續人類輸入的情況下主動做出決策。如圖2(a)所示,LM智能體可以維護一個內部記憶,隨著時間的推移積累知識,以指導未來的決策和行動,使其能夠在動態環境中持續學習和適應[25]。此外,LM智能體可以自主利用各種工具(例如,搜索引擎和外部API)收集信息或創建新工具來處理復雜任務[26]。通過與人類或其他智能體合作或競爭,LM智能體可以有效提升其決策能力[27]。
  2. 具身智能。盡管近年來取得了一些進展,LM通常被動地響應人類在文本、圖像或多模態領域的命令,而不直接與物理世界互動[7]。而具身智能體可以主動感知和作用于其環境,無論是數字、機器人還是物理環境,使用傳感器和執行器[21][25]。向LM賦能的智能體的轉變涉及創建能夠理解、學習和解決現實世界挑戰的具身AI系統。如圖2(b)所示,LM智能體主動與環境互動,并根據實時反饋調整行動。例如,一臺負責清潔的家庭機器人LM智能體可以通過分析房間布局、表面類型和障礙物來生成量身定制的策略,而不僅僅是遵循通用指令。
  3. 連接智能。連接的LM智能體超越了單個智能體的能力,在應對復雜的現實任務中發揮關鍵作用[28]。例如,在自動駕駛中,作為LM智能體的連接自動駕駛汽車共享實時傳感數據,協調運動,并在交叉路口協商通行,以優化交通流量并提高安全性。如圖3所示,通過將眾多LM智能體互聯成“LM智能體互聯網”,連接的LM智能體可以自由分享感知數據和任務導向知識。通過充分利用各種專業LM的計算能力,它促進了合作決策和集體智能。因此,跨數據、計算和知識領域的協作增強了各個智能體的性能和適應性。此外,這些互動使得LM智能體能夠形成社會聯系和屬性,助力智能體社會的發展[29][30]。

C. 保障連接LM智能體的動機 盡管LM智能體的未來光明,但安全和隱私問題仍然是其廣泛采用的重大障礙。在LM智能體的整個生命周期中,可能會出現多種漏洞,從對抗樣本[31]、智能體中毒[32]、LM幻覺[33]到普遍的數據收集和記憶[34]。

  1. 安全漏洞。LM智能體容易出現“幻覺”,即其基礎LM生成似是而非但不符合現實的輸出[33]。在多智能體環境中,幻覺現象可能傳播錯誤信息,損害決策,導致任務失敗,并對物理實體和人類構成風險。此外,維護用于訓練和推理的感知數據和提示的完整性和真實性至關重要,因為偏見或受損的輸入可能導致不準確或不公平的結果[35]。諸如對抗性操控[31]、中毒[36]和后門[37]等攻擊進一步威脅LM智能體,允許惡意行為者操控輸入并欺騙模型。在協作環境中,智能體中毒行為[32],即惡意智能體破壞其他智能體的行為,可能破壞協作系統。此外,將LM智能體集成到網絡物理社會系統(CPSS)中,擴大了攻擊面,使對手能夠利用互聯系統中的漏洞。
  2. 隱私泄露。LM智能體廣泛的數據收集和記憶過程帶來了嚴重的數據泄露和未經授權訪問的風險。這些智能體通常處理大量個人和敏感的商業信息,涉及面向消費者(ToC)和面向企業(ToB)應用,增加了對數據存儲、處理、共享和控制的擔憂[38]。此外,LMs可能無意中記住訓練數據中的敏感細節,可能在互動過程中暴露私人信息[34]。在多智能體合作中,隱私風險進一步加劇,LM智能體在通信和任務執行過程中可能無意中泄露有關用戶、其他智能體或其內部操作的敏感信息。

D. 相關調查與貢獻 近年來,LM智能體在學術界和工業界引起了廣泛關注,導致多角度探索其潛力的各種研究。該領域的一些重要綜述論文如下:Andreas等人[29]提出了AI智能體構建的玩具實驗和關于建模交流意圖、信念和愿望的案例研究。Wang等人[39]識別了基于LLM的自主智能體的關鍵組成部分(即,個人資料、記憶、規劃和行動)以及主觀和客觀評估指標。此外,他們討論了LLM智能體在工程、自然科學和社會科學中的應用。Xi等人[9]提出了一個LLM智能體的一般框架,包括大腦、行動和感知。此外,他們探討了在單智能體、多智能體和人機協作以及智能體社會中的應用。Zhao等人[2]提供了LLM的系統綜述,涵蓋了預訓練、適應調優、利用和能力評估。此外,介紹了背景信息、主流技術和LLM的關鍵應用。Xu等人[40]對移動網絡中的邊緣云AI生成內容(AIGC)服務的關鍵概念、架構和指標進行了教程,并識別了若干用例和實施挑戰。Huang等人[1]提供了虛擬/物理環境中AI智能體的分類,討論了AI智能體的認知方面,并調查了AI智能體在機器人、醫療保健和游戲中的應用。Cheng等人[10]回顧了LLM智能體的關鍵組成部分(包括規劃、記憶、行動、環境和反思)及其潛在應用。還回顧了多智能體系統中的規劃類型、多角色關系和溝通方法。Masterman等人[8]提供了工業項目中單智能體和多智能體架構的概述,并展示了現有研究的見解和局限性。Guo等人[41]討論了基于LLM的多智能體系統的四個組成部分(即接口、建模、通信和能力獲取),并在問題解決和世界模擬方面提出了兩條應用線。Durante等人[42]介紹了多模態LM智能體及其訓練框架,包括學習、行動、認知、記憶、行動和感知。他們還討論了智能體的不同角色(例如,具身、模擬和知識推斷),以及在游戲、機器人、醫療保健、多模態任務和自然語言處理(NLP)等不同應用中的潛力和實驗結果。Hu等人[20]概述了基于LLM的游戲智能體的六個關鍵組成部分(即感知、思維、記憶、學習、行動和角色扮演),并回顧了六種類型游戲中現有的基于LLM的游戲智能體。Xu等人[43]提供了關于游戲中LM智能體的啟用架構和挑戰的全面綜述。Qu等人[44]對將移動邊緣智能(MEI)與LLM整合進行了全面綜述,強調在網絡邊緣部署LLM的關鍵應用以及在邊緣LLM緩存、傳輸、訓練和推理中的最新技術。

  1. 現有的LM智能體調查主要集中在單個LLM智能體和多智能體系統的一般框架設計及其在特定應用中的潛力上。本綜述不同于上述現有調查,重點關注LM智能體的網絡方面,包括一般架構、啟用技術和合作范式,以構建在物理、虛擬或混合現實環境中聯網的LM智能體系統。此外,隨著LM智能體的進展,研究它們在未來AI智能體系統中的安全性和隱私性變得迫在眉睫。本研究全面回顧了LM智能體的安全和隱私問題,并討論了現有和潛在的防御機制,這些內容在現有調查中常被忽視。表I比較了本調查與LM智能體領域先前相關調查的貢獻。
  2. 在本文中,我們系統性地回顧了單個和連接的LM智能體的最新進展,重點關注安全和隱私威脅、現有和潛在的對策以及未來趨勢。我們的調查旨在:1)提供對LM智能體如何工作以及如何在多智能體場景中互動的更廣泛理解;2)審視與LM智能體及其互動相關的安全和隱私挑戰的范圍和影響;3)強調有效的策略和解決方案,以防御這些威脅,保護LM智能體在各種智能應用中的安全。該工作的主要貢獻有四個方面:
  3. 我們全面回顧了LM智能體構建的最新進展,包括一般架構、關鍵組件(即規劃、記憶、行動、互動和安全模塊)以及啟用技術。還討論了LM智能體的工業原型和潛在應用。
  4. 我們系統地對LM智能體的互動模式(即智能體-智能體、智能體-人類和智能體-環境互動)及其互動類型(即合作、部分合作和競爭)進行了分類。我們探討了LM智能體在數據合作、計算合作和知識合作方面的實際合作范式。
  5. 我們全面分析了現有和潛在的安全和隱私威脅、其基本機制、分類及單個和連接的LM智能體面臨的挑戰。我們還回顧了最新的對策,并檢驗其在保護LM智能體方面的可行性。
  6. 最后,我們討論了開放的研究問題,并從能源高效和綠色LM智能體、公平和可解釋的LM智能體、網絡物理社會安全智能體系統、智能體生態系統的價值網絡等角度指出未來的研究方向,旨在提升LM智能體的效率和安全性。

E. 論文組織 本文其余部分組織如下。第二節討論單個LM智能體的工作原理,第三節介紹連接LM智能體的合作范式。第四節和第五節分別介紹LM智能體的安全和隱私威脅的分類,以及最新的對策。第六節概述LM智能體領域的開放研究問題和未來方向。最后,第七節給出結論。圖4描繪了本綜述的組織結構。

II. 大型模型智能體:工作原理 在本節中,我們首先介紹現有的LM智能體標準。然后,討論連接LM智能體的一般架構,包括關鍵組件、通信模式、主要特征和啟用技術。接下來,介紹典型原型并討論LM智能體的現代應用。

  1. LM智能體的操作系統(OS):根據[45],[46],LM智能體的操作系統架構由三層組成:應用層、內核層和硬件層。
  • 應用層承載智能體應用(如旅行、編碼和機器人智能體),并提供抽象系統調用的SDK,簡化智能體開發。
  • 內核層包括普通的操作系統內核和額外的LM智能體內核,重點在于不改變原始操作系統結構。LM智能體內核中的關鍵模塊包括任務規劃和優先級調度的智能體調度器、LM狀態管理的上下文管理器、短期數據的記憶管理器、長期數據保留的存儲管理器、外部API交互的工具管理器,以及隱私控制的訪問管理器。
  • 硬件層包含物理資源(CPU、GPU、內存等),通過操作系統系統調用間接管理,因為LM內核不直接與硬件交互。
  1. LM智能體的構建模塊:根據[1],[8]–[10],LM智能體一般有五個構建模塊:規劃、行動、記憶、互動和安全模塊(詳細見節II-C)。這些模塊共同使LM智能體能夠高效、安全地感知、規劃、行動、學習和互動于復雜動態環境中。
  • 通過大型模型,規劃模塊利用記憶模塊生成策略和行動計劃,實現知情決策[7],[10]。
  • 行動模塊執行這些具體的行動,根據實時環境反饋調整行動,以確保上下文適當的響應[9],[42]。
  • 記憶模塊作為累積知識(如過去經驗和外部知識)的存儲庫,促進持續學習和改進[10]。
  • 互動模塊使智能體與人類、其他智能體和環境之間實現有效的溝通與協作。
  • 安全模塊貫穿于LM智能體的操作中,確保主動防護威脅并維護數據和過程的完整性和機密性。
  1. LM智能體的引擎:LM智能體的引擎由一系列前沿技術驅動,包括大型基礎模型、知識相關技術、互動、數字雙胞胎和多智能體協作(詳細見節II-D)。
  • 大型基礎模型如GPT-4和DALL-E 2作為LM智能體的大腦,使其具備高級模式識別、復雜推理和智能決策能力,提供認知能力[6],[7]。
  • 知識相關技術通過整合知識圖譜、知識庫和RAG系統增強LM智能體,使其能夠訪問、利用和管理大量外部知識源,確保知情和上下文相關的行動[47]。
  • HMI技術通過自然語言處理、多模態接口以及增強/虛擬/混合現實(AR/VR/MR)實現人類與智能體之間的無縫互動,促進動態和自適應的交互[48]。
  • 數字雙胞胎技術通過智能體內部的通信實現物理身體和數字大腦之間的數據和狀態的高效同步[49]。
  • 多智能體協作技術使LM智能體能夠高效協同工作,分享數據、資源和任務,通過智能體間的通信制定合作、競爭和合作競爭策略,解決復雜問題[28]。
  1. LM智能體的通信模式:每個LM智能體由兩個部分組成:(i)位于云端、邊緣服務器或終端設備的LM賦能大腦,以及(ii)相應的物理身體,如自主車輛。每個LM智能體可以主動與其他LM智能體、虛擬/現實環境和人類互動。對于連接的LM智能體,存在兩種典型的通信模式:內部通信用于智能體內大腦與物理身體之間的無縫數據/知識同步,外部通信則用于LM智能體之間的高效協調。表III總結了這兩種通信模式的比較。
  • 內部通信是指單個LM智能體內部的數據/知識交換。這種通信確保LM智能體的不同組件(包括規劃、行動、記憶、互動和安全模塊)協同工作。例如,LM智能體通過其物理身體收集多模態感知數據,然后將解釋的信息傳達給LM賦能的大腦。大腦中的規劃模塊制定響應或行動計劃,隨后由行動模塊執行。這種信息的無縫流動對于維持LM智能體在實時動態場景中的功能性、一致性和響應性至關重要。
  • 外部通信涉及多個LM智能體之間的信息和知識交換。它促進了智能體之間的協同任務分配、資源共享和協調行動,推動集體智能的發展。例如,在智能城市應用中,管理交通信號燈、公共交通和應急服務的各種LM智能體共享實時數據,以優化城市流動性和安全性。有效的外部通信依賴于標準化協議,以確保兼容性和互操作性,從而促進LM智能體網絡的高效和同步操作。
  1. 人類世界與LM智能體之間的信息流:人類通過自然語言、移動智能設備和可穿戴技術與LM智能體互動,使LM智能體能夠理解人類指令并有效解決現實問題。LM智能體反過來從人類輸入中獲取新知識和數據,幫助其持續改進和學習。這一持續更新和優化模型的過程,使LM智能體能夠提供越來越準確和有用的信息。在AR和VR環境中,LM智能體能夠在虛擬場景中與人類用戶協作,如建筑設計,提升整體效率和創造力[50]。
  2. 物理世界與LM智能體之間的信息流:得益于數字雙胞胎技術,LM智能體能夠在其物理身體和數字大腦之間同步數據和狀態,形成無縫互動循環。LM智能體還可以監控并對環境的實時輸入作出反應。這種雙向同步使LM智能體能夠以高精度和響應性感知和應對其周圍環境,無論是虛擬還是現實,從而彌合數字與物理領域之間的差距。通過不斷從環境反饋中學習,LM智能體能夠積累知識并理解物理法則,從而解決復雜的現實世界問題。這一迭代學習過程確保LM智能體不僅對即時刺激作出反應,還能隨著時間推移不斷優化其具體行動,達到更復雜和有效的解決方案。
  3. 網絡世界與LM智能體之間的信息流:在網絡世界中,LM智能體通過高效的云-邊緣網絡連接到LM智能體互聯網,促進無縫數據和知識共享,推動多智能體協作。通過在云和邊緣基礎設施中部署大型模型,LM智能體能夠利用云和邊緣計算的優勢,優化性能和響應能力[51]。云提供強大的計算能力和存儲,支持處理大量數據和訓練復雜模型。同時,邊緣提供接近數據源的實時數據處理能力,減少延遲,確保及時決策。在LM智能體互聯網中,LM智能體可以實時共享數據、知識和學習經驗,構建一個跨多個領域的強大自適應智能網絡。例如,在智能城市中,分布在不同位置的具身LM智能體可以通過共享實時數據和協調行動,協作優化交通流、管理能源資源并增強公共安全。

付費5元查看完整內容

2024年,人工智能領域最引人注目的進展之一便是交互型多模態大模型的快速發展。這些模型通過整合文本、音頻、圖像、視頻等多種模態的輸入輸出,實現了更為自然和高效的人類-機器交互。OpenAI的GPT-4o和谷歌的Gemini等模型,以其卓越的多模態理解和生成能力,成為行業的領跑者。

交互型多模態大模型的應用前景廣闊,其在教育、醫療健康、辦公、游戲、情感陪伴等多個領域的應用,預示著一場全新的行業升級。在教育領域,AI教師能夠提供個性化的學習支持;在醫療健康領域,智能助手能夠輔助醫生進行診斷和治療;而在家庭環境中,智能家居系統能夠提供更加便捷和舒適的生活體驗。 隨著技術的成熟,交互型多模態大模型的商業模式也日益清晰。一方面,通過提供API接口,大模型可以作為基礎服務被廣泛應用于各類應用程序中;另一方面,集成到操作系統中的大模型,有望成為新一代的超級入口,為用戶提供一站式的智能服務。但這一過程中也伴隨著數據隱私、倫理道德等方面的挑戰,需要行業內外共同努力,制定相應的規范和標準。 交互型多模態大模型的出現,標志著人機交互進入了一個新的時代。未來,我們有望看到更多的人形機器人、智能座艙、智能家居等應用,它們將無縫融入我們的日常生活,提供前所未有的便利和體驗。這也對技術提供商提出了更高的要求,不僅要追求技術的創新和突破,更要關注產品的社會價值和倫理責任。

02報告內容

付費5元查看完整內容

摘要——目前,大多數工業物聯網(IIoT)應用仍然依賴于基于卷積神經網絡(CNN)的神經網絡。盡管基于Transformer的大模型(LMs),包括語言、視覺和多模態模型,已經在AI生成內容(AIGC)中展示了令人印象深刻的能力,但它們在工業領域(如檢測、規劃和控制)中的應用仍然相對有限。在工業環境中部署預訓練的大模型往往面臨穩定性與可塑性之間的挑戰,這主要是由于任務的復雜性、數據的多樣性以及用戶需求的動態性。為了應對這些挑戰,預訓練與微調策略結合持續學習已被證明是一種有效的解決方案,使模型能夠適應動態需求,同時不斷優化其推理和決策能力。本文綜述了大模型在工業物聯網增強的通用工業智能(GII)中的集成,重點關注兩個關鍵領域:大模型賦能GII和GII環境下的大模型。前者側重于利用大模型為工業應用中的挑戰提供優化解決方案,而后者則研究在涉及工業設備、邊緣計算和云計算的協同場景中,持續優化大模型的學習和推理能力。本文為GII的未來發展提供了洞見,旨在建立一個全面的理論框架和研究方向,從而推動GII向更加通用和適應性強的未來發展。 關鍵詞——通用工業智能、大語言模型、持續學習、工業物聯網、邊緣計算。

工業5.0將網絡-物理-社會元素集成到制造業中,強調數字與物理系統的交互以及人機協作,通過互聯網有效地連接設備、物體和人[1]。隨著物聯網(IIoT)的快速發展[2]-[4]、通信技術[5], [6]、AI生成內容(AIGC)[7]、機器人和數字孿生技術[8]-[10],現代工業系統變得越來越復雜。這些系統不僅生成高頻的單模態數據,還包括文本、圖像、視頻、代碼和音頻等多模態數據類型。工業大數據可以用于創建數字化制造工作流程和工業流程,極大地推動了工業5.0和網絡-物理-社會系統中生產力、效率和效能的提升。 如圖1所示,數據集和模型構成了GII生態系統的基礎要素,推動了更高層次算法和應用的快速發展。這些應用包括智能控制系統、預測性維護[11]、故障診斷[12], [13]和異常檢測[14],這些都高度依賴于對IIoT數據的提取和分析。GII的成功特別依賴于其從這些IIoT數據集中高效學習和提取有價值特征的能力。基于Transformer的大模型(LMs),例如大語言模型(LLMs)[16]–[18]、視覺模型[19], [20]、時間序列模型[21]以及多模態模型[22], [23],由于其獨特優勢,受到廣泛關注。通過在大規模數據集上進行預訓練,這些擁有數十億到數萬億參數的模型積累了廣泛的知識,極大地推動了數據處理的自動化和多樣化,同時減少了對人類專業知識的依賴。

在工業領域,大模型的精度和可擴展性使其在提高工業流程的準確性方面非常有效。然而,在工業環境中部署預訓練大模型時,需要根據具體任務架構、動態數據分布和用戶偏好進行謹慎的適配。盡管大模型在多任務泛化、小樣本學習和推理方面具有優勢,但在這些環境中平衡穩定性和適應性仍然是一個顯著挑戰。受到大模型在自然語言處理(NLP)中成功的啟發,工業界越來越多地探索其在GII中的潛力。一種方法是從頭構建行業特定的基礎模型[24],但特定領域數據規模的限制通常阻礙了涌現能力的發展。另一種方法是通過大數據集上的預訓練,然后進行特定任務的微調,這已顯示出在構建穩健的工業模型方面的巨大潛力,顯著提高了各類任務的性能。這種方法有效地應對了特定領域數據匱乏的挑戰,同時加速了工業應用中先進能力的發展。

為工業任務調整大模型是一個重要的研究方向[25]。這些模型在跨任務泛化、零樣本/小樣本學習和推理能力方面的優勢,為解決知識遷移、數據稀缺性和解釋性問題提供了新的途徑。 ****持續大模型(CLMs)****在維持和發展這些工業模型的能力方面發揮了關鍵作用。CLMs在大規模數據集上進行預訓練,并由Transformer架構驅動,設計用于持續學習和適應,確保工業大模型在滿足GII不斷變化的需求時仍然保持相關性和有效性。

A. 本綜述的目標

本文旨在建立一個全面的視角,并對IIoT增強的GII進行深入分析。它提出了將GII分為兩個主要類別的概念:

  • 通用工業智能的大模型(LMs for GII):該方向重點利用大模型的高級數據處理和分析能力來解決工業應用中固有的優化問題。具體來說,LMs通過其處理實時多模態IIoT數據、執行復雜特征提取并確保精確的模式識別和結果驗證的能力,提升了IIoT驅動的工業系統的智能化和運營效率,最終提高了不同工業環境中的測量精度和系統性能。
  • 通用工業智能上的大模型(LMs on GII):該視角探討了工業應用如何通過持續模型操作,在協同的IIoT設備-邊緣-云環境中擴展和優化大模型的能力。通過采用持續學習(CL)和在線學習策略,模型可以適應新數據和環境變化,而無需昂貴的再訓練。這種方法節省了計算資源,最小化了延遲,并高效處理了數據分布變化和性能退化,確保了動態工業場景中的穩健模型性能。

本文通過一個示意圖(圖2)進一步明確了這些類別的引入,幫助闡明了兩種方法之間的結構性差異和操作機制。

B. 本綜述的獨特特征

近年來,持續學習(CL)作為一個研究課題獲得了顯著關注,許多研究探討了其在設備健康管理[26]、機器人[27]和流數據[28]等領域的應用。在大模型的背景下,由于這些模型的規模巨大,頻繁的再訓練成本高昂,因此CL已被認為是至關重要的[29]。盡管CL的文獻廣泛,但我們的綜述獨特地關注了CL在IIoT增強的工業系統中的大模型的持續適應性——這是現有文獻中未被充分覆蓋的領域。本綜述首次為大模型在四個不同的IIoT工業場景中應用的CL方法提供了全面而系統的回顧。

如表I所示,本文通過以下幾個關鍵貢獻來區分自身

  • 新穎的分類體系:我們引入了一個新的GII理論框架。通過將大模型的應用分為兩個維度——“LMs for GII”和“LMs on GII”,本文不僅探討了如何利用大模型優化工業應用,還研究了這些應用如何反過來優化模型本身。這種雙向交互視角顯著豐富了現有文獻。

  • 跨領域多模態集成:與大多數僅專注于特定類型大模型(如語言模型或視覺模型)的現有研究不同,本綜述涵蓋了大語言模型(LLMs)、視覺Transformer、多模態模型和時間序列模型。這種跨模態集成增強了復雜儀器和測量系統的設計、開發和評估,這些系統用于信號的生成、獲取、調理和處理。通過利用不同模型的獨特優勢,它為推進測量科學及其應用提供了更全面和深入的視角,從而更有效地應對復雜的工業挑戰。

  • 持續學習的實際應用:本文強調了持續學習策略在IIoT增強的工業系統,特別是邊緣計算和云計算協同環境中的實際應用。這個重點確保了模型不僅能適應新數據和變化的條件,還能資源高效。通過減少計算需求和訓練成本,我們的方法解決了工業應用中的關鍵約束。

付費5元查看完整內容

[目的/意義] 近年來,人工智能在農業領域的應用取得了顯著進展,但仍面臨諸如模型數據收集標記困 難、模型泛化能力弱等挑戰。大模型技術作為近期人工智能領域新的熱點技術,已在多個行業的垂直領域中展現 出了良好性能,尤其在復雜關聯表示、模型泛化、多模態信息處理等方面較傳統機器學習方法有著較大優勢。[進 展] 本文首先闡述了大模型的基本概念和核心技術方法,展示了在參數規模擴大與自監督訓練下,模型通用能力 與下游適應能力的顯著提升。隨后,分析了大模型在農業領域應用的主要場景;按照語言大模型、視覺大模型和 多模態大模型三大類,在闡述模型發展的同時重點介紹在農業領域的應用現狀,展示了大模型在農業上取得的研 究進展。[結論/展望] 對農業大模型數據集少而分散、模型部署難度大、農業應用場景復雜等困難提出見解,展 望了農業大模型未來的發展重點方向。預計大模型將在未來提供全面綜合的農業決策系統,并為公眾提供專業優 質的農業服務。

大 模 型 (Big Models)[1] , 或 稱 基 礎 模 型 (Foundation Models)[2] ,指經過在大規模數據上訓 練,具有龐大參數量的深度神經網絡模型。這些模 型通常基于 Transformer[3] 架構,通過自監督的方 法從大量數據中進行學習,不僅擁有卓越的通用能 力,也可以適應不同的下游任務。通過擴展,模型 在多個領域展示出強大能力的同時,甚至可以涌現 出 的 新 能 力 。 例 如 基 于 GPT (Generative Pretrained Transformer)[4] 系列技術的 ChatGPT 對話機 器人,可以經過一定的提示詞,在如機器翻譯、情 感分析、文本摘要等大量的自然語言處理任務中表 現出色,亦可以推理小模型無法處理的復雜邏輯。 大模型一般使用自監督 (Self-supervised) 的方式 進行大規模的訓練,然后將模型應用于不同的下游 任務。自監督的學習方式擺脫了對大量人工標記的 依賴。通過擴展模型的規模與訓練量,模型的任務 范圍與性能均能有顯著提高,同時微調 (Fine-tun‐ ing) 也可以在特定任務上利用少量數據快速提升 模型能力。在大模型中,以語言大模型 (Large Language Models, LLMs)[5] 為代表性成果,其可以 通過一定的提示詞完成廣泛的文本生成任務,展現 出強大的模型泛化能力。大模型也包括視覺大模型 (Large Vision Models, LVMs) 與 多 模 態 大 模 型 (Large Multi-modal Models, LMMs) 等。 現代農業的迅猛發展與人工智能技術進步密切相關,特別是深度學習的突破性進展對農業產生了 深遠影響。深度學習強大的特征學習與數據處理等 能力,使其在雜草控制、作物病蟲害檢測、畜牧業 管理以及農業遙感等領域均有廣泛應用。然而,這 些方法大多使用監督學習,依賴于特定的高質量人 工標注數據。收集和標注這類數據集不僅耗時、耗 資巨大,且模型遷移到其他任務的能力有限,限制 了數據規模與模型的發展。因此,尋找能夠跨應用 領域通用的模型和技術,減少對大規模數據標記的 新方法,擴展深度學習框架的通用性,是推動農業 等領域進步的重要挑戰。農業大模型 (Agricultural Big Models) 是為克服上述困難的一次重大嘗試, 為解決農業領域數據較少且分散的現狀提供了方 案,同時其廣泛的任務遷移能力也得到了多個農業 子領域的關注。圖 1介紹了大模型的構建流程,包 含使用異構數據訓練模型,對模型微調提升能力, 以及使用外部系統增強生成能力等;最終,模型可 以用于多種農業綜合服務中,提供強大而全面的農 業問題解決方案。

付費5元查看完整內容

可解釋人工智能(XAI)通過增強終端用戶對機器的信任,正在改變人工智能(AI)領域。隨著連接設備數量的不斷增長,物聯網(IoT)市場需要對終端用戶來說是值得信任的。然而,現有文獻對于XAI在物聯網中的應用尚缺乏系統而全面的綜述性工作**。為了彌補這一不足,在本文中,我們關注了XAI框架的特點和對物聯網的支持。我們介紹了物聯網應用中廣泛使用的XAI服務,如安全增強、醫療物聯網(IoMT)、工業物聯網(IIoT)和城市物聯網(IoCT)**。通過適當的例子,提出了在這些應用中XAI模型優于物聯網系統的實現選擇,并總結了未來工作的關鍵推論。此外,我們介紹了邊緣XAI結構的前沿發展,以及對物聯網應用的第六代(6G)通信服務的支持,以及關鍵推論。簡而言之,本文構成了針對未來物聯網用例需求的基于XAI的框架開發的第一個整體匯編。

//www.zhuanzhi.ai/paper/60b70e12d1bbad0142aa263371444331

概述

可解釋人工智能(XAI)由于具有高度透明、可信賴、可解釋的系統開發等諸多優點,越來越受到人們的重視。人工智能(AI)系統每天都在進化,具有更復雜的功能。人工智能也已經發展到可以直接與機器交互的水平。它已經成為每一個商業運作和人類日常生活的一部分。然而,這些往往容易產生模型偏差,缺乏代碼信心和信任問題。為了管理這些風險并保持AI模型的透明度,XAI的出現為系統提供了許多有意義的解釋,而不會對所做的決策或任何采納的解決方案產生任何混亂[1]。XAI對當前業務的影響可能會取代傳統的AI系統,這些系統能夠在生產、制造、供應鏈、金融部門和財富管理方面產生更大的影響,帶來更好的增長和可持續發展。

近年來,XAI技術引起了業界和學術界的廣泛關注。該技術的發展已經取得了巨大的成功,從模型中做出了值得信賴的決策。XAI的出現目前跨越了大量的應用程序,這些應用程序推動了對各個研究領域的投資。XAI最流行的應用程序包括醫療保健[2]、金融[3]、安全[4]、軍事[5]和法律部門[6]。一般來說,XAI技術已經證明了其潛力,目前需要可解釋的AI模型。一個使用XAI的實際例子是國防部門[7]。此外,谷歌的云服務正在探索XAI部署可解釋和包容性AI模型的潛力[8]。作為XAI對物聯網(IoT)環境最成功的影響之一,可解釋和透明ML模型[9]承諾了新的策略來解釋黑箱決策系統[10],基于新的解釋風格[11]的設計,用于評估AI系統的透明度和可解釋性。用于解釋的算法的技術方面可以被物聯網系統用于確保XAI模型中的倫理方面。物聯網中的XAI系統的一個例子是[4],它已被證明可以使用統計理論在工業物聯網(IIoT)中提供模型不可知的解釋,從而促進透明度的有效性。然而,涉及的挑戰是隨機新樣本的考慮,這需要解決高風險物聯網應用。通過使用基于LIME的XAI模型,可以學習域不變特征來保證信息處理的可信度,并且能夠提供可靠的解釋[12]。

XAI模型的一個關鍵挑戰是定制用于處理非線性數據的模型,這可以通過開發數據驅動的XAI模型[13]來規避。特別是,盡管完全可解釋的模型還處于初級階段,XAI系統仍然需要能夠解決解釋和可解釋性的理論和實踐方面的新模型。例如,物聯網設備中的隱私和數據保護可能無法由AI模型對模型如何做出決策進行足夠安全的處理。對物聯網應用的一些解釋必須明確,特別是在醫療保健和軍事應用中,XAI可以大大受益。因此,XAI技術有望成為物聯網及其相關賦能技術的可靠技術。

A. 動機

由于黑箱模型的不透明性,人工智能系統帶來的重大挑戰常常從倫理角度對信任構成威脅[14]。XAI模型固有的可解釋性是通過透明的方式做出決策來建立的,它允許在沒有任何爭論的情況下分享解釋。最近,XAI模型在交付可靠、透明和合乎道德的決策方面取得了重大進展。例如,開發了大量新穎的XAI模型,以提高具有高度倫理考慮的決策的透明度。因此,XAI模型也非常適合于大量的應用程序[7]。然而,物聯網應用的XAI支持非常有限,由于智能設備的資源限制,XAI支持受到了限制。將XAI的支持擴展到物聯網應用及其他領域,使學術和工業研究進入一個新的維度,這有可能維護在醫療保健、國防、工業和其他物聯網驅動的工業應用中所做決策的倫理關切和透明度。基于這一動機,大量的XAI模型已經部署在物聯網應用中,如醫療保健[2]、金融[3]、安全[4]、軍事[5]和法律部門[6]。此外,文獻報道了使用物聯網傳感器[15]進行故障預測的深度XAI模型和用于物聯網云系統[16]的端到端ML模型。更廣泛地說,XAI模型的新范圍還可以用來提供可信的解釋,并可以在大量的應用領域取代傳統的AI模型。B. XAI在物聯網中的作用通過對部署在環境中不同類型的物聯網設備所積累的數據進行適當的調查,從而可以感知特定場景中的活動。大多數識別技術通常基于人工智能技術,如ML和DL,可以提供精確的決策。AI在物聯網應用中的作用可以分為以下三個發展階段

  • **在第一類中,從傳感器和物聯網收集數據,然后輸入AI算法或AI領域的ML算法。

  • **第二個進步是利用AI改善物聯網服務。這可以像對傳感器數據進行調查一樣簡單,比如這些數據是否越界,并試圖確定越界的原因,以及是否應該將數據輸入AI領域。

  • **AI模型的第三個作用是監督物聯網領域的AI元素,并在AI領域的算法和ML系統之間交換信息

通過為物聯網定義各種模型,我們可以觀察到AI領域推理物聯網領域細節的方法。例如,如果我們打算診斷故障,我們可以從物聯網領域的AI能力中提取數據。我們還可以開始查詢傳感器或數據源的可靠性和可信性。然而,傳統人工智能技術的使用缺乏對開發框架所做的決策向人類提供解釋。獲取做出此類決策的明顯解釋,可以滿足在開發過程中更好地解釋模型的多重目標的需求,并同時提供更直接的、精細的上下文感知服務的方法。例如,對醫療保健應用程序中的患者活動進行持續檢查對于理解健康狀態非常重要。對病人活動的更透明的監測使專家能夠完全了解病人的行為。集成了元學習策略的XAI模型主要用于信息物理系統,這些系統是工業4.0的核心組件。它們確保了豐富的模擬基礎設施,與機器的智能通信,更高水平的可視化,更好的服務質量分析和生產效率最大化。在[4]中作者提出的另一個類似的工作中,為了在工業物聯網框架中賦予更高級別的安全特性,處理了模型不可知論解釋,以解決智能行業的網絡安全威脅。在這里,通過統計理論提供透明度,甚至為隨機的新樣本集提供解釋,以確保在高風險的工業物聯網任務的安全性。在[4]中,作者提出了一個可信任的、明顯的體驗平臺,用于評估物IOT智能家居場景中的電力消費行為。此外,XAI在醫療健康部門的作用與物聯網在疾病預測和診斷方面的作用正變得越來越重要。[19]中的工作涉及XAI模型,使醫療領域使用的物聯網框架能夠應對疾病預測和診斷所涉及的挑戰。

隨著XAI的深遠影響逐漸顯現,人工智能技術決策階段(如ML和DL模型)背后的整個深刻邏輯可以被理解。此外,XAI算法允許模型在預測階段解釋每個單獨的決策。它們在物聯網框架中的重要性是解決資源受限物聯網設備中XAI實施所涉及的問題的一種具有挑戰性的手段。然而,XAI對物聯網的深遠影響使得終端用戶信任這些部署在商業和公共場景中的設備。有了XAI模型和物聯網數據的本質成分,從終端用戶的角度,突出了模型訓練的高性價比和透明化的問題。

C. 比較和我們的貢獻

受XAI和物聯網領域進展的推動,研究界提出了一些相關的綜述工作。特別是,在過去幾年中,各種研究人員對XAI框架進行了廣泛的研究。例如,一些論文對XAI系統及其特性進行了總體概述[20,21,22,23,24,25],并對不同的XAI算法[26]進行了綜述。特別地,[20]中的作者總結了XAI在監督學習中的作用,以及它與人工一般智能相關的最新發展。同樣,[22]的作者回顧了XAI中最先進的方法在理論、概念、方法和評價上采用的聚類策略的貢獻。在[24]中,作者為解決XAI黑箱問題的辯論確定了四個主題。此外,基于嚴格的審查,這些發現有助于增強對XAI模型決策的認識。Angelov等人[25]將機器學習和深度學習研究的進展與可解釋性問題聯系起來。在此,作者闡述了可解釋性的原則,并提出了該研究領域未來的研究方向。在[26]中,Das等人提出了分類法,并根據XAI技術的固有特征對其進行分類,并將其配置為自解釋學習模型。此外,作者評估了8種XAI算法,并生成了解釋圖,并總結了這些方法的局限性。[21]中的作者概述了XAI、從AI中提取的背景細節、開發的起源和技術標準化,以及XAI體系結構、用例和研究挑戰。Arrieta等人[23]對XAI的分類進行了全面的調查,引出了負責任AI的概念框架。此外,它還激勵研究人員利用具有可解釋能力的人工智能系統。

考慮到倫理問題,XAI提供了可靠的系統,并提供了關于模型的解釋。對模型的改進,對系統決策的論證,對異常行為的控制,發現新的規律和隱藏的洞見[21]都需要解釋。在[27,28,29]中,作者就研究挑戰和應用領域從深度學習(DL)、自動化決策和個性化體驗的背景下比較了各種XAI框架。其他的則專注于特定的功能,如安全[30,31]、醫療保健[32,33,34]、增強[35]、機器人[36,37]以及與ML模型[38,39,40]相關的解決方案,以探索對系統所做決策的見解。此外,[41]的作者提供了在基于強化學習的應用中使用XAI的詳細總結。表1從XAI的角度簡要介紹了一些現有的調查文章,以及它們的主要貢獻和局限性。盡管XAI在文獻中已經被各種研究人員廣泛研究過,但據我們所知,目前還沒有關于在物聯網服務和應用中使用XAI的全面和專門的調研。XAI在各個領域的潛力,如物聯網網絡、安全、醫療保健和工業部門,還沒有在開放文獻中探索過。此外,從智能家居到智慧城市的角度,整體總結XAI與IoT的融合還有待探索。這些缺點促使我們對XAI與物聯網服務的集成進行了全面的審查。具體來說,我們包括了XAI在各種物聯網應用類別中的應用的最新調查,如安全、醫療保健、工業和智慧城市。本文的主要貢獻在于對XAI的使用進行了廣泛的總結,包括網絡安全增強、IoMT、IIoT和IoCT。我們還在每個物聯網應用結束時總結了本次調研的主要觀察結果。最后,討論了基于xai的物聯網服務的重要研究挑戰,并展望了未來的研究方向。就我們的熟練程度而言,我們是第一個提供物聯網系統中XAI專門和詳細調研的機構。這項調研的主要貢獻可以強調如下。

與該領域的其他相關綜述工作相比,該調查提供了物聯網、XAI及其集成的相關背景細節的廣泛總結,使研究人員能夠挖掘物聯網系統的可信性

我們介紹了物聯網中XAI的需求和最近文獻中提出的一些關鍵挑戰,并總結了一些最近的研究工作。

此外,我們還探索了一些物聯網應用領域,如安全、醫療保健、工業和智慧城市。我們介紹了XAI在此類應用中的需求和作用,以便更好地對物聯網服務進行值得信賴的探索,以及所吸取的教訓。

我們還從使用XAI模型的角度詳細討論了可靠物聯網服務的前沿發展。

最后,我們概述了未來研究的挑戰,以考慮物聯網的XAI方向。

本綜述的組織如下:第二部分闡述了XAI和物聯網的初步概況。第三節討論了物聯網中XAI系統的發展以及相關領域的應用類別。本節還闡述了每個應用程序的未來研究范圍和相關的開放端挑戰。第四部分總結了本文在建立基于xai的物聯網架構的最佳措施方面的主要發現和成果。第五部分指出了XAI在物聯網上的未來發展方向。第六部分是全文的總結。

圖1顯示了傳統AI和基于XAI的系統所涉及的操作的一般順序。在傳統的人工智能系統中,最終用戶無法解釋學習過程,它看起來像一個不透明的黑盒子。與傳統AI不同的是,XAI模型使用革命性的ML過程和可解釋的模型,在學習過程和根據訓練數據做出的決策中為最終用戶提供可持續的透明度。

圖3顯示了XAI模型的精度前景,這取決于用于實現的算法。在流行的XAI模型中,深度學習[54]模型以較少的可解釋特征確保了更好的精度。然而,與深度學習模型相比,基于決策樹[55]、隨機森林[56]和集成模型[57]的XAI模型提供了更好的解釋性,但性能精度顯著降低。同樣明顯的是,在模型的復雜性、解釋系統的功能和性能方面存在著權衡。

圖4顯示了一個示例IoMT框架,該框架使用XAI模型來傳遞值得信任的醫療保健服務。準確地說,連接的物聯網醫療設備能夠使用無線個人區域網絡(PAN)進行通信。XAI框架根據IoMT設備積累的數據做出的決策為患者和醫療保健專業人員提供了更好的幫助。

付費5元查看完整內容
北京阿比特科技有限公司