亚洲男人的天堂2018av,欧美草比,久久久久久免费视频精选,国色天香在线看免费,久久久久亚洲av成人片仓井空

摘要

運輸網絡中的數據挖掘(DMTN)指的是利用多種時空數據進行各種交通任務,包括模式分析、交通預測和交通控制。圖神經網絡(GNNs)在許多DMTN問題中至關重要,因為它們能夠有效表示實體之間的空間關聯。從2016年到2024年,圖神經網絡在DMTN中的應用已擴展到多個領域,如交通預測和運營。然而,現有的綜述主要集中在交通預測任務上。為填補這一空白,本研究提供了一個及時且富有洞察力的總結,重點介紹自2023年以來在學術界和工業界關于GNN在DMTN中應用的最新進展。首先,我們介紹并分析了各種DMTN問題,并概述了經典與最新的GNN模型。其次,我們深入探討了三個領域的關鍵研究工作:(1)交通預測,(2)交通運營,以及(3)行業參與,如Google Maps、高德地圖和百度地圖。在這些方向上,我們討論了基于交通問題的重要性和數據可用性的新研究機會。最后,我們匯總了數據、代碼及其他學習材料,以促進跨學科的交流。本綜述以自2023年以來GNN在DMTN研究中的最新趨勢為驅動,旨在為各種交通問題(包括預測和運營)提供豐富的數據集和高效的GNN方法。 關鍵詞:數據挖掘;運輸網絡;圖神經網絡;交通預測;交通運營

  1. 引言 2021年,Google開發并在全球范圍內部署了一種圖神經網絡(GNN)模型,通過Google Maps預測運輸網絡中的預計到達時間(ETA)1。這里的ETA預測指的是基于當前的道路交通情況,預測沿指定路線的旅行持續時間。該模型與基線模型相比,展示了優越的預測性能,并在洛杉磯、紐約、新加坡和東京等城市進行了案例研究。此外,它在美國、歐洲和亞洲的19個城市中,實現了負ETA預測的相對減少幅度在16%到51%之間(Derrow-Pinion等,2021)。這個項目克服了研究和生產中的挑戰,惠及了全球用戶在行程和路線規劃方面的需求。作為近年來最具影響力的智能交通應用之一,該項目提出了三個關鍵問題,本綜述旨在回答這些問題:
  • RQ1:什么是GNN,它在建模圖結構數據中有哪些優勢?
  • RQ2:GNN在運輸網絡中可能提供哪些實際應用?
  • RQ3:GNN在運輸網絡中的有前景的研究方向是什么?

ETA預測是運輸網絡數據挖掘(DMTNs)的一個實例,涉及從運輸網絡中的大量數據中提取和利用有價值的信息。DMTN包括使用各種交通數據進行數據收集、處理、融合、預測和操作。具體示例包括擁堵傳播特征化(Luan等,2022)、標準交通預測任務(如交通擁堵預測)(Rahman和Hasan,2023b,Feng等,2023b,Bogaerts等,2020,Cui等,2020)、共享出行(Ke等,2021a)和電動滑板車需求預測(Song等,2023)。此外,DMTN還涵蓋了交通數據補全(Chen等,2020,Nie等,2024,2025)、事故風險分析(Zhao等,2024)、系統韌性評估(Wang等,2020)和車輛路線優化(Liu和Jiang,2022)等內容。DMTN任務對于集成運輸系統的感知和操作至關重要,以提升其效能。例如,通過應用交通補全和預測技術,在線地圖導航平臺可以構建時間序列交通概況,為私家車和公共交通用戶提供高效的交通指導。盡管其重要性不言而喻,但許多DMTN任務仍然充滿挑戰,主要受以下三個因素的影響:(1)跨不同地點的空間交通狀態關系的復雜性(Wu等,2020a,2021,Lan等,2022);(2)交通網絡對人類活動(如體育賽事)的依賴(Yao和Qian,2021);(3)大城市中運輸網絡中大量的節點和邊(Boeing,2020)。

為了解決上述問題,現有研究已將GNN應用于各種DMTN問題。GNN是專門為圖結構數據設計的先進機器學習方法(Manessi等,2020,Veli?kovi?,2023,Corso等,2024)。這些模型將圖卷積操作與神經網絡架構相結合,捕捉沿圖邊的節點間關系(Scarselli等,2008,Kipf和Welling,2016,Veli?kovi?等,2017,Abu-El-Haija等,2019)。這一特性與描述實體間大量關系的需求無縫對接,例如推薦系統中的用戶-物品交互(Ying等,2018a,Chen等,2024b)、藥物發現中的蛋白質-蛋白質相互作用(Jiménez-Luna等,2020)、以及材料探索中的原子-原子接近性(Merchant等,2023)。在運輸網絡中,GNN推動了對DMTN問題中各種空間實體之間復雜相互關系的建模創新(Rahmani等,2023)。這些包括用于智能駕駛的車輛(Chen等,2021)、用于交通速度預測的傳感器(Feng等,2023b)、用于出行行為預測的用戶(Xue等,2024b)、用于旅行時間估算的路段(Fang等,2020)、用于打車服務的起始-目的地對(Ke等,2021b),以及用于空中交通密度預測的空域站點(Xu等,2023)。圖神經網絡在DMTN中的應用工作蓬勃發展,呼喚對這一領域進行系統的綜述與展望。 已有幾篇綜述總結了GNN架構及其在各領域的變種(見表1)。例如,Zhou等(2020)考察了包括圖卷積網絡(Kipf和Welling,2016)和門控GNN(Li等,2015)在內的通用GNN組件及其變體,并列舉了這些模型在自然科學、計算機視覺和自然語言處理等領域的應用(直至2020年)。后續關于GNN的綜述則集中于特定領域,如推薦系統(Wu等,2022)和時間序列分析(Jin等,2023b)。此外,Zhang等(2024a)考察了GNN的表達能力,專注于節點索引對GNN結果的影響。針對工業應用,Lu等(2024)總結了GNN在生物學、金融等多個工業領域的應用。然而,這些綜述并未專門聚焦于運輸網絡。 關于GNN在運輸網絡中的應用,我們列出了現有文獻綜述(見表2)。具體而言,Shaygan等(2022)討論了用于預測交通速度(Li等,2017,Guo等,2021)、交通流量(Song等,2020)以及二者結合的GNN方法(Zheng等,2020)。Jiang和Luo(2022)列舉了針對不同交通模式(如鐵路、出租車和自行車)的交通流量和需求預測研究。然而,這兩篇綜述并未涵蓋交通運營領域的研究,如交通信號控制(Devailly等,2021)。后續的綜述彌補了這一空白,將GNN應用擴展到智能交通任務中的交通運營(Rahmani等,2023,Wei等,2023)。然而,它們并未包含由Google Maps(Derrow-Pinion等,2021)、高德地圖(Dai等,2020)和百度地圖(Fang等,2020)等數字服務在運輸網絡中的大規模行業部署。 針對這些缺點的全面綜述使我們能夠識別出運輸系統數據挖掘和管理中的新研究方向。本綜述提供了關于GNN方法在DMTN問題中的應用的全面、最新總結,既面向學術界,也面向工業界(圖1)。

首先,我們總結了關鍵的DMTN問題,包括交通預測和交通運營。其次,我們概述了GNN模型及其隨著時間演變的變種(You等,2020)。接下來,我們分析了當前GNN在DMTN問題中的應用及未來的研究機會。最后,我們介紹了相關的在線數據集、代碼和學習材料,以支持學術界和工業界未來的研究工作。我們的貢獻如下:

  • 我們從學術角度全面分析了現有的GNN研究,涵蓋了交通預測和交通運營在各種交通網絡組件中的應用,包括車輛、傳感器位置、路段和空域。此外,我們還詳細回顧了運輸服務(如Google Maps)在研究進展和行業部署方面的情況,重點突出它們在問題定義和方法論開發上的專有性質,相較于學術方法(第4節)。
  • 我們討論了未來GNN研究方向,如時間間隔預測、模型簡化、組合優化問題和交通安全管理,考慮到數據的可用性和方法的適用性(第5節)。
  • 我們對GNN方法及其在運輸網絡中的應用進行了資源分類,包括開放數據集、代碼和教程,重點介紹了2023年和2024年的相關資料(第6節)。

接下來的部分安排如下(圖1)。第2節概述了各種DMTN問題,包括交通預測和運營。第3節討論了基礎的GNN模型及其進化變種。第4節回顧了GNN在運輸網絡中的學術和工業進展。第5節概述了新應用的未來研究方向。第6節總結了數據、代碼和其他資源,旨在促進未來研究。最后,第7節對本綜述進行總結。

付費5元查看完整內容

相關內容

圖神經網絡 (GNN) 是一種連接模型,它通過圖的節點之間的消息傳遞來捕捉圖的依賴關系。與標準神經網絡不同的是,圖神經網絡保留了一種狀態,可以表示來自其鄰域的具有任意深度的信息。近年來,圖神經網絡(GNN)在社交網絡、知識圖、推薦系統、問答系統甚至生命科學等各個領域得到了越來越廣泛的應用。

知識薈萃

精品入門和進階教程、論文和代碼整理等

更多

查看相關VIP內容、論文、資訊等

摘要—終身學習,也稱為持續學習或增量學習,是推進人工通用智能(AGI)的關鍵組成部分,通過使系統在動態環境中持續適應。盡管大規模語言模型(LLM)在自然語言處理領域展現了出色的能力,但現有的LLM智能體通常是為靜態系統設計的,缺乏根據新挑戰隨時間適應的能力。本調查是首個系統總結將終身學習納入基于LLM的智能體的潛在技術的文獻。我們將這些智能體的核心組件分為三個模塊:感知模塊,用于多模態輸入的集成;記憶模塊,用于存儲和檢索不斷發展的知識;以及行動模塊,用于與動態環境的實際互動。我們強調這三個支柱如何共同實現持續適應,緩解災難性遺忘,并提高長期性能。本調查為從事基于LLM智能體的終身學習能力開發的研究人員和從業人員提供了一條發展路線圖,提供了關于新興趨勢、評估指標和應用場景的見解。相關文獻和資源可通過以下鏈接獲取:

//github.com/qianlima-lab/awesome-lifelong-llm-agent.

關鍵詞—終身學習,持續學習,增量學習,大規模語言模型,智能體,人工通用智能(AGI)

1 引言

“智慧是適應變化的能力。” ——斯蒂芬·霍金

終身學習[1],[2],也稱為持續學習或增量學習[3],[4],已成為智能系統發展的關鍵焦點。如圖1所示,終身學習近年來吸引了越來越多的研究關注,它在使這些系統能夠持續適應并不斷改進方面起著至關重要的作用。正如Legg等人[5]所指出的,人的智能本質上是快速適應廣泛環境的能力,這突顯了人工智能系統展現同樣適應性的需求。終身學習指的是系統在避免遺忘已學知識的同時,獲取、整合和保持新知識的能力。對于那些在動態復雜環境中運行的系統,尤其重要,因為這些環境中常常出現新的任務和挑戰。與傳統的機器學習模型不同,后者通常在固定數據集上進行訓練并優化以執行特定任務,終身學習系統則被設計為能夠不斷演變。它們隨著遇到新情境而積累新知識并持續完善其能力。 盡管終身學習具有潛力,但目前人工智能的進展與終身學習的實際應用之間仍存在顯著的差距。雖然人類能夠自然地整合新知識并保留舊知識,但當前的人工智能系統在終身學習方面面臨兩大挑戰:災難性遺忘[6]和可塑性喪失[7],[8]。這些挑戰形成了穩定性與可塑性困境[9]。一方面,災難性遺忘指的是當系統學習新任務時,會忘記之前學到的信息,特別是在環境發生變化時尤為突出。另一方面,可塑性喪失則指系統無法適應新任務或新環境。這兩者代表了學習譜系的兩個對立端:靜態系統避免遺忘,但缺乏適應能力;而注重適應的系統則面臨遺忘過去知識的風險。克服這一困境是推動人工智能發展的關鍵,也是實現人工通用智能(AGI)[5]的基礎性挑戰。

1.1 構建終身學習LLM智能體的動機

近年來,大規模語言模型(LLM)[11],[12]的進展顯著改變了自然語言處理領域。像GPT-4[12]這樣的模型通過學習海量的文本數據,能夠處理并生成類人文本。它們在文本生成、機器翻譯和問答等任務中表現出色,得益于其理解復雜語言模式的能力。然而,傳統的LLM[11],[12]在訓練完成后是靜態的,這意味著它們無法在部署后適應新任務或環境。它們的知識是固定的,且無法在不重新訓練的情況下整合新信息,這限制了它們在動態現實場景中的應用。與此相比,LLM智能體代表了更高級的人工智能形式。不同于標準的LLM,這些智能體[13],[14]是能夠與環境互動的自治實體。LLM智能體能夠感知多模態數據(例如文本、圖像、傳感數據),將這些信息存儲在記憶中,并采取行動影響或響應其周圍環境[15]–[17]。它們被設計為不斷適應新情境,隨著與環境的互動和經驗的積累,智能體的決策能力得以不斷提高。圖2和圖3提供了相關示意圖。

將終身學習融入LLM智能體的動機源于開發能夠不僅適應新任務,還能在廣泛的動態環境中保留并應用先前知識的智能系統的需求,這與Legg等人[5]將智能定義為快速適應廣泛環境的觀點相契合。目前,現有的LLM智能體通常被開發為靜態系統,限制了它們在面對新挑戰時的演變能力。此外,大多數關于LLM的終身學習研究[1],[4]集中于處理不斷變化的數據分布,而非與環境進行互動。例如,通過持續微調LLM以適應特定領域的指令[1]。然而,這些方法仍將LLM視為靜態黑箱系統,并未解決LLM在真實世界環境中進行互動學習的實際需求。圖2比較了傳統的終身學習范式與本調查中討論的、LLM智能體與動態環境互動的新范式。 在現實世界的應用中,LLM智能體需要適應多樣的環境,如游戲、網頁瀏覽、購物、家庭任務和操作系統,而無需為每個新情境設計單獨的智能體。通過引入終身學習能力,這些智能體可以克服這一局限性。它們能夠持續學習并存儲來自多種模態(如視覺、文本、傳感數據)的知識,使其在環境變化時能夠進行實時適應和決策[18]–[21]。將終身學習融入LLM智能體,可以釋放它們在動態現實應用中的全部潛力[22],[23]。因此,這些智能體能夠不斷演變、獲得新知識,并保持關鍵信息,從而增強其適應性和多功能性。這個持續學習的過程對那些挑戰不斷出現的環境尤為重要,如自主機器人、互動助手和自適應決策支持系統[14]。圖4展示了一個終身學習的LLM智能體示意圖。

1.2 本調查的范圍

本調查提供了關于基于LLM的智能體終身學習系統的關鍵概念、技術和挑戰的全面概述。作為首個系統總結將終身學習納入LLM智能體的潛在技術的文獻,本調查將重點回答以下研究問題(RQ): RQ1:為終身學習設計的LLM智能體的核心概念、開發流程和基本架構是什么?(第3節) RQ2:LLM智能體如何持續感知和處理單模態和多模態數據,以適應新環境和任務?(第4、5節) RQ3:什么策略可以減輕災難性遺忘并保留已學知識?(第6、7、8、9節) RQ4:LLM智能體如何在動態環境中執行各種動作,如扎根、檢索和推理?(第10、11、12節) RQ5:評估終身學習在LLM智能體中表現的評估指標和基準是什么?(第13節) RQ6:終身學習LLM智能體的現實應用和使用案例是什么?它們如何從持續適應中受益?(第14節) RQ7:開發LLM智能體終身學習面臨的關鍵挑戰、局限性和未解問題是什么?(第15節) 通過回答這些研究問題,本調查作為理解LLM智能體中終身學習的設計、挑戰和應用的逐步指南。它回顧了最前沿的技術,并突出了新興趨勢和未來的研究方向。

1.3 本調查的貢獻

據我們所知,這是首個系統回顧終身學習與LLM智能體交叉領域最新進展的調查。本調查的主要貢獻如下:

  • 基礎概述:提供了實現LLM智能體終身學習的基礎概念和架構的全面概述。
  • 深入的組件分析:分析了感知、記憶和行動模塊等關鍵組件,這些組件使LLM智能體能夠進行適應性行為。
  • 全面討論:討論了現實世界應用、評估指標、基準,以及終身學習LLM智能體領域的關鍵挑戰和未來研究方向。

1.4 調查結構

本調查的結構如下:第2節回顧了關于LLM智能體和終身學習的相關調查和文獻;第3節介紹了為終身學習設計的LLM智能體的基礎概念、開發流程和整體架構;第4和第5節從感知角度討論了終身學習LLM智能體的設計,分別聚焦于單模態和多模態方法;第6、7、8和9節從記憶角度探討了LLM智能體的設計,涉及工作記憶、情節記憶、語義記憶和參數記憶;第10、11和12節從行動角度探討了LLM智能體的設計,包括扎根動作、檢索動作和推理動作;第13節介紹了評估終身學習LLM智能體表現的評估指標和基準;第14節深入討論了終身學習LLM智能體的現實應用和使用案例;第15節提供了實踐洞察并概述了未來的研究方向;最后,第16節總結了本調查。

終身學習,也稱為持續學習或增量學習,基于這樣一個理念:智能系統應該像人類一樣,持續地獲取、完善和保留知識,貫穿整個生命周期。與傳統的機器學習方法不同,傳統方法假設數據集是固定的、靜態的,而終身學習框架則面臨數據和任務隨時間演變的現實,模型必須在不遺忘已掌握技能的前提下進行適應。圖5展示了終身學習發展的示意圖。

終身學習的基于LLM的智能體架構旨在持續適應、整合并優化其在一系列任務和環境中的行為。在本小節中,我們識別了三個關鍵模塊——感知、記憶和行動——它們共同支持終身學習。這個劃分遵循了先前工作中提出的框架[14],但有一個顯著的不同:我們沒有保留“腦”模塊,而是采用了[14]中提出的“記憶”模塊,具有更清晰的功能性和改進的模塊化結構。 每個模塊相互作用,確保智能體能夠處理新信息、保留有價值的知識并選擇適應當前情境的合適行動。這三個模塊的設計理念來源于智能體的需求:(i) 感知和解讀不斷變化的數據,(ii) 存儲和管理來自過去經驗的知識,(iii) 執行適應變化環境的任務。 這三個模塊構成了一個動態反饋回路:感知模塊將新信息傳遞給記憶模塊,在記憶模塊中進行存儲和處理。記憶模塊隨后引導行動模塊,影響環境并為未來的感知提供信息。通過這一持續循環,智能體不斷完善其知識,提升適應性,最終提高其在復雜動態環境中的表現。

接下來,我們將詳細描述每個模塊,分析其設計如何貢獻于智能體的終身學習能力。圖6展示了整體架構的示意圖,圖7總結了后續章節的組織結構。

付費5元查看完整內容

摘要—基于大規模預訓練基礎模型(PFMs)的生成性人工智能(AI)系統,如視覺-語言模型、大型語言模型(LLMs)、擴散模型和視覺-語言-行動(VLA)模型,已經展示了在廣泛領域和情境中解決復雜且真正非平凡的AI問題的能力。特別是,多模態大型語言模型(MLLMs)通過從大量且多樣的數據源中學習,能夠提供豐富且細致的世界表示,從而具備廣泛的能力,包括推理、進行有意義的對話、與人類及其他代理共同協作解決復雜問題,并理解人類的社會和情感方面。盡管取得了這一令人印象深刻的成就,但基于大規模數據集訓練的最先進LLMs的認知能力仍然表面化且脆弱。因此,通用LLMs在其通才能力方面存在嚴重限制。要使LLMs實現人類級別的通用智能,需要解決一些基礎性問題——具身性、符號基礎、因果性和記憶機制。這些概念更符合人類認知,并為LLMs提供了固有的人類認知特性,從而支持實現具有物理可行性、語義意義、靈活性和更強泛化能力的知識和智能。在本研究中,我們討論了上述基礎性問題,并綜述了實現這些概念的最先進方法。具體而言,我們討論了如何利用具身性、符號基礎、因果性和記憶的原則,以有機的方式促進人工通用智能(AGI)的實現。

關鍵詞—大型語言模型、具身性、符號基礎、因果推理、記憶機制、人工通用智能。

1 引言

**1.1 背景

智能與一個系統(無論是生物系統還是其他類型的系統)在特定環境(或多個環境)中實現一個或多個預期目標的能力相關。一個智能系統能夠推斷自身的狀態以及環境的狀態,并能夠將這些推斷轉化為適當的響應,從而實現預期目標。智能是高級生物體的獨特特征,在開發其人工對應物——人工智能的過程中,研究人員常常借鑒生物學的概念。生物智能的一個重要特征是其普遍性,即它能夠處理廣泛不同的問題,適應多種環境。尤其是人類的智能,其復雜性、豐富性和多樣性令人驚嘆,能夠輕松處理許多新穎的任務。人類智能相較于其他高級動物的普遍優越性,主要源于人類通過社會和文化構建(如藝術、規范、儀式、信仰體系和習俗)來組織和傳遞知識的能力 [1]。語言在這些過程中起著至關重要的作用。 盡管創造這種類型的通用智能的想法具有吸引力,但在機器中實現如此高度的復雜性和普適性是極其具有挑戰性的。直到最近,取得顯著成果的AI技術往往集中于特定領域或受限領域,解決單一問題(如面部識別、醫學圖像分割、文本翻譯、股市預測、行人跟蹤等)。近來,基于變分自編碼器(VAE) [2] 和生成對抗網絡(GAN) [3] 的生成式AI技術在革命化AI能力方面作出了巨大貢獻,使得單一模型能夠同時處理多種復雜任務 [4]。更近期的進展是,大規模預訓練基礎模型的出現,如大型語言模型(LLMs) [5]、擴散模型(DMs) [6]、視覺-語言模型(VLMs) [7] 和視覺-語言-行動(VLA)模型 [8],為復制人工智能中的通用性特征帶來了現實的前景。由于它們能夠處理廣泛的開放領域問題 [9],[10],[11],[12],尤其是多模態大型語言模型,大規模預訓練基礎模型重新激發了對發展人工通用智能的興趣 [10]。本文的主要目的是介紹支撐人工通用智能實現的認知基本原理,并綜述在大型語言模型中實現這些概念的最先進技術。

**1.2 語言作為生物系統通用智能的基礎

1.2.1 語言作為知識獲取、表示和組織的媒介 研究表明,使用自然語言進行交流是學習現實世界通用知識最有效的方式之一 [13],雖然人類的感官和運動能力通常不優于其他高級動物(包括靈長類動物)(見 [14],[15],[16],[17],[18],[19],[20]),但人類的認知能力遠遠超越其他動物。人類認知能力優于其他動物王國成員,尤其是與人類最親近的靈長類動物,這主要歸因于人類使用語言的能力 [21],[22],[23]。 語言在人體內的抽象概念表示、解釋和推理中發揮著核心作用 [24]。在人的社會中,語言最重要的功能之一是促進新知識的獲取與共享。通過語言——無論是文學、演講還是藝術——人類能夠輕松從他人處學習,不僅通過觀察或與世界的互動,還能獲取其他人積累的知識。此外,語言為表示和內化知識提供了概念框架 [22]。研究表明,一個群體所使用的特定語言結構和詞匯會影響他們對世界的推理和解釋。實際上,語言差異(例如詞匯差異)已被證明影響不同語言群體成員如何記住和描述他們的經歷 [25],[26],[27],[28]。在這方面,語言可以塑造或重塑認知 [29],從而影響主體如何理解和與世界互動 [30],[31]。1.2.2 語言作為認知信息處理工具

除了創建抽象表示來組織感知信息和知識的表示外,語言在促進認知計算操作中起著根本作用 [24]。Lupyan [31] 認為,基本語言元素(如詞語)為其他認知成分提供了構建意義的線索。因此,語言不僅僅是一個用于指代現實世界物體、現象和經驗的靜態符號集合,它還是一個操作這些符號的工具。Clark [24] 專門描述了語言在促進人類認知信息處理和推理中的六種不同方式。研究表明,語言不僅有助于晶化智能(即與表示相關的認知機制),如經驗/刺激的分類 [26] 和記憶 [25],[28],還促進流動智能(即分析性問題解決技能),如感知 [32],[33],[34] 和推理 [24],[31]。此外,接觸多種語言框架已被證明能夠拓寬個體的視野,并幫助他們以更細致的方式理解概念。由于其在生物學認知能力中的中心地位,語言被多次描述為“認知接口” [21]、“智能放大器” [35],并且人類認知本身也被描述為“語言增強的認知” [31]。

**1.3 人工通用智能的概念

雖然文獻中對人工通用智能(AGI)有不同的解釋 [9],[36],[37],[38],[39],[40],但這一概念通常理解為具有廣泛智力能力的AI系統,能夠執行高級認知任務,如感知——包括情境理解和一定程度的自我意識 [41],[42],推理、規劃,以及在新情境下應用學習到的知識。AGI系統是能夠在多個領域成功完成復雜和多樣化的認知任務的強大模型,無需額外訓練。術語“人類水平的智能” [37],[43],[44] 經常被松散地用來指代展示通用智能的AI系統。AGI不應理解為超級全知和全能的機器。這種假設級別的能力被稱為人工超智能 [45],[46]。實際的AGI系統是具備有限但足夠強大且靈活的知識系統,能夠解決涉及傳感-運動控制、感知、情境理解、常識和分析推理能力的廣泛問題。對人工通用智能的這種理解,實際上反映了不僅在嵌入或學習所有相關知識和技能時的實際困難,也反映了這種方法的性能限制。此外,將人工通用智能概念化為有限范圍但適應性強、靈活且可擴展,與生物智能在高級生物體(如人類)中的性質和特性是一致的。盡管文獻中有各種定義,但幾乎對AGI的一些定義特征達成了一致。具體而言,典型AGI系統的最重要特征是(參見例如 [9],[36],[43],[47],[48]):它能夠學習并靈活應用有限且不確定的知識,解決不同情境下的廣泛問題;它的學習和行動是自主且目標驅動的;它能在記憶中保留并積累相關信息,并在未來任務中重新使用這些知識;它能夠理解情境并執行高級認知任務,如抽象和常識推理。 需要強調的是,AGI本質上與強AI(參見 [49],[50],[51])不同。AGI的重點是開發具有廣泛認知能力、能夠解決真正非平凡問題的智能系統,而強AI旨在創造極其強大的智能,不僅在功能層面模仿人類的認知能力,還具有如內在心理狀態和主觀經驗(包括意圖性、道德、情感和自我意識等) [52],[53],在意識和感知方面具有真實的人類認知特征。對此感興趣的讀者可以參考 [54],[55],[56],[57],[58],以獲得關于強AI概念的更詳細討論,包括意識 [54],[56],[57],意識 [55],[57],[59] 和AI系統的道德問題 [60],[61]。

**1.4 工作的范圍和大綱

在這項工作中,我們詳細討論了實現通用智能的核心原理。我們還討論了在人工智能和LLM系統中實現這些概念的各種方法。這里討論的概念不是實現AGI的算法解決方案,而是生物智能的一般原理和特性,這些原理和特性必須嵌入到基于大型語言模型的AI系統中 事實上,這些核心概念本質上是與算法無關的,即它們的實現并不局限于任何特定的技術或一組方法。然而,需要注意的是,特定的認知功能(如感知、推理、規劃、行動等)可以通過這些通用概念和原理得到增強。本文的其余部分安排如下: 在第2節,我們概述了大型語言模型(LLM)的關鍵要素,這些要素使其具有強大的能力,并能夠解決需要人類水平通用智能的復雜問題。 第3至第6節討論了實現通用智能所需的重要基礎性原則,包括具身性(第3節)、符號基礎(第4節)、因果性(第5節)和記憶機制(第6節)。 在第7節,我們探討了這些認知原則之間的相互關系和交互作用,并基于這些相互作用合成了一個整體的認知模型。 最后,在第8節中,我們對所討論的概念進行了總結,并在第9節給出了結論。

付費5元查看完整內容

摘要

大規模語言模型(LLM)在多個領域具有變革性的潛力,包括推薦系統(RS)。已有一些研究專注于通過LLM賦能推薦系統。然而,之前的工作主要集中于將LLM作為推薦系統,這可能面臨LLM推理成本過高的問題。最近,LLM與推薦系統的結合——即LLM增強推薦系統(LLMERS)——因其在實際應用中解決延遲和內存限制的潛力,受到了廣泛關注。本文對最新的研究工作進行了全面的綜述,旨在利用LLM提升推薦系統的能力。我們發現,隨著LLM被引入在線系統,特別是通過避免在推理階段使用LLM,領域內出現了一個關鍵的轉變。我們的綜述將現有的LLMERS方法按推薦系統模型增強的組件分為三種主要類型:知識增強、交互增強和模型增強。我們深入分析了每個類別,討論了相關方法、挑戰以及近期研究的貢獻。此外,我們還指出了幾個有前景的研究方向,這些方向可能進一步推動LLMERS領域的發展。

1 引言

大規模語言模型(LLM)在語言理解和推理方面展現了前所未有的能力 [3, 69, 87]。考慮到傳統推薦系統(RS)僅利用協同信號 [2, 65, 66],通過LLM為推薦系統提供語義信息顯得尤為有吸引力。因此,許多研究提出了彌合自然語言與推薦之間差距的方法,從而打造更強大的推薦系統。盡管將LLM應用于推薦系統取得了一定的成功,但對話系統與推薦系統之間的一個顯著區別在于推理延遲。推薦系統通常要求對大量請求提供低延遲響應,而LLM(例如LLaMA-7B)在響應時間上通常需要幾秒鐘。然而,許多早期的研究主要集中在直接使用LLM進行推薦 [13],這使得它們難以滿足實際應用的需求。最近,越來越多的研究者開始關注這一問題,并深入探索LLM增強推薦系統的實踐應用。因此,本文旨在總結和概述該領域的最新研究成果。為了明確本綜述的范圍,我們首先給出LLMERS的定義:傳統推薦系統通過LLM的輔助來增強訓練或補充數據,但在服務過程中無需使用LLM進行推理。盡管已有一些關于LLM在推薦系統中應用的綜述,但存在三點關鍵差異: i) 目前的大多數綜述集中在如何將LLM本身作為更好的推薦系統,包括生成推薦 [28, 31, 70] 和判別推薦 [4, 6, 20, 33, 56, 89]。相比之下,我們的綜述專門探討LLM增強推薦系統(LLMERS)。 ii) LLM在推薦系統中的應用是一個前沿方向,發展迅速。一些綜述 [4, 33, 70, 89] 并未涵蓋最新的論文。相比之下,本綜述包含了超過50篇2024年后發布的工作。 iii) 很少有綜述提及LLM增強推薦系統 [4, 33],但它們僅關注特征工程方面的增強。而本綜述則首次從綜合視角總結了LLMERS,包括特征和模型兩個方面。

1.1 初步介紹

由于LLM增強推薦系統是基于傳統推薦系統的,因此有必要先介紹其組件和面臨的挑戰,以便理解為什么以及在何處需要使用LLM。如圖1所示,傳統推薦系統通常由交互數據和推薦模型組成。

交互數據

傳統推薦系統通過捕捉用戶-物品記錄中的協同信號 [26] 來進行訓練,因此數據中的交互信息對訓練是必不可少的。此外,許多基于內容的模型 [43] 提取用戶和物品特征中的共現關系來進行推薦。因此,特征和交互數據是數據中的兩個必要組成部分。然而,數據面臨的兩個挑戰限制了傳統推薦系統的進一步發展:

  • 挑戰1:對于特征,它們通常會被轉換為數值或類別值進行使用,但缺乏來自知識層面的推理和理解。
  • 挑戰2:對于交互數據,數據稀疏性導致推薦系統模型的訓練不足。

推薦模型

隨著深度學習技術的廣泛應用,推薦模型遵循“嵌入-深度網絡”的模式。嵌入層將原始特征轉化為密集的表示 [88],而深度網絡則捕捉用戶的興趣 [84]。然而,它們也面臨一個獨特的挑戰:

  • 挑戰3:推薦模型只能捕捉協同信號,但無法利用語義信息。

1.2 分類法

LLMERS通過增強傳統推薦系統的基本組件,即交互數據和推薦模型,從而在服務過程中僅使用傳統的推薦系統模型。根據LLM在解決這些挑戰時的作用,我們將LLM增強推薦系統分為三大類,如圖1所示:

  1. 知識增強

這類方法利用LLM的推理能力和世界知識為用戶或物品生成文本描述。這些描述作為額外的特征,補充推理和理解的知識,從而解決挑戰1。(第二部分)

  1. 交互增強

為了解決數據稀疏性問題(即挑戰2),一些研究采用LLM生成新的用戶-物品交互數據。(第三部分)

  1. 模型增強

LLM能夠從語義角度分析交互數據,因此一些研究嘗試利用LLM來輔助傳統的推薦模型,從而解決挑戰3。(第四部分) 為清晰起見,我們在圖2中根據分類法展示了所有相關的LLMERS論文。

付費5元查看完整內容

摘要—人工智能(AI)通過計算能力的提升和海量數據集的增長迅速發展。然而,這一進展也加劇了對AI模型“黑箱”性質的解釋挑戰。為了解決這些問題,可解釋人工智能(XAI)應運而生,重點關注透明性和可解釋性,以增強人類對AI決策過程的理解和信任。在多模態數據融合和復雜推理場景中,多模態可解釋人工智能(MXAI)的提出將多種模態整合用于預測和解釋任務。同時,大型語言模型(LLMs)的出現推動了自然語言處理領域的顯著突破,但它們的復雜性進一步加劇了MXAI問題。為了深入了解MXAI方法的發展,并為構建更加透明、公平和可信的AI系統提供重要指導,我們從歷史的角度回顧了MXAI方法,并將其劃分為四個發展階段:傳統機器學習、深度學習、判別式基礎模型和生成式大型語言模型。我們還回顧了MXAI研究中使用的評估指標和數據集,最后討論了未來的挑戰和發展方向。與此綜述相關的項目已創建在 //github.com/ShilinSun/mxai_review。

關鍵詞—大型語言模型(LLMs)、多模態可解釋人工智能(MXAI)、歷史視角、生成式。

人工智能(AI)的進展對計算機科學產生了重大影響,如Transformer [1]、BLIP-2 [2] 和 ChatGPT [3] 在自然語言處理(NLP)、計算機視覺和多模態任務中表現出色,通過集成多種數據類型。這些相關技術的發展推動了具體應用的進步。例如,在自動駕駛中,系統需要整合來自不同傳感器的數據,包括視覺、雷達和激光雷達(LiDAR),以確保在復雜道路環境中的安全運行 [4]。類似地,健康助手需要具備透明性和可信度,以便醫生和患者都能輕松理解和驗證 [5]。理解這些模型如何結合和解釋不同模態對于提升模型可信度和用戶信任至關重要。此外,模型規模的不斷增大帶來了計算成本、可解釋性和公平性等挑戰,推動了可解釋人工智能(XAI)的需求 [6]。隨著包括生成式大型語言模型(LLMs)在內的模型變得越來越復雜,數據模態也更加多樣化,單一模態的XAI方法已無法滿足用戶需求。因此,多模態可解釋人工智能(MXAI)通過在模型的預測或解釋任務中利用多模態數據來解決這些挑戰,如圖1所示。我們根據數據處理順序將MXAI分為三種類型:數據可解釋性(預模型)、模型可解釋性(模型內)和事后可解釋性(模型后)。在多模態預測任務中,模型處理多個數據模態,如文本、圖像和音頻;在多模態解釋任務中,利用多種模態來解釋結果,從而提供更全面的最終輸出解釋。

為了回顧MXAI的歷史并預測其發展,我們首先將不同階段進行分類,并從歷史角度回顧了各種模型(如圖2所示)。在傳統機器學習時代(2000-2009年),有限的結構化數據的可用性促進了像決策樹這樣的可解釋模型的出現。在深度學習時代(2010-2016年),隨著大型標注數據集(如ImageNet [7])的出現以及計算能力的提升,復雜模型和可解釋性研究嶄露頭角,包括神經網絡核的可視化 [8]。在判別式基礎模型時代(2017-2021年),Transformer模型的出現,利用大規模文本數據和自監督學習,徹底改變了自然語言處理(NLP)。這一轉變引發了對注意力機制的解釋研究 [1],[9]–[11]。在生成式大型語言模型時代(2022-2024年),大量多模態數據的集成推動了生成式大型語言模型(LLMs)的發展,如ChatGPT [3],以及多模態融合技術。這些進展提供了全面的解釋,增強了模型的透明性和可信度。這一演變導致了對MXAI的關注,它解釋了處理多樣數據類型的模型 [6]。

然而,最近的XAI綜述通常忽視了歷史發展,主要集中在單模態方法上。例如,盡管[6]將MXAI方法按模態數、解釋階段和方法類型進行了分類,但忽略了LLMs的可解釋性技術。雖然Ali等人 [12] 提出了一個全面的四軸分類法,但缺少關于多模態和LLMs的總結。然而,像[13]、[14]和[15]這樣的綜述僅關注LLMs的可解釋性。我們的研究解決了這些不足,通過提供MXAI的歷史視角,分類了MXAI方法的四個時代(傳統機器學習、深度學習、判別式基礎模型和生成式大型語言模型),并將每個時代分為三個類別(數據、模型和事后可解釋性)。本文的主要創新貢獻總結如下:

  • 我們提供了MXAI方法的歷史總結和分析,包括傳統機器學習方法和基于LLMs的當前MXAI方法。
  • 我們分析了跨時代的方法,涵蓋數據、模型和事后可解釋性,以及相關的數據集、評估指標、未來挑戰和發展方向。
  • 我們回顧了現有方法,總結了當前的研究方法,并從歷史演變的角度提供了對未來發展的洞見和系統全面的視角。

生成式大型語言模型時代

這一時代的重點是通過判別模型(2017-2021年)奠定的基礎來推進生成任務。與前輩不同,這些模型,如GPT-4 [240]、BLIP-2 [2] 及其繼任者,通過生成連貫且語境相關的文本來增強可解釋性,為輸出提供自然語言解釋。這一進展彌合了人類理解和機器決策之間的鴻溝,使得與模型的互動更加細致,并為模型行為提供了更多的洞察。我們在表V中總結了相關工作。

**A. 數據可解釋性

  1. 解釋數據集:大型語言模型(LLMs)可以通過交互式可視化和數據分析有效地解釋數據集。LIDA [241] 通過生成與語法無關的可視化圖表和信息圖,幫助理解數據的語義,列舉相關的可視化目標,并生成可視化規范。其他方法 [242]–[245] 通過分析數據集來增強數據集的可解釋性。通過結合多模態信息和強大的自然語言處理能力,LLMs可以提供全面、深入、定制化和高效的數據解釋 [13]。Bordt等人 [246] 探討了LLMs在理解和與“玻璃盒”模型互動中的能力,識別異常行為并提出修復或改進建議。重點在于利用多模態數據的可解釋性來增強這些過程。
  2. 數據選擇:數據選擇在這一時代至關重要。它提高了模型的性能和準確性,減少了偏差,增強了模型的泛化能力,節省了訓練時間和資源,并提升了可解釋性,使得決策過程更加透明,有助于模型改進 [302]。多模態C4 [247] 通過整合多個句子-圖像對并實施嚴格的圖像過濾,提高了數據集的質量和多樣性,排除了小型、不規則比例的圖像以及包含人臉的圖像。這種方法強調了文本-圖像的相關性,增強了多模態模型訓練的魯棒性和可解釋性。還提出了一種基于啟發式混合數據過濾的生成式AI新范式,旨在增強用戶沉浸感并提高視頻生成模型與語言工具(例如ChatGPT [3])之間的互動水平 [248]。該方法使得從單個文本或圖像提示生成交互式環境成為可能。除了上述內容外,還有一些工作旨在提高模型對分布變化和超出分布數據的魯棒性 [249],[250]。
  3. 圖形建模:盡管多模態大型語言模型(MLLMs)可以處理和整合來自不同模態的數據,但它們通常是隱式地捕捉關系。相比之下,圖形建模通過顯式表示數據節點(例如圖像中的對象、文本中的概念)及其關系(例如語義關聯、空間關系),來更直觀地理解復雜數據關系。一些方法 [251]–[253] 將圖形結構與LLMs結合,通過多模態整合提升了復雜任務的性能和模型的可解釋性。

**B. 模型可解釋性

  1. 過程解釋:在這一時代,MXAI的過程解釋強調了多模態上下文學習(ICL)和多模態思維鏈(CoT)。ICL的突出之處在于它能夠通過使用人類可理解的自然語言指令來避免對大量模型參數進行廣泛更新 [303]。Emu2 [254] 通過擴展多模態模型生成,增強了任務無關的ICL。Link context learning(LCL) [304] 關注因果推理,以提升多模態大型語言模型(MLLMs)的學習能力。[255] 提出了多模態ICL(M-ICL)的綜合框架,適用于DEFICS [256] 和OpenFlamingo [257]等模型,涵蓋了多種多模態任務。MM-Narrator [258] 利用GPT-4 [240] 和多模態ICL生成音頻描述(AD)。進一步的ICL進展和新的多模態ICL變種由 [259] 探討。MSIER [260] 使用神經網絡選擇能夠提高多模態上下文學習效率的實例。多模態CoT解決了單模態模型在復雜任務中的局限性,在這些任務中,單靠文本或圖像無法全面捕獲信息。文本缺乏視覺線索,而圖像缺少詳細描述,這限制了模型的推理能力 [305]。多模態CoT通過整合和推理多種數據類型,如文本和圖像 [261]–[264],來解決這一問題。例如,圖像識別可以分解為逐步的認知過程,構建生成視覺偏見的網絡鏈,這些偏見在每一步都被加到輸入的詞嵌入中 [261]。Zhang等人 [262] 首先從視覺和語言輸入中生成推理依據,然后將其與原始輸入結合進行推理。混合推理依據 [306] 使用文本推理來引導視覺推理,通過融合特征提供連貫且透明的答案解釋。
  2. 內在可解釋性:在這一小節中,我們探討了多模態大型語言模型(MLLMs)的內在可解釋性,重點是兩類主要任務:多模態理解和多模態生成 [307]。多模態理解任務包括圖像-文本、視頻-文本、音頻-文本和多模態-文本理解。在圖像-文本理解中,BLIP-2 [2] 通過兩階段的預訓練過程增強了解釋性,將視覺數據與文本數據對齊,從而提高了圖像描述的連貫性和相關性。LLaVA [308] 通過將圖像-文本對轉換為與GPT-4 [240] 兼容的格式,并將CLIP的視覺編碼器與LLaMA的語言解碼器對接進行微調,生成了指令跟隨數據。像LLaVA-MoLE [309]、LLaVA-NeXT [271] 和LLaVA-Med [272]等變種在此基礎上進行了增強,針對特定領域和任務做出了改進。對于視頻-文本理解,與圖像不同,視頻具有時間維度,需要模型處理靜態幀并理解它們之間的動態關系。這增加了多模態模型的復雜性,但也提供了更豐富的語義信息和更廣泛的應用場景。VideoChat [273] 構建了一個以視頻為中心的指令數據集,強調時空推理和因果關系。該數據集增強了時空推理、事件定位和因果推理,整合了視頻和文本,從而提高了模型的準確性和魯棒性。Dolphins [274] 結合視覺和語言數據來解讀駕駛環境,并與駕駛員自然互動。它提供了清晰且具有相關性的指令,為其建議生成解釋,并通過不斷學習新經驗來適應不斷變化的駕駛條件。對于音頻-文本理解,音頻數據由于其時間序列的性質,需要模型能夠解析和理解時間動態。這擴展了多模態理解的能力。Salmonn [275] 將預訓練的基于文本的LLM與語音和音頻編碼器整合到一個統一的多模態框架中。這種設置使得LLMs能夠直接處理和理解普通音頻輸入,增強了多模態可解釋性,并提供了有關文本和音頻數據關系的洞察。盡管如此,Salmonn在實現全面音頻理解方面仍面臨挑戰。相比之下,Qwen-audio [276] 通過開發大規模音頻-語言模型來推動該領域的發展。通過利用大量的音頻和文本數據集,Qwen-audio提高了模型處理和解釋多樣聽覺輸入的能力,從而推動了多模態理解的邊界,并在各種音頻相關任務中展現了強大的表現。

結論

本文將多模態可解釋人工智能(MXAI)方法按歷史發展分為四個時代:傳統機器學習、深度學習、判別基礎模型和生成式大型語言模型。我們從數據、模型和后驗可解釋性三個方面分析了MXAI的演變,并回顧了相關的評估指標和數據集。展望未來,主要挑戰包括可解釋性技術的規模化、平衡模型的準確性與可解釋性以及解決倫理問題。MXAI的持續進展對于確保AI系統的透明性、公正性和可信性至關重要。

付費5元查看完整內容

摘要—視覺目標跟蹤(VOT)是計算機視覺領域一個具有吸引力且重要的研究方向,其目標是在視頻序列中識別和跟蹤特定目標,且目標對象是任意的、與類別無關的。VOT技術可以應用于多種場景,處理多種模態的數據,如RGB圖像、熱紅外圖像和點云數據。此外,由于沒有單一傳感器能夠應對所有動態和變化的環境,因此多模態VOT也成為了研究的重點。本文全面綜述了近年來單模態和多模態VOT的最新進展,特別是深度學習方法的應用。具體而言,本文首先回顧了三種主流的單模態VOT,包括RGB圖像、熱紅外圖像和點云跟蹤。特別地,我們總結了四種廣泛使用的單模態框架,抽象出其架構,并對現有的繼承方法進行了分類。接著,我們總結了四種多模態VOT,包括RGB-深度、RGB-熱紅外、RGB-LiDAR和RGB-語言。此外,本文還呈現了所討論模態在多個VOT基準測試中的對比結果。最后,我們提出了建議和深刻的觀察,旨在激發這一快速發展的領域的未來發展。 關鍵詞—視覺目標跟蹤,深度學習,綜述,單模態,多模態

//www.zhuanzhi.ai/paper/2edd0971ae625f759822052af4d569fd

1 引言

視覺目標跟蹤(VOT)是過去幾十年來計算機視覺領域的一個高度活躍的研究課題,因其在視頻監控 [1]、[2]、[3]、自動駕駛 [4]、[5]、移動機器人 [6]、[7]、人機交互 [8]、[9] 等廣泛場景中的重要應用而受到關注。VOT任務的定義是:給定目標在第一幀中的邊界框位置,跟蹤器需要在隨后的所有幀中持續且魯棒地識別和定位該目標,其中目標可以是任意實例且不依賴于類別。這個任務非常具有挑戰性,因為:1)目標可能經歷諸如形變、旋轉、尺度變化、運動模糊和視野丟失等復雜的外觀變化;2)背景可能帶來諸如光照變化、相似物體干擾、遮擋和雜亂等無法控制的影響;3)視頻捕捉設備可能會震動和移動。 作為計算機視覺中的一項核心任務,VOT有多種數據模態可供選擇。最常見的模態是RGB視頻,因其普及和易獲取性,吸引了大量研究者關注這一任務。RGB模態的VOT提供了在圖像坐標系下的大致目標位置,并通過二維邊界框為許多高級圖像分析任務奠定了基礎,例如姿態估計、步態/活動識別、細粒度分類等。基于RGB的VOT的演進 [2]、[10]、[11]、[12] 是持久且歷史悠久的,隨著深度學習 [13]、[14]、[15]、[16]、[17] 和大規模數據集 [18]、[19]、[20] 的出現,這一進展進一步加速。本文主要關注過去十年中的方法,特別是基于深度神經網絡(DNN)的方法。根據其工作流程,我們將主流的RGB跟蹤器分為四類:判別性相關濾波器(DCF) [17]、[21],Siamese跟蹤器 [22]、[23]、[24],實例分類/檢測(ICD) [25]、[26]、[27] 和單流變換器(OST) [1]、[28]、[29]。為了便于說明,圖3展示了這四種基于深度學習的框架及其最簡化的組件。前兩種框架在過去十年中非常流行,而后兩種則較少被提及,甚至在以往的綜述中沒有出現過,因為ICD不像DCF和Siamese那么常見,OST則是一個自2022年才出現的新框架。 另一方面,RGB模態的缺點也非常明顯,應用場景受到限制。首先,它在夜間和惡劣天氣(如雨天和雪天)下的表現不盡如人意。在這些嚴酷的視覺條件下,可以使用基于熱紅外(TIR)的VOT [30]、[31]、[32],通過TIR攝像機捕捉來自生物體的熱輻射,在沒有光照的情況下跟蹤目標。其次,缺乏深度信息使得單一的RGB模態VOT無法感知三維幾何和定位信息,這在自動駕駛和移動機器人等應用場景中尤為重要。最近,基于LiDAR的VOT [5]、[33]、[34]、[35] 應運而生,解決了這一問題,通過探索3D點云的內在幾何結構來感知目標的深度。LiDAR點的幾何結構有助于感知目標物體的深度,從而提供精確的3D形狀和位置。因此,本文還概述了兩種單模態VOT方法(基于TIR和LiDAR的)。此外,容易發現這些模態之間的共同框架,以便更好地理解。例如,基于TIR的跟蹤器通常遵循DCF和Siamese框架,因為TIR數據格式與RGB圖像非常相似。同樣,基于LiDAR的VOT借用了RGB模態中的Siamese框架,并將其發展為主導3D跟蹤領域的方法。 此外,由于不同的單模態VOT各有優缺點,因此也提出了融合多模態信息的跟蹤器,具有提高精度和魯棒性的潛力。更具體地說,融合意味著將兩種或多種模態的信息結合起來進行目標跟蹤。例如,TIR傳感器對光照變化、偽裝和物體姿態變化不敏感,但在人群中區分不同人的TIR輪廓會比較困難。另一方面,RGB傳感器則具有相反的特性。因此,直觀地將這兩種模態進行融合,可以互相補充 [36]、[37]、[38]。此外,融合選擇可能根據不同的應用有所不同。例如,RGB-LiDAR [39]、[40] 可以是適用于機器人跟隨的良好選擇,因其需要準確的3D信息;而RGB-語言VOT [8]、[9]、[41] 則適用于人機交互。隨著實際需求的增加,VOT領域的一些研究者已轉向集成多種模態,以構建魯棒的跟蹤系統。 現有關于VOT的綜述論文主要集中在單一RGB模態方法的不同方面和分類 [42]、[43]、[44]、[45]、[46]、[47]、[48]、[49]、[50]。例如,最近的綜述 [46] 將現有的RGB跟蹤器分為生成性跟蹤器和判別性跟蹤器。Javed等人 [43] 介紹了兩種廣為人知的RGB基VOT框架,即DCF和Siamese。然而,這些以往的工作未包含最新流行的基于變換器的方法,而這些方法不僅建立了新的最先進的性能,還帶來了許多有洞察力的研究方向。此外,ICD框架的展示也不夠充分。而且,關于多模態VOT的綜述非常少,要么僅討論了兩種模態(RGB-Depth和RGB-TIR) [51],要么側重于多線索特征的融合(如顏色、梯度、輪廓、空間能量、熱輪廓等) [52]、[53]。在過去五年里,我們目睹了多模態VOT的顯著進展。同時,新的研究方向如基于LiDAR的VOT、RGB-LiDAR VOT和RGB-語言VOT相繼出現。然而,這些研究在以往的VOT綜述中未被很好地總結。 本文從數據模態的角度,系統地回顧了VOT方法,考慮了單模態VOT和多模態VOT的最新發展。我們在圖1中總結了所回顧的模態及其代表性示例、優缺點和應用。具體而言,我們首先概述了三種常見的單模態VOT方法:基于RGB、基于TIR和基于LiDAR的。接下來,我們介紹了四種多模態融合跟蹤方法,包括RGB-Depth、RGB-TIR、RGB-LiDAR和RGB-Language。除了算法外,我們還報告并討論了不同模態的VOT基準數據集及其結果。本文的主要貢獻總結如下:

  1. 我們從數據模態的角度全面回顧了VOT方法,包括三種常見的單模態(RGB、TIR、LiDAR)和四種多模態(RGB-Depth、RGB-TIR、RGB-LiDAR、RGB-Language)。據我們所知,這是第一篇綜述工作,展示了新興的基于LiDAR、RGB-LiDAR和RGB-Language的VOT方法。
  2. 我們總結了四種廣泛使用的基于深度神經網絡的單模態跟蹤器框架,抽象出其架構并展示了其對應的定制繼承者。
  3. 我們提供了對VOT社區中300多篇論文的全面回顧,涉及最新和先進的方法,為讀者提供了最先進的技術和工作流程。
  4. 我們對不同模態的現有方法在廣泛使用的基準測試中的表現進行了廣泛比較,并最終給出了深刻的討論和有前景的未來研究方向。

本文的其余部分安排如下:第2節介紹現有的VOT綜述,并闡述本文的不同方面。第3節回顧了使用不同單一數據模態的VOT方法及其比較結果。第4節總結了多模態VOT方法。第5節介紹了不同模態的VOT數據集。最后,第6節討論了VOT的未來發展潛力。由于篇幅限制,部分結果表格,包括單模態和所有多模態結果,已移至附錄A,且不同模態的VOT數據集介紹見附錄B。

付費5元查看完整內容

摘要—圖異常檢測(Graph Anomaly Detection, GAD)旨在識別異常的圖實例(例如節點、邊、子圖或圖),由于其在廣泛應用中的重要性,近年來備受關注。深度學習方法,特別是圖神經網絡(Graph Neural Networks, GNNs),由于其強大的能力能夠捕捉圖數據中的復雜結構和/或節點屬性,已成為GAD領域中一種有前景的范式。鑒于大量基于GNN的GAD方法的提出,總結現有GAD研究中的方法和發現,對于定位有效的模型設計來解決GAD中的開放性問題至關重要。為此,本文旨在對深度學習方法在GAD中的應用進行全面綜述。現有的GAD綜述主要集中在特定任務的討論上,使得理解現有方法的技術見解及其在應對GAD中的一些獨特挑戰時的局限性變得困難。為了填補這一空白,我們首先討論了GAD問題的復雜性及其帶來的挑戰,隨后從方法學的三個新穎視角——GNN主干設計、GAD代理任務設計以及圖異常度量,系統性地回顧了當前的深度GAD方法。為了加深討論,我們進一步提出了一個包含13個細化方法類別的分類體系,從這三個視角提供了對模型設計及其能力的更深入見解。為促進GAD方法的實驗和驗證,我們還總結了常用的GAD數據集以及在這些數據集上的經驗性能對比。最后,我們討論了多個GAD中的重要開放性研究問題,以激發該領域未來更多高質量的研究。持續更新的GAD數據集庫、GAD算法代碼鏈接和經驗對比可在 //github.com/mala-lab/Awesome-Deep-Graph-Anomaly-Detection 獲取。

關鍵詞—圖異常檢測,圖神經網絡,深度學習,異常檢測,圖表示學習

1 引言

圖異常檢測(Graph Anomaly Detection, GAD)旨在識別不符合正常模式的圖實例(如節點、邊、子圖和圖)。這是一個活躍的研究領域,廣泛應用于檢測各種圖/網絡數據中的異常實例,例如在線用戶網絡中的濫用用戶行為、金融網絡中的欺詐活動以及社交網絡中的垃圾信息。此外,由于數據樣本之間的關系可以建模為相似性圖,人們也可以利用GAD方法在任何數據對象集上發現異常(只要可以使用適當的成對相似性函數)。由于圖結構的復雜性,傳統的異常檢測方法無法直接應用于圖數據。近年來,圖神經網絡(Graph Neural Networks, GNNs)在通過捕捉結構模式建模和學習圖的表示方面表現出了有前景的能力,激發了大量基于GNN的GAD方法的提出。然而,流行的GNN設計,例如節點表示的聚合和優化目標,可能導致過度平滑,使正常和異常圖實例的表示無法區分,極大地限制了其在實際應用中的使用。針對這些挑戰,許多專門為GAD設計的新穎GNN方法已經被提出。在本工作中,為了總結當前的方法和發現,我們提供了一個系統且全面的深度GAD技術綜述,并討論這些技術如何應對GAD中的各種挑戰。我們還提出了多個GAD中的重要開放研究問題,以激發該領域未來的更多研究。**相關綜述。**近年來已經有幾篇關于異常檢測的綜述,例如[2],[4],[81],[89],[103],[113],但其中大多數集中在非深度學習方法上[2],[4],[103],或是一般數據而非圖數據[7],[89]。研究[81],[113]涉及深度GAD,但綜述的視角較為狹窄。例如,Ma等人[81]專注于特定任務的討論,對技術發展的綜述有限,而Liu等人[64]和Tang等人[113]則分別專注于建立無監督和有監督GAD方法的性能基準。另一篇相關工作是Liu等人[71],但其局限于有監督的不平衡圖學習。盡管這些綜述為GAD方法的發展提供了有益的指導,但難以理解現有方法的技術見解及其在解決GAD獨特挑戰時的局限性。**我們的工作。**為了填補這一空白,我們旨在提供一個獨特的GAD綜述,討論這些技術見解、局限性以及該重要領域未來的研究機會。具體而言,我們首先討論了GAD問題的復雜性及其帶來的獨特挑戰。然后,我們從三個新穎的視角系統回顧了當前的深度GAD方法,包括GNN主干設計、GAD的代理任務設計和圖異常度量。為了加深討論,我們進一步提出了一個涵蓋13個細化方法類別的分類體系,從這三個視角提供了對模型設計及其能力的更深入見解。為了促進GAD方法的實驗和驗證,我們還總結了常用的GAD數據集以及在這些數據集上的經驗性能對比。表1總結了我們的工作與相關綜述的對比。總之,我們的主要貢獻如下:

  • 本綜述提供了對GAD問題復雜性及其帶來獨特挑戰的重要見解(第2節)。

  • 我們引入了當前深度GAD方法的新穎分類體系,從GNN主干設計、GAD代理任務設計和圖異常度量的三個技術設計視角提供了深入理解(第3節)。

  • 然后,我們在這三個視角下引入了13個細化方法類別,以提供對模型設計(即關鍵直覺、假設、學習目標、優缺點)及其應對GAD獨特挑戰能力的更深入見解(第4、5、6節)。

  • 我們進一步討論了多個GAD中的重要未來研究方向,這些方向涉及大量未解決的開放問題,這些問題的解決將為應對GAD中的獨特挑戰開辟新的機會(第7節)。

  • 我們還總結了來自13個類別的許多代表性深度GAD方法以及大量GAD基準數據集,并進一步提供了這些數據集上的定量對比結果(附錄A、B和C)。

深度GAD方法的分類為了促進對GAD研究進展的全面理解,我們引入了一個新的分類體系,將當前的GAD方法分為三大類,包括GNN主干設計、GAD代理任務設計和圖異常度量,具體取決于每種方法所提供的技術見解。這使我們能夠從三個不同的技術視角對GAD方法進行回顧。為了詳細闡述每個視角中的見解,我們進一步將這些方法細分為13個小類。分類體系的概述如圖1所示。更具體地說,常規的GNN無法直接應用于GAD,因為前述的復雜問題,因此有一類研究專注于為GAD設計合適的GNN主干。根據GNN中不同模塊的改進,GNN主干的設計可以分為判別式GNN和生成式GNN。第二大類方法是通過優化一系列精心設計的學習目標函數構建GAD模型,從而形成代理任務,指導GAD模型在不需要真實標簽的情況下捕捉多樣的圖異常/正常模式。根據代理任務的建模,這類方法可以進一步分為五個子類別。最后,還有一類方法是基于專門為圖數據設計的異常度量來構建GAD模型。這類方法根據所使用的圖異常度量類型,可以進一步分為四個子類別。附錄A的表2中總結了每種GAD方法類型的代表性算法。

結論

在本綜述中,我們首先討論了GAD的復雜性及現存的挑戰。隨后,我們從三個新視角提出了深度GAD方法的新穎分類體系,包括GNN主干設計、代理任務和圖異常度量。我們進一步通過討論這些視角中的細化方法類別,深化了對每個視角的探討。在每個細化方法類別中,我們不僅回顧了相關的GAD方法,還分析了它們的基本假設、優缺點及其在應對GAD獨特挑戰中的能力。最后,我們討論了GAD未來研究中的六個重要方向。通過解決這些方向中的問題,我們預計將產生更多先進的方法來應對實際生活中的GAD問題。

付費5元查看完整內容

圖結構數據在各個領域中廣泛存在,表示實體之間有價值的關系信息。然而,大多數深度學習技術,如卷積神經網絡(CNN)和循環神經網絡(RNN),都是針對網格結構數據設計的,難以處理圖數據。這引發了對使用圖神經網絡(GNNs)進行圖表示學習的日益興趣。GNNs通常通過消息傳遞將圖結構融入神經網絡層中。然而,圖神經網絡仍面臨諸多挑戰,如缺乏嚴格的基準、模型表達能力的局限性和較差的可擴展性。 本論文旨在通過解決這些關鍵問題,推動圖表示學習的發展。首先,它開發了全面的基準,用于標準化評估GNNs。這包括中等規模的任務,涵蓋社交網絡、計算機視覺和組合優化等領域中節點、邊和圖分類的監督和半監督學習。論文還引入了一個專門設計的全新基準,用于測試大規模圖中長距離交互建模的能力。

其次,論文致力于開發新的GNN架構,以提高圖上的學習表現和泛化能力。它通過引入圖形領域的歸納偏差(如利用稀疏性和設計Laplacian位置編碼)將Transformer網絡擴展到圖結構數據領域。另一種技術通過使用具有信息量的圖擴散特征,在GNN中分別學習結構和位置表示。這顯著增強了模型的能力。

最后,論文解決了圖模型(尤其是圖Transformer)在大規模圖上擴展的問題。它研究了設計原則,如整合高效的局部和全局圖表示。基于此,提出了一個可擴展的圖Transformer框架。該框架通過引入新穎的鄰域采樣和全局注意機制,捕捉大規模圖中的局部結構和全局依賴關系。

總體而言,通過嚴格的基準測試、富有表現力的架構和可擴展的模型,本論文在多個方面對推動圖結構數據上的深度學習做出了重要貢獻。這些技術為GNN在處理復雜關系數據的實際應用中鋪平了道路。

付費5元查看完整內容

摘要——目前,大多數工業物聯網(IIoT)應用仍然依賴于基于卷積神經網絡(CNN)的神經網絡。盡管基于Transformer的大模型(LMs),包括語言、視覺和多模態模型,已經在AI生成內容(AIGC)中展示了令人印象深刻的能力,但它們在工業領域(如檢測、規劃和控制)中的應用仍然相對有限。在工業環境中部署預訓練的大模型往往面臨穩定性與可塑性之間的挑戰,這主要是由于任務的復雜性、數據的多樣性以及用戶需求的動態性。為了應對這些挑戰,預訓練與微調策略結合持續學習已被證明是一種有效的解決方案,使模型能夠適應動態需求,同時不斷優化其推理和決策能力。本文綜述了大模型在工業物聯網增強的通用工業智能(GII)中的集成,重點關注兩個關鍵領域:大模型賦能GII和GII環境下的大模型。前者側重于利用大模型為工業應用中的挑戰提供優化解決方案,而后者則研究在涉及工業設備、邊緣計算和云計算的協同場景中,持續優化大模型的學習和推理能力。本文為GII的未來發展提供了洞見,旨在建立一個全面的理論框架和研究方向,從而推動GII向更加通用和適應性強的未來發展。 關鍵詞——通用工業智能、大語言模型、持續學習、工業物聯網、邊緣計算。

工業5.0將網絡-物理-社會元素集成到制造業中,強調數字與物理系統的交互以及人機協作,通過互聯網有效地連接設備、物體和人[1]。隨著物聯網(IIoT)的快速發展[2]-[4]、通信技術[5], [6]、AI生成內容(AIGC)[7]、機器人和數字孿生技術[8]-[10],現代工業系統變得越來越復雜。這些系統不僅生成高頻的單模態數據,還包括文本、圖像、視頻、代碼和音頻等多模態數據類型。工業大數據可以用于創建數字化制造工作流程和工業流程,極大地推動了工業5.0和網絡-物理-社會系統中生產力、效率和效能的提升。 如圖1所示,數據集和模型構成了GII生態系統的基礎要素,推動了更高層次算法和應用的快速發展。這些應用包括智能控制系統、預測性維護[11]、故障診斷[12], [13]和異常檢測[14],這些都高度依賴于對IIoT數據的提取和分析。GII的成功特別依賴于其從這些IIoT數據集中高效學習和提取有價值特征的能力。基于Transformer的大模型(LMs),例如大語言模型(LLMs)[16]–[18]、視覺模型[19], [20]、時間序列模型[21]以及多模態模型[22], [23],由于其獨特優勢,受到廣泛關注。通過在大規模數據集上進行預訓練,這些擁有數十億到數萬億參數的模型積累了廣泛的知識,極大地推動了數據處理的自動化和多樣化,同時減少了對人類專業知識的依賴。

在工業領域,大模型的精度和可擴展性使其在提高工業流程的準確性方面非常有效。然而,在工業環境中部署預訓練大模型時,需要根據具體任務架構、動態數據分布和用戶偏好進行謹慎的適配。盡管大模型在多任務泛化、小樣本學習和推理方面具有優勢,但在這些環境中平衡穩定性和適應性仍然是一個顯著挑戰。受到大模型在自然語言處理(NLP)中成功的啟發,工業界越來越多地探索其在GII中的潛力。一種方法是從頭構建行業特定的基礎模型[24],但特定領域數據規模的限制通常阻礙了涌現能力的發展。另一種方法是通過大數據集上的預訓練,然后進行特定任務的微調,這已顯示出在構建穩健的工業模型方面的巨大潛力,顯著提高了各類任務的性能。這種方法有效地應對了特定領域數據匱乏的挑戰,同時加速了工業應用中先進能力的發展。

為工業任務調整大模型是一個重要的研究方向[25]。這些模型在跨任務泛化、零樣本/小樣本學習和推理能力方面的優勢,為解決知識遷移、數據稀缺性和解釋性問題提供了新的途徑。 ****持續大模型(CLMs)****在維持和發展這些工業模型的能力方面發揮了關鍵作用。CLMs在大規模數據集上進行預訓練,并由Transformer架構驅動,設計用于持續學習和適應,確保工業大模型在滿足GII不斷變化的需求時仍然保持相關性和有效性。

A. 本綜述的目標

本文旨在建立一個全面的視角,并對IIoT增強的GII進行深入分析。它提出了將GII分為兩個主要類別的概念:

  • 通用工業智能的大模型(LMs for GII):該方向重點利用大模型的高級數據處理和分析能力來解決工業應用中固有的優化問題。具體來說,LMs通過其處理實時多模態IIoT數據、執行復雜特征提取并確保精確的模式識別和結果驗證的能力,提升了IIoT驅動的工業系統的智能化和運營效率,最終提高了不同工業環境中的測量精度和系統性能。
  • 通用工業智能上的大模型(LMs on GII):該視角探討了工業應用如何通過持續模型操作,在協同的IIoT設備-邊緣-云環境中擴展和優化大模型的能力。通過采用持續學習(CL)和在線學習策略,模型可以適應新數據和環境變化,而無需昂貴的再訓練。這種方法節省了計算資源,最小化了延遲,并高效處理了數據分布變化和性能退化,確保了動態工業場景中的穩健模型性能。

本文通過一個示意圖(圖2)進一步明確了這些類別的引入,幫助闡明了兩種方法之間的結構性差異和操作機制。

B. 本綜述的獨特特征

近年來,持續學習(CL)作為一個研究課題獲得了顯著關注,許多研究探討了其在設備健康管理[26]、機器人[27]和流數據[28]等領域的應用。在大模型的背景下,由于這些模型的規模巨大,頻繁的再訓練成本高昂,因此CL已被認為是至關重要的[29]。盡管CL的文獻廣泛,但我們的綜述獨特地關注了CL在IIoT增強的工業系統中的大模型的持續適應性——這是現有文獻中未被充分覆蓋的領域。本綜述首次為大模型在四個不同的IIoT工業場景中應用的CL方法提供了全面而系統的回顧。

如表I所示,本文通過以下幾個關鍵貢獻來區分自身

  • 新穎的分類體系:我們引入了一個新的GII理論框架。通過將大模型的應用分為兩個維度——“LMs for GII”和“LMs on GII”,本文不僅探討了如何利用大模型優化工業應用,還研究了這些應用如何反過來優化模型本身。這種雙向交互視角顯著豐富了現有文獻。

  • 跨領域多模態集成:與大多數僅專注于特定類型大模型(如語言模型或視覺模型)的現有研究不同,本綜述涵蓋了大語言模型(LLMs)、視覺Transformer、多模態模型和時間序列模型。這種跨模態集成增強了復雜儀器和測量系統的設計、開發和評估,這些系統用于信號的生成、獲取、調理和處理。通過利用不同模型的獨特優勢,它為推進測量科學及其應用提供了更全面和深入的視角,從而更有效地應對復雜的工業挑戰。

  • 持續學習的實際應用:本文強調了持續學習策略在IIoT增強的工業系統,特別是邊緣計算和云計算協同環境中的實際應用。這個重點確保了模型不僅能適應新數據和變化的條件,還能資源高效。通過減少計算需求和訓練成本,我們的方法解決了工業應用中的關鍵約束。

付費5元查看完整內容

摘要——從演示中學習(Learning from Demonstrations),即通過數據學習機器人行為模型的領域,隨著深度生成模型的出現,正在越來越受到關注。盡管這一問題在“模仿學習”、“行為克隆”或“逆強化學習”等名稱下已經被研究了多年,但傳統方法依賴的模型往往難以有效捕捉復雜的數據分布,或者無法很好地擴展至大量演示數據。近年來,機器人學習社區對于使用深度生成模型來捕捉大數據集的復雜性表現出了越來越濃厚的興趣。在本綜述中,我們旨在提供對去年機器人領域中使用深度生成模型的進展的統一且全面的回顧。我們介紹了社區探索的不同類型的模型,如基于能量的模型、擴散模型、動作值圖、生成對抗網絡等。我們還展示了深度生成模型在不同應用中的使用情況,從抓取生成到軌跡生成或成本學習等。生成模型的一個重要元素是分布外的泛化能力。在我們的綜述中,我們回顧了社區為改善所學模型的泛化能力而做出的不同決策。最后,我們強調了研究中的挑戰,并提出了未來在機器人領域學習深度生成模型的一些研究方向。關鍵詞——機器人,生成模型,決策制定,控制,模仿學習,行為克隆,從演示中學習

I. 引言**

從演示中學習(Learning from Demonstration, LfD)[1], [2],也稱為模仿學習(Imitation Learning)[3], [4],是通過觀察和模仿一組專家演示來學習期望的機器人行為模型的領域**。基于場景的觀察和所需任務的條件,模型(通常稱為策略)被訓練生成與專家演示中行為相似的動作。根據任務的不同,這些動作可能代表期望的末端執行器姿態 [5], [6]、機器人軌跡 [7], [8] 或期望的場景安排 [9], [10] 等。LfD 包括幾種解決這一問題的方法。行為克隆(Behavioral Cloning, BC)方法 [1] 將條件生成模型擬合到基于觀察的動作上。盡管在序列決策問題中存在一些缺點(例如,錯誤累積導致的協變量偏移 [11]),但在實踐中,由于其穩定且高效的訓練算法,它已經展示了一些最為令人印象深刻的結果 [6], [12], [7], [13]。另一種方法是逆強化學習(Inverse Reinforcement Learning, IRL)[14], [15], [16] 或其變體 [17], [18], [19],結合了演示數據與環境中的試錯(即強化學習(Reinforcement Learning, RL)),生成的策略比 BC 更具魯棒性,但受到訓練算法穩定性較差的限制。與直接模仿演示動作的 BC 不同,IRL 側重于推斷演示行為所優化的潛在獎勵函數,并應用 RL 來推斷策略。IRL 的一個關鍵優勢在于它能夠僅通過觀察進行學習 [20], [21],而無需明確的演示動作信息。在 LfD 中,演示的固有特性帶來了重大挑戰。通常,收集的數據是次優的、噪聲較大的、基于高維觀察條件的,并且包含多種行為模式 [22], [23], [24]。這種多樣性可以在對給定物體的多種抓取方式、專家提供演示的偏好或專家之間的分歧中體現出來。數據的這些固有屬性促使研究人員尋找能夠恰當地捕捉其分布的模型。傳統上,在深度學習成為主流之前,LfD 方法通常使用高斯過程(Gaussian Process, GP)[25], [26]、隱馬爾可夫模型(Hidden Markov Model, HMM)[27], [28] 或高斯混合模型(Gaussian Mixture Models, GMM)[29] 來表示生成模型。然而,這些模型無法擴展至大數據集,也無法在圖像等高維上下文中表示條件分布。基于神經網絡的模型允許在圖像 [30], [31] 或文本 [32], [33] 等高維變量上進行條件設定,但它們通常被訓練為單峰模型。這些模型與收集的演示數據的多模式特性相沖突。這些模型無法捕捉數據中的固有多樣性和多模式,導致研究人員不得不將自己局限于較小的 [34] 或高度策劃的數據集,以確保單峰性,從而簡化建模過程。

近年來,深度生成模型(Deep Generative Models, DGM)在圖像 [35] 和文本生成 [36] 中的成功展示了其捕捉高度多模態數據分布的能力。近年來,這些表現力強的模型在機器人領域的模仿學習應用中引起了廣泛關注(見圖2)。例如,擴散模型(Diffusion Models, DM)[37], [35] 已被有效用于學習高維軌跡分布 [38], [7], [8];基于語言和圖像的策略使用類似GPT的模型來表示動作空間中的類別分布 [39];變分自編碼器(Variational Autoencoders, VAE)[40] 被應用于生成任意物體的六自由度(6-DoF)抓取姿態 [5]。本文統一且全面地回顧了機器人領域中為捕捉數據固有的多模態性而從演示中學習 DGM 的各種方法。盡管其中一些模型借鑒了其他機器學習領域的成果,如 DM,但我們也重點介紹了在機器人動作分布表示中特別有影響力的方法,如動作價值圖(Action Value Maps)[41], [42], [43]。本綜述主要關注使用離線數據的方法,即不收集額外的在線或交互數據,以及離線監督,即除了專家動作外不使用額外的監督。盡管在從視覺到文本生成的各個領域中,從離線數據集中學習 DGM 已被廣泛研究,但機器人領域有其固有的挑戰,需要謹慎的設計選擇。為了激發機器人應用中的具體設計選擇,我們將在 I-A 節中介紹從演示中學習策略的基本挑戰。我們將綜述分為六個部分(見圖1): 在第二部分中,我們將形式化問題并提供整個綜述中使用的術語。 在第三部分中,我們介紹了機器人領域中最常用的 DGM,展示了它們的固有屬性,簡要列出了應用這些方法的各種工作,并介紹了每種模型的訓練和采樣算法。 在第四部分中,我們展示了深度生成模型應用的不同類型,重點介紹了模型生成的數據類型以及考慮的條件變量類型。 在第五部分中,我們提出了一系列設計和算法歸納偏差,以提高從學習模型的數據分布中的泛化能力。我們如何保證在上下文觀察中生成有用的動作,而這些動作在演示中沒有出現?我們提出的選項包括生成模型的模塊化組合、從觀察中提取有用特征以及利用觀察與動作之間的對稱性。 最后,在第六部分中,我們強調了該領域當前的研究挑戰,并提出了未來的研究方向。

A. 從離線演示中學習的挑戰從離線演示中學習機器人策略面臨著若干挑戰。盡管其中許多挑戰(例如演示中的多模態)與其他研究領域(如圖像生成或文本生成)共享,但在機器人領域中,我們還需要考慮一些特有的挑戰。以下是從離線數據中學習機器人策略的主要挑戰。演示的多樣性。主要挑戰之一是演示本身的固有變化。不同的演示者可能具有不同的技能水平、偏好和完成相同任務的策略,導致數據集中包含廣泛的方法。單峰分布缺乏表達能力,無法捕捉演示中的這種變化,從而導致性能不佳。DGM 是解決這一挑戰的有前景的方法。通過捕捉復雜的多模態分布,這些模型可以學習表示演示中展現的不同策略和行為。異質的動作和狀態空間。與數據空間定義明確的計算機視覺不同,在機器人領域中,沒有單一的狀態-動作空間。機器人動作可以包括從力矩命令到期望的目標位置或期望的軌跡。此外,機器人行為可以在機器人的配置空間和任務空間中建模。這種多樣性導致了異質的數據集和用于學習機器人策略的異質解決方案。部分可觀察的演示。當人類執行演示時,其動作不僅基于可觀察到的元素,還受到任務知識和觀察歷史影響的內部狀態驅動。此外,人類可以整合環境中的信息,這些信息可能無法被機器人的傳感器輕易獲得或觀察到,例如人類視覺捕捉到的外圍細節但被機器人的攝像頭遺漏。這種不匹配往往導致演示僅部分代表任務的上下文,從而導致機器人學習的策略中出現歧義。關于部分可觀測性的問題已經在文獻中得到了廣泛研究 [44]。一種常見的實際方法是將觀察歷史編碼為上下文,而不是單一的觀察,允許模型提取內部狀態,從而減少歧義 [45]。時間依賴性和長視距規劃。機器人任務通常涉及序列決策,其中動作在時間上是相互關聯的。這種序列性可能導致錯誤的累積,將機器人引向訓練演示中未遇到的情況。為解決此問題,已有多種方法提出。一些工作建議學習短視距技能,然后與高層規劃器連接。另一方向是,許多工作 [38], [13] 提出學習生成動作軌跡而不是單步動作的策略,從而減少序列累積錯誤。此外,其他選項包括在生成演示時注入噪聲 [46] 或交互式擴展數據集 [11]。訓練和評估目標之間的不匹配。從離線演示中學習通常被定義為密度估計問題。學習的模型經過訓練以生成類似于訓練數據集的樣本。然而,學習的模型用于解決特定任務,最大化的度量是任務成功率。這種訓練目標與評估目標之間的不匹配可能導致在機器人用于解決特定任務時表現不佳。解決這一問題的一個可能方向是將行為克隆階段與后續強化學習微調相結合 [47]。分布偏移和泛化。從離線演示中學習的一個基本挑戰是演示數據與實際場景之間的分布偏移,在這些場景中,學習的策略被部署。演示通常在受控環境或特定上下文中收集,但機器人必須在演示未覆蓋的潛在新環境中運行。這種不匹配可能導致泛化失敗和性能下降。解決這一挑戰需要能夠從給定演示中推斷并適應新環境的技術。我們將在第五部分中探討提高機器人應用中泛化能力的不同方法。

B. 相關綜述

LfD 領域有著悠久的歷史,已有多篇綜述對此進行了探討。在基于深度學習的方法成為主流之前,已有幾篇綜述 [50], [51], [52], [53] 探討了模仿學習的基本問題。這些綜述回答了諸如我們應該如何獲取數據?我們應該學習什么模型?或我們應該如何學習策略?等問題。近年來,一些最新的研究 [54], [3], [55] 更新了基于深度學習模型在 LfD 問題中的應用的綜述。特別是 [3] 從算法的角度審視了模仿學習,使得不同算法的比較可以從信息論的角度進行。機器人學習社區的當前階段,隨著大規模機器人演示數據集的增加(無論是在模擬中還是在現實中),模仿學習方法的重要性日益增加,以及廉價機器人硬件的日益普及,當前適時提供一個涵蓋過去幾年研究進展并專注于該領域當前面臨挑戰(多模態性、泛化、異質數據集等)的綜述。最近,幾篇綜述 [56], [57] 探討了學習機器人基礎模型的問題,主要集中在將互聯網規模的視覺和語言基礎模型整合到機器人問題中。盡管將視覺-語言基礎模型應用于機器人問題具有潛力,但我們的綜述關注于不同的問題。本綜述的興趣在于探索如何直接從具體現體機器人的數據中學習策略(部分原因是大規模數據集的日益豐富 [24], [58]),而不是將視覺-語言模型適應于機器人。

付費5元查看完整內容
北京阿比特科技有限公司