亚洲男人的天堂2018av,欧美草比,久久久久久免费视频精选,国色天香在线看免费,久久久久亚洲av成人片仓井空

摘要—基礎模型(FM)驅動的代理服務被視為一種有前景的解決方案,用于開發智能化和個性化的應用,推動人工通用智能(AGI)的發展。為了在部署這些代理服務時實現高可靠性和可擴展性,必須協同優化計算和通信資源,從而確保有效的資源分配和無縫的服務交付。為實現這一愿景,本文提出了一個統一框架,旨在提供一個全面的綜述,探討在異構設備上部署基于FM的代理服務,重點是模型和資源優化的集成,以建立一個強大的基礎設施支持這些服務。特別地,本文首先探索了推理過程中的各種低層次優化策略,并研究了增強系統可擴展性的方法,如并行化技術和資源擴展方法。接著,本文討論了幾種重要的基礎模型,并調查了專注于推理加速的研究進展,包括模型壓縮和標記減少等技術。此外,本文還研究了構建代理服務的關鍵組件,并突出了值得關注的智能應用。最后,本文提出了開發具有高服務質量(QoS)實時代理服務的潛在研究方向。 關鍵詞—基礎模型、AI代理、云/邊緣計算、服務系統、分布式系統、AGI。

I. 引言

人工智能(AI)的快速發展使得基礎模型(FM)成為創新的基石,推動了自然語言處理、計算機視覺和自主系統等多個領域的進步。這些模型的特點是參數空間龐大,并在廣泛的數據集上進行了深度訓練,孕育了從自動化文本生成到高級多模態問答和自主機器人服務等眾多應用[1]。一些流行的基礎模型,如GPT、Llama、ViT和CLIP,推動了AI能力的邊界,提供了處理和分析大量數據的復雜解決方案,涵蓋了不同格式和模態。基礎模型的持續進展顯著增強了AI在理解和與世界互動方面的能力,使其在某種程度上類似于人類認知。 然而,傳統的基礎模型通常僅限于提供問答服務,并根據已有知識生成回答,往往無法整合最新信息或利用先進工具。基礎模型驅動的代理服務旨在增強基礎模型的能力。這些代理具備動態記憶管理、長期任務規劃、高級計算工具以及與外部環境的交互功能[2]。例如,基礎模型驅動的代理能夠調用不同的外部API以訪問實時數據,執行復雜的計算,并根據最新的可用信息生成更新的響應。這種方法提高了響應的可靠性和準確性,并使與用戶的互動更加個性化。 開發具有低延遲、高可靠性、高彈性并且資源消耗最小的服務系統,對于向用戶提供高質量的代理服務至關重要。這樣的系統能夠有效地管理不同的查詢負載,同時保持快速響應并減少資源成本。此外,在異構的邊緣-云設備上構建服務系統,是利用邊緣設備的閑置計算資源和云端豐富計算集群的一種有前景的解決方案。邊緣-云設備的協同推理能夠通過根據計算負載和實時網絡條件動態分配任務,提升整體系統效率。 盡管許多研究已經探討了小型模型在邊緣-云環境中的協同推理,但在這種范式下部署基礎模型以支持多樣化的代理服務仍然面臨著一些嚴重挑戰。首先,波動的查詢負載極大地挑戰了模型服務。隨著越來越多的用戶希望體驗基礎模型驅動的智能代理服務,查詢負載急劇增加。例如,截至2024年4月,ChatGPT的用戶約為1.805億,其中每周活躍用戶約為1億[3]。這些用戶在不同時間訪問服務,導致請求速率變化。因此,彈性服務系統應根據當前的系統特性動態調整系統容量。其次,基礎模型的參數空間極為龐大,達到數百億規模,這對存儲系統提出了巨大挑戰。然而,邊緣設備和消費級GPU的存儲容量有限,無法容納整個模型。龐大的參數量導致了顯著的推理開銷和較長的執行延遲。因此,有必要設計模型壓縮方法,并在不同的執行環境中采用不同的并行化方法。此外,用戶在不同應用中有不同的服務需求和輸入。例如,有些應用優先考慮低延遲,而有些則優先考慮高精度。這要求動態資源分配并調整推理過程。此外,AI代理需要在復雜環境中處理大量艱巨任務,這要求有效管理大規模內存、實時處理更新的規則和特定領域知識。此外,代理具有不同的個性和角色,因此需要設計高效的多代理協作框架。

為了解決上述挑戰,并推動實時基礎模型驅動的代理服務的發展,本文提出了一個統一框架,并從不同優化角度調查了多項研究成果。該框架如圖1所示。底層是執行層,邊緣或云設備在此執行基礎模型推理。聯合計算優化、輸入/輸出優化和通信優化被應用于加速推理,并促進構建強大的基礎模型基礎設施。資源層由兩個組件組成,幫助在不同設備上部署模型。并行化方法設計了不同的模型拆分和放置策略,以利用可用資源并協同提高吞吐量。資源擴展根據查詢負載和資源利用情況動態調整硬件資源,從而提高整體可擴展性。模型層專注于優化基礎模型,提出了兩種輕量級方法,包括模型壓縮和標記減少,旨在推動基礎模型的廣泛應用。基于這些基礎模型,構建了許多AI代理來完成各種任務。為了增強代理的四個關鍵組件,提出了許多方法,包括多代理框架、規劃能力、記憶存儲和工具利用。最終,利用上述技術,可以開發各種應用,為用戶提供智能化和低延遲的代理服務。

A. 相關工作

許多研究集中于優化在邊緣-云環境中部署機器學習模型的系統。KACHRIS回顧了一些用于大規模語言模型(LLMs)計算加速的硬件加速器,以解決計算挑戰[4]。Tang等人總結了旨在優化網絡和計算資源的調度方法[5]。Miao等人提出了一些加速方法以提高大規模語言模型的效率[6]。這項綜述涵蓋了系統優化,如內存管理和內核優化,以及算法優化,如架構設計和壓縮算法,以加速模型推理。Xu等人關注人工智能生成內容(AIGC)的部署,并概述了AIGC的移動網絡優化,涵蓋了數據集收集、AIGC預訓練、AIGC微調和AIGC推理過程[7]。Djigal等人研究了機器學習和深度學習技術在多接入邊緣計算(MEC)系統中資源分配的應用[8]。該綜述包括了資源卸載、資源調度和協同分配。許多研究提出了不同的算法來優化基礎模型和代理的設計。[1]、[9]和[10]提出了流行的基礎模型,特別是大規模語言模型。[11]、[12]和[13]總結了大規模語言模型的模型壓縮和推理加速方法。[2]、[14]和[15]回顧了代理開發中的挑戰和進展。 總之,上述研究要么優化了邊緣-云資源分配和調度以支持小型模型,要么為大規模基礎模型設計了加速或效率方法。據我們所知,本文是首篇全面綜述和討論實時基礎模型驅動的代理服務在異構設備上部署的研究,近年來這一研究方向已經變得尤為重要。我們設計了一個統一框架,填補了這一研究空白,并從不同視角回顧當前的研究成果。該框架不僅勾畫了基礎模型部署的關鍵技術,還識別了基礎模型驅動的代理服務的關鍵組件和相應的系統優化方法。

B. 貢獻

本文全面綜述了在邊緣-云環境中部署基礎模型驅動的代理服務,涵蓋了從硬件到軟件層的優化方法。為方便讀者,本文提供了綜述的大綱(見圖2)。本文的貢獻總結如下:

  • 本綜述提出了第一個全面的框架,旨在深度理解在邊緣-云環境中部署基礎模型驅動的代理服務。該框架具有促進人工通用智能(AGI)發展的巨大潛力。
  • 從低層次硬件角度出發,本文展示了各種運行時優化方法和資源分配與調度方法,這些技術旨在為基礎模型構建可靠且靈活的基礎設施。
  • 從高層次軟件角度出發,本文闡述了專注于模型優化和代理優化的研究工作,提供了構建智能化和輕量化代理應用的多種機會。

本文其余部分安排如下:第二節介紹了一些低層次的執行優化方法;第三節描述了資源分配和并行機制;第四節討論了當前的基礎模型及模型壓縮和標記減少技術;第五節闡明了代理的關鍵組件;第六節介紹了批處理方法及相關應用;最后,第七節討論了未來的研究方向并作結論總結。

付費5元查看完整內容

相關內容

**摘要

擴散模型(Diffusion Models, DMs)已成為強大的生成模型,在圖像、視頻、音頻等內容生成任務中展現出卓越性能,并具有變革數字內容創作的潛力。然而,這些能力伴隨著高昂的計算資源消耗較長的生成時間,這凸顯了開發高效擴散模型的必要性,以推動其實用化部署。 在本綜述中,我們對高效擴散模型的研究進展進行了系統性和全面性的回顧。我們基于現有研究,提出了一種三大類別的分類體系,分別涵蓋算法級優化、系統級優化以及框架級優化,以梳理不同層面上相互關聯的高效擴散技術:

  1. 算法級優化(Algorithm-Level Efficiency):包括加速采樣(如 DDIM、DPM-Solver)、自適應步長方法、潛空間擴散(LDMs)、知識蒸餾等。
  2. 系統級優化(System-Level Efficiency):涉及模型架構改進(輕量級 U-Net 變體、基于 Transformer 的優化)、并行計算、高效 GPU/TPU 部署策略等。
  3. 框架級優化(Framework-Level Efficiency):涵蓋優化工具鏈(如 ONNX、TensorRT)、分布式訓練技術,以及高效推理框架的集成。

此外,我們整理了本綜述中涉及的論文,并在 GitHub 倉庫 Efficient Diffusion Model Survey 中進行分類歸納,以便研究人員查閱和使用。 我們希望本綜述能夠成為研究者和從業者的重要資源,幫助他們系統性地理解高效擴散模型的研究進展,并激發更多人在這一重要且充滿前景的領域做出貢獻。

1. 引言

擴散模型(Diffusion Models, DMs)開啟了人工智能生成內容(AIGC, Artificial Intelligence Generative Content)領域的新時代,并受到了前所未有的關注(Yang et al., 2023b; Croitoru et al., 2023b)。特別是在圖像合成任務中,擴散模型展現出了強大且多樣化的生成能力。此外,擴散模型的跨模態生成能力進一步推動了眾多下游任務的發展(Chen et al., 2023b)。盡管擴散模型的各類變體經過多次迭代已日趨成熟(Zhang et al., 2023d; Xu et al., 2023),但生成高分辨率、復雜的自然場景仍然十分耗時,并需要大量計算資源,無論是像素級擴散方法(Ho et al., 2020)還是潛空間變體(Rombach et al., 2022)。因此,為了優化擴散模型的用戶級部署,研究者們一直在探索高效擴散模型的可能性。 近年來,擴散模型的普及度持續上升,但其中一個主要問題是其多步去噪過程:模型需要經歷多個時間步(timesteps)才能從隨機噪聲生成高質量樣本。這一多步生成機制不僅耗時,而且計算密集,導致計算負擔巨大。因此,提高擴散模型的計算效率至關重要。針對這一問題,已有多項研究嘗試提出解決方案,例如優化訓練過程中添加的噪聲(Hang & Gu, 2024; Chen et al., 2023a),以及選擇適當的采樣時間步(Watson et al., 2021; Sabour et al., 2024)等方法。 盡管已有許多關于擴散模型的全面綜述(Yang et al., 2023b; Chen et al., 2024; Croitoru et al., 2023a; Cao et al., 2024),以及針對特定領域和任務的綜述(Ulhaq et al., 2022; Lin et al., 2024c; Kazerouni et al., 2023; Lin et al., 2024b; Peng et al., 2024b; Daras et al., 2024),但關于擴散模型效率優化的系統性研究仍然較為稀缺。目前唯一一篇專門討論高效擴散模型的綜述(Ma et al., 2024c)僅為該領域的初步探索。在本研究中,我們提供了更全面和詳細的分類體系,涵蓋更廣泛、更新的研究文獻,并提供更系統的技術綜述。 本綜述的總體目標是全面梳理高效擴散模型的技術進展,從算法級、系統級、應用級和框架級四個不同視角進行討論,如圖 1 所示。這四個類別涵蓋了不同但緊密相關的研究主題,共同構成了系統化的高效擴散模型綜述

  • 算法級方法(Algorithm-Level Methods):優化擴散模型的訓練和推理效率,涵蓋高效訓練、高效微調、高效采樣模型壓縮等方向(見 §3)。
  • 系統級方法(System-Level Methods):優化計算基礎設施和資源利用,涵蓋硬件-軟件協同設計、并行計算、緩存優化等(見 §4)。
  • 應用(Applications):擴散模型在圖像、視頻、文本、音頻和 3D 生成等領域的優化方法,以在不損失生成質量的前提下提升效率(見 §5)。
  • 框架(Frameworks):專門針對擴散模型的高效訓練、微調、推理和部署框架,涵蓋**主流 AI 框架(如 TensorFlow 和 PyTorch)**的優化擴展,以及專門設計的高效擴散模型框架(見 §6)。

此外,我們創建了一個GitHub 論文資源庫,匯總了本綜述中涉及的相關論文,并將持續更新,以收錄最新的研究進展:Efficient Diffusion Model Survey。我們希望本綜述能夠成為研究者和從業者的重要資源,幫助他們系統理解高效擴散模型的研究進展,并激發更多研究人員在這一重要且前沿的領域做出貢獻。

付費5元查看完整內容

摘要—大型語言模型(LLMs)在廣泛的任務中展現出了卓越的能力,但在專業領域的應用仍面臨挑戰,主要原因在于需要深厚的領域專業知識。檢索增強生成(RAG)作為一種有前景的解決方案,通過無縫集成外部知識庫,使大型語言模型能夠在推理過程中實時訪問領域特定的專業知識,從而實現定制化。然而,傳統基于平面文本檢索的RAG系統面臨三個關鍵挑戰:(i)專業領域中復雜的查詢理解,(ii)跨分布式源的知識整合困難,和(iii)大規模下的系統效率瓶頸。本綜述提出了一種系統性的分析,重點討論了基于圖的檢索增強生成(GraphRAG),這是一種通過圖結構革命性地改變領域特定大型語言模型應用的新范式。GraphRAG通過三項關鍵創新解決了傳統RAG的局限性:(i)圖結構的知識表示,顯式捕捉實體關系和領域層次,(ii)高效的基于圖的檢索技術,支持多跳推理的上下文保持型知識檢索,和(iii)結構感知的知識整合算法,通過利用檢索到的知識進行準確且邏輯連貫的LLM生成。本文對GraphRAG的技術基礎進行了系統分析,并考察了在多個專業領域中的現有實現,識別了關鍵的技術挑戰和有前景的研究方向。所有與GraphRAG相關的資源,包括研究論文、開源數據和項目,已匯集在//github.com/DEEP-PolyU/Awesome-GraphRAG供社區使用。

關鍵詞—檢索增強生成,知識圖譜,大型語言模型,GraphRAG

I. 引言

大型語言模型(LLMs),如GPT系列 [1],憑借其在廣泛任務中的卓越能力,令世界為之一驚,在文本理解 [2]、問答 [3] 和內容生成 [4]–[6] 等領域取得了突破性進展。然而,盡管LLMs在許多任務上表現出色,它們在處理需要領域專業知識的知識密集型任務時仍面臨批評 [7]。具體而言,LLMs在專業領域中的應用仍然面臨三大挑戰: ? 知識局限性:LLMs的預訓練知識廣泛,但在專業領域中較為淺薄。它們的訓練數據主要來自通用領域內容,導致在專業領域的知識深度不足,并且可能與當前的領域特定標準和實踐存在不一致。 ? 推理復雜性:專業領域要求精確的多步驟推理,涉及領域特定的規則和約束。LLMs往往難以在擴展的推理鏈中保持邏輯一致性和專業準確性,尤其是在處理技術約束或領域特定協議時。 ? 上下文敏感性:專業領域通常涉及依賴于上下文的解釋,相同的術語或概念在特定情況下可能具有不同的含義或影響。LLMs往往無法捕捉這些細微的上下文差異,導致潛在的誤解或不當概括。 為了將LLMs適配到特定或私有領域,最初的策略是通過使用專業數據集對LLMs進行微調 [8]。這種方法通過增加有限的參數并固定預訓練中學習到的參數來提高性能 [9]。然而,領域特定數據集與預訓練語料庫之間的顯著分布差距使得LLMs在不妥協現有理解的情況下整合新知識變得困難 [10]。谷歌研究的一項最新研究進一步突出了使用監督微調更新知識的風險,特別是在新知識與已有信息沖突時;通過監督微調獲取新知識可能導致模型生成新的幻覺,甚至遭遇嚴重的災難性遺忘 [11]。 檢索增強生成(RAG) 提供了一個有前景的解決方案來定制LLMs以適應特定領域 [12]。RAG并不是通過重新訓練LLMs來整合更新,而是通過利用外部知識庫增強這些模型,無需修改其架構或參數。這種方法使LLMs不僅能利用其預訓練知識,還能實時檢索領域特定信息,從而生成更加準確和可靠的回答。傳統的RAG系統通過三個關鍵步驟進行操作:知識準備、檢索和整合。在知識準備階段,外部資源(如文檔、數據庫或網頁)被分割成可管理的文本塊,并轉換為向量表示以便高效索引。在檢索階段,當用戶提交查詢時,系統通過關鍵詞匹配或向量相似度度量來搜索相關的文本塊。整合階段將這些檢索到的文本塊與原始查詢結合,以生成用于LLM響應的知情提示。近年來,一些先進的RAG系統已經超越了簡單的文本塊檢索,提供了更為復雜的知識增強方法。這些方法包括:通過多級檢索保持文檔結構的層次化RAG [13][14],實施兩階段檢索以提高召回率和精確度的重排序系統 [15][16],自動分解復雜查詢的自查詢RAG [17],以及根據查詢類型動態調整檢索策略的自適應RAG [18][19]。這些先進的RAG系統通過提升上下文感知能力、檢索準確性,并更有效地處理復雜查詢,旨在克服傳統RAG方法的局限性。 RAG的出現為定制LLMs提供了一個有前景的方法,但盡管如此,RAG仍面臨若干關鍵限制,影響其在實際應用中的效果。這些限制可大致分為四個主要挑戰,顯著影響RAG增強的LLMs的性能和實用性。主要挑戰在于復雜查詢理解。專業領域通常涉及復雜的術語和行業特定的行話,需要精確的解釋 [20]。這些領域中的用戶查詢通常包含大量技術性術語和行業特有的表達,解決方案往往需要跨多個相關概念進行推理。傳統的RAG方法依賴于簡單的關鍵詞匹配和向量相似度技術,這些方法無法有效捕捉準確和全面的深層語義差異和多步驟推理過程 [21]。例如,當詢問概念A與概念D之間的關系時,這些系統通常只檢索直接相關的信息,而忽略了可能橋接這一關系的關鍵中介概念,如B和C。這種狹隘的檢索范圍限制了RAG對廣泛上下文理解和復雜推理的能力。 另一個關鍵挑戰是從分布式來源整合領域知識。領域知識通常來自不同的資源,如教科書、研究論文、行業報告、技術手冊和維護日志。這些文本文檔可能具有不同的質量、準確性和完整性。檢索到的知識通常是平坦的、廣泛的且復雜的,而領域概念通常分散在多個文檔中,且不同概念之間缺乏清晰的層次關系 [7][22][23]。盡管RAG系統通過將文檔分割成較小的塊以便高效索引來管理這種復雜性,但這種方法不經意間犧牲了重要的上下文信息,顯著妥協了檢索準確性和上下文理解能力。這一限制妨礙了在相關知識點之間建立穩固聯系,導致理解片面,進而降低了領域專業知識的利用效果。 第三個限制來自LLMs固有的限制。盡管RAG系統可以從龐大的知識庫中檢索相關信息,但LLM處理這些信息的能力受限于其固定的上下文窗口(通常為2K-32K個token) [1][24]。復雜文檔中的長程依賴關系無法完全捕捉,因為超出上下文窗口的內容必須被截斷或總結,這會打斷自然的語義單元和邏輯流程。在專業領域中,保持跨廣泛知識背景的一致性變得更加棘手,因為在上下文窗口截斷過程中,關鍵信息可能會丟失。這一固有限制直接影響了系統從大規模知識庫中處理和綜合信息的能力。 最后的挑戰與系統效率和可擴展性有關。整個RAG管道——從初步的語料預處理和索引到實時檢索和生成——面臨顯著的效率瓶頸 [25][26]。外部知識庫中包含大量與領域無關的信息,而領域特定的術語通常在這些文檔中分布稀疏。RAG系統計算成本高且耗時 [25],特別是在處理大規模知識源時,因為模型需要搜索大量未結構化的文本以尋找相關信息。此外,實時檢索和跨文檔推理可能引入相當大的延遲,影響用戶體驗。隨著知識庫規模的增長,RAG的可擴展性受到檢索質量和準確性的下降限制 [26],這進一步限制了其在廣泛且動態的專業環境中的實際部署。 為了應對這些限制,圖檢索增強生成(GraphRAG)作為一種新范式應運而生,旨在通過組織良好的背景知識和改進的上下文推理定制LLMs [25][27]–[29]。基于圖結構,現有的GraphRAG模型可分為三大類:? 基于知識的GraphRAG,將圖作為知識載體;? 基于索引的GraphRAG,使用圖作為索引工具,從語料庫中檢索相關的原始文本;? 混合型GraphRAG,結合了基于知識和基于索引框架的優勢,為復雜推理任務提供了更先進的解決方案。基于知識的GraphRAG和基于索引的GraphRAG代表了兩種不同的增強LLMs的圖結構方法。基于知識的GraphRAG側重于將非結構化文本文檔轉化為明確且結構化的知識圖譜,其中節點表示領域概念,邊表示它們之間的語義關系,從而更好地表示層次關系和復雜的知識依賴性。相比之下,基于索引的GraphRAG保持原始文本形式,同時主要利用圖結構作為索引機制來高效地組織和檢索相關文本塊。通過將圖結構融入文本索引,基于索引的GraphRAG方法在文本塊之間建立語義連接,便于高效的查找操作和檢索。雖然基于知識的GraphRAG強調通過圖轉換明確建模領域知識和語義關系,而基于索引的GraphRAG則優先優化信息檢索和通過圖形索引策略提升文本信息的可訪問性。這兩種方法在目的上有所不同:基于知識的GraphRAG旨在通過圖結構推理能力創建結構化的知識表示,幫助更好地理解復雜關系;而基于索引的GraphRAG則側重于通過圖結構索引策略優化相關文本信息的檢索和可達性。 在本文中,我們系統地分析了GraphRAG的技術基礎,并考察了在各個專業領域中的當前實現,識別了關鍵的技術挑戰和有前景的研究方向。所有與GraphRAG相關的資源,包括研究論文、開源數據和項目,已匯集在

本綜述對GraphRAG進行了全面分析,詳細介紹了其分類、機制、挑戰和未來的研究方向,并將內容組織為七個主要部分,逐步從基礎概念到實際應用展開。具體來說,我們在第二部分(Section 2 II)首先建立了基礎框架,追溯了GraphRAG從傳統RAG系統的演變,探討了RAG在處理結構化知識時的局限性,并介紹了GraphRAG在復雜推理任務中的核心概念和優勢。接下來的三部分系統地探討了GraphRAG系統的關鍵組件:包括知識承載圖和索引圖(第三部分Section 3 IV)兩種主要的結構化知識組織范式;從結構化知識庫中提取與查詢相關的事實信息的檢索技術(第四部分Section 4 V);以及有效地將檢索到的知識整合到LLM中的知識集成方法(第五部分Section 5 VI)。隨著向實際應用的推進,第六部分(Section 6 VIII)通過提供詳細的實施指南、回顧開源項目,并呈現由全面數據集和評估基準支持的領域特定案例研究,討論了GraphRAG的實施方面。最后,第七部分(Section 7 VII)通過識別未來的研究方向,并討論知識質量、檢索效率、系統泛化能力和安全性等潛在挑戰,結合實踐指導,總結了構建領域特定GraphRAG系統的建議。 本綜述在現有的綜述 [28]–[30] 基礎上進行了進一步擴展,采用了更加系統和全面的方法分析GraphRAG系統。盡管之前的綜述提供了Graph基索引、圖引導檢索和圖增強生成的基本工作流描述,我們引入了一個更為復雜且全面的分類法,將GraphRAG方法清晰地分為三類(基于知識的、基于索引的和混合型GraphRAG),從而提供了對該領域更加細致的理解。我們的綜述采用了更為系統的六部分結構,邏輯地從理論基礎到實踐應用展開,詳細探討了每個組成部分,包括知識組織范式、檢索技術和集成方法。

與之前的綜述不同,我們通過詳細回顧開源項目、領域特定案例研究以及提供全面的數據集和評估基準,提供了豐富的實踐指導。我們還對多個維度的挑戰和解決方案進行了更為深入的分析,包括知識質量、檢索效率、系統泛化能力和安全性問題。最后,盡管現有綜述廣泛討論了潛在應用,我們提供了更多基于實證證據和實施示例的可操作性見解,使我們的綜述成為在生產環境中部署GraphRAG系統的實踐者更具價值的資源。

付費5元查看完整內容

移動智能體在復雜和動態的移動環境中自動化任務方面至關重要。隨著基礎模型的不斷演進,對能夠實時適應并處理多模態數據的智能體需求也隨之增加。本綜述全面回顧了移動智能體技術,重點關注提升實時適應性和多模態交互的最新進展。近期開發的評估基準更好地反映了移動任務中的靜態和交互式環境,從而對智能體的性能提供更準確的評估。

我們將這些進展分為兩大主要方法:基于提示的方法,利用大型語言模型(LLM)執行基于指令的任務;以及基于訓練的方法,對多模態模型進行微調,以適應特定的移動應用。此外,我們還探討了增強智能體性能的互補技術。通過討論關鍵挑戰并概述未來的研究方向,本綜述為推進移動智能體技術提供了寶貴的見解。完整的資源列表可訪問://github.com/aialt/awesomemobile-agents

1 引言

移動智能體在處理復雜的移動環境中取得了顯著的成功,能夠在各種應用中實現任務執行的自動化,且僅需最少的人為干預 (Zhang等, 2023a; Li等, 2024; Bai等, 2024)。這些智能體被設計用于感知、規劃和執行任務,以適應動態環境,特別適用于需要實時適應性的移動平臺。多年來,關于移動智能體的研究顯著發展,從簡單的基于規則的系統演變為能夠處理多模態和動態環境中復雜任務的先進模型 (Shi等, 2017; Rawles等, 2023)。

在早期階段,移動智能體主要關注通過輕量級的基于規則的系統執行預定義的工作流程,這些系統針對移動設備上的特定任務進行了優化。這些早期智能體通常受限于硬件的計算和存儲約束,主要依賴基本的交互模式和靜態流程。然而,移動技術的快速進步為更先進的智能體架構鋪平了道路,使其能夠執行更豐富的任務。 評估移動智能體面臨獨特的挑戰,因為傳統的靜態評估方法往往無法捕捉現實移動任務的動態和交互特性。為了解決這一問題,最近的基準如AndroidEnv (Toyama等, 2021)和Mobile-Env (Zhang等, 2023a) 提供了交互式環境,以評估智能體在真實條件下的適應性和表現。這些基準不僅測量任務完成情況,還評估智能體在應對不斷變化的移動環境方面的反應能力,從而對其能力進行更全面的評估。

移動智能體研究的最新進展可分為兩種方法:基于提示的方法和基于訓練的方法。基于提示的方法利用大型語言模型(LLM),如ChatGPT (OpenAI, 2023)和GPT-4 (OpenAI, 2023),通過指令提示和鏈式思維(CoT)推理處理復雜任務。OmniAct (Kapoor等, 2024) 和AppAgent (Yang等, 2023)等著名研究展示了基于提示的系統在交互式移動環境中的潛力,但其在可擴展性和穩健性方面仍面臨挑戰。另一方面,基于訓練的方法專注于微調多模態模型,例如LLaVA (Liu等, 2023a)和Llama (Touvron等, 2023),專門用于移動應用。這些模型能夠通過整合視覺和文本輸入來處理豐富的多模態數據,從而提升其在界面導航和任務執行等任務中的表現 (Ma等, 2024; Dorka等, 2024)。

本綜述對移動智能體技術進行了深入分析,重點關注感知、規劃、行動和記憶的基本組成部分。我們將現有研究分為基于提示和基于訓練的方法。此外,我們還探討了用于評估移動智能體性能的基準和指標,并討論了互補技術在增強智能體與移動環境交互中的作用。通過本次綜述,我們旨在識別當前的挑戰和未來在推進移動智能體研究方面的機遇。

付費5元查看完整內容

摘要——根據規模預測,大型模型在許多領域取得了突破性進展,特別是在自然語言生成任務中,它們的表現已接近甚至超越人類水平。然而,前所未有的參數規模帶來了顯著的計算和存儲成本。這些大型模型需要大量的計算資源和GPU內存來運行。在將大型模型適應于特定下游任務時,其龐大的參數規模在計算能力和GPU內存有限的硬件平臺上微調時面臨重大挑戰。為了解決這個問題,參數高效微調(PEFT)通過有效調整大型預訓練模型的參數以適應各種下游任務,提供了一種實用的解決方案。具體而言,PEFT調整預訓練大型模型的參數,以適應特定任務或領域,最小化額外參數的引入和所需的計算資源。本文主要介紹PEFT的基礎知識、各種PEFT算法的核心思想和原理、PEFT的應用以及未來研究方向。通過閱讀本綜述,我們相信感興趣的讀者能夠迅速掌握PEFT方法論,從而加速其發展和創新。 關鍵詞——微調、參數高效、大型語言模型、深度學習、人工智能。

最近幾年,大型預訓練模型(通常稱為“大模型”)作為人工智能領域的一項重要進展,逐漸受到廣泛關注。由于其在各種應用場景中的卓越表現和多樣性,這些模型引發了大量討論。這些模型具有強大的計算能力和豐富的數據資源,使其能夠在處理復雜任務時表現出色。在自然語言處理(NLP)領域,大型語言模型(LLMs)備受關注。這些模型在文本生成、機器翻譯、個性化聊天機器人、文本摘要、情感分析和問答系統等任務中展現出卓越的創造力。 然而,大模型的發展面臨著重大挑戰和爭議。這些模型需要大量的計算資源和數據支持,這可能對環境造成威脅并影響隱私保護。盡管在特定任務中表現出色,但這些模型仍然存在局限性和錯誤率,需要不斷優化和改進。在直接使用大模型處理特定任務時,其性能往往低于預期。因此,微調大模型已成為提高模型性能的關鍵方法。 PEFT(參數高效微調)是一種轉移學習方法,專門用于調整大型預訓練模型的參數,以適應新的任務和場景。這種方法涉及動態調整模型,以增強其在執行特定任務時的有效性,考慮到目標任務的獨特特征和要求。微調過程通常包括改進模型架構、優化參數和調整學習策略等多個方面,以在新任務中實現更好的性能。隨著深度學習領域的不斷發展,優化和微調大模型的技術也取得了顯著進展。值得注意的PEFT方法包括LoRA、適配器調優、前綴調優、提示調優、P-tuning、BitFit等。 然而,盡管在多個領域中,大模型微調技術取得了顯著成就,但仍然存在許多需要解決的挑戰和困難。例如,過擬合的緩解、微調效率的優化,以及在預訓練與微調任務之間找到學習平衡等問題都需要更多的研究。 近年來,關于PEFT的文章層出不窮,其中一些研究提供了對最流行方法的有益概述。以下是對這些研究的比較分析。丁寧等人引入了一種理論抽象,用于Delta Tuning,從優化和最優控制的角度進行分析。這一抽象提供了一種統一的方法,描述當前的參數高效微調方法,為未來的研究提供了獨特的視角。然而,盡管該研究主要集中在NLP應用上,但這些方法在不同領域的通用性和有效性仍需進一步探討。Lialin等人提供了全面的分析和分類,涵蓋了廣泛的方法,并比較了約30種方法在存儲效率、內存效率、計算效率、準確性和推理開銷等五個維度上的表現。然而,雖然文章主要關注于對數十億參數規模語言模型進行有效微調的詳細方法,但對真實應用場景的探討相對有限。徐玲玲等人對當前PEFT方法進行了全面的評估和分析,評估了它們在一系列NLP任務中的性能、參數效率和內存利用率。然而,該論文并未充分闡述這些方法在實際操作環境中的應用,也未深入探討它們的適應性及可能遇到的領域特定挑戰。辛怡等人提供了視覺PEFT的全面概述和未來方向,系統地回顧了最新的進展。盡管文章涵蓋了多種視覺任務,但實驗主要集中在幾個常見任務上,并未完全涵蓋更廣泛的潛在應用場景。韓澤宇等人詳細分類了PEFT方法,探討了PEFT技術在各種模型架構和下游任務中的應用,以及參數高效微調方法的系統設計挑戰。該研究為研究人員和工程師提供了PEFT方法的全面概述,但在實際應用覆蓋方面仍有改進空間。 我們的貢獻如下:

  • 我們提供了與現有綜述論文相比,更全面和詳細的關于大模型和一般微調方法論的基礎知識概述。這部分內容不僅涵蓋了大模型的基本原理、結構和技術,還提供了它們在自然語言處理、多模態活動和其他領域的實際應用的深入概述。
  • 我們的調查涵蓋了最新的研究方法論,突出展示了大模型領域的最新進展。這確保了我們的綜述內容全面且詳盡。我們的綜述范圍廣泛,涵蓋了自然語言處理、多模態任務和計算機視覺等多個場景,使讀者能夠全面理解大模型技術的現狀和未來前景。
  • 在回顧和分析當前方法后,我們提出了一些創新和面向未來的研究方向。這些領域考慮到了先進模型技術的增長潛力,并結合了實際應用中行業需求和障礙,提出了可行和創新的研究途徑。

本調查旨在全面回顧大模型微調技術的最新進展。通過對現有研究的深入審查,我們的目標是識別并填補當前知識體系中的空白,從而開發出一個全面和系統的知識框架,為研究人員提供清晰的視角,并指導他們未來的研究。總之,我們的工作為相關領域提供了有價值的資源和視角,供學術和實踐用途。調查的剩余部分結構如下: 在第二部分中,我們提供大型語言模型基本組成部分的簡要總結,包括其過去的發展、新興能力以及支配其規模的擴展規律。隨后,我們簡要概述了全面語言模型的主要分類,并介紹了多模態綜合模型的基本原理和框架。此外,我們還探討了在大型語言模型微調領域采用的主要方法,包括指令微調、對齊和基于人類反饋的強化學習(RLHF)。最后,我們簡要總結了在大模型微調領域最常用的基準和評估數據集。 在第三部分中,我們提供了對PEFT方法的全面分析和總結,展示了當前PEFT方法的分類框架,涵蓋了2019年6月至2024年7月發布的100多篇研究文章。我們在傳統的加法、重新參數化和減法PEFT分類基礎上,納入了混合、量化和多任務分類PEFT方法的總結。 在第四部分中,我們對多模態、視覺和擴散模型領域的PEFT方法進行全面分析和描述。我們的目標是提供深刻的理解和針對不同應用場景的PEFT選擇和改進建議。 在第五部分中,我們總結了我們的廣泛調查,并提出了多個有前景的未來發展方向,包括算法改進和任務場景,旨在為這一蓬勃發展的領域的進一步研究和發展提供有價值的見解。

付費5元查看完整內容

摘要—持續學習(CL)旨在使機器學習模型能夠從新數據中不斷學習,同時在不遺忘已獲得知識的基礎上進行擴展。隨著機器學習模型從小規模到大規模預訓練架構的演變,以及從支持單一模態數據到支持多模態數據,多模態持續學習(MMCL)方法最近開始出現。MMCL的主要挑戰在于,它超越了簡單的單模態持續學習方法的疊加,因為這種直接的方法通常會產生不理想的效果。在本研究中,我們首次對MMCL進行了全面綜述。我們提供了MMCL的基本背景知識和設定,并提出了結構化的MMCL方法分類法。我們將現有的MMCL方法分為四類,即基于正則化、基于架構、基于重放和基于提示的方法,闡述它們的方法論并強調其關鍵創新。此外,為了激發該領域的進一步研究,我們總結了開放的MMCL數據集和基準,并討論了若干未來有前景的研究和發展方向。我們還創建了一個GitHub倉庫,用于索引相關的MMCL論文和開放資源,網址為://github.com/LucyDYu/Awesome-Multimodal-Continual-Learning。

關鍵詞—多模態持續學習,多模態數據,終身學習,增量學習

1 引言近年來,機器學習(ML)取得了顯著的進展,為解決各種實際問題作出了重要貢獻。在傳統設置中,大多數ML模型在所謂的“單一階段”范式下運行,即在靜態和單一數據集上進行訓練,并在獨立同分布(i.i.d.)假設下進行評估【1】。然而,這種“單一階段”范式無法賦予訓練模型適應新數據或執行新任務的能力,因此難以滿足開發能夠應對動態變化環境的智能體的需求。為解決這一問題,ML社區致力于發展持續學習(CL),也稱為終身學習或增量學習,它通過在新任務上逐步訓練模型并保留早期知識,無需對完整數據進行重新訓練【2-5】。 CL的主要挑戰是災難性遺忘:當任務按順序進行訓練時,針對新任務的訓練會嚴重影響之前已學習任務的性能【6, 7】,這是因為不受約束的微調會使參數遠離舊的最優狀態【8】。CL的目標是開發能夠持續獲取知識并保留已學習信息的學習系統。這一過程本質上模仿了生物大腦的認知靈活性,生物大腦在整個生命過程中不斷學習各種技能【9】。通過使模型能夠在不遺忘的情況下適應新任務,CL在資源和時間效率方面相較于傳統的模型全數據重新訓練方法具有顯著優勢。此外,由于存儲限制、隱私問題等原因,歷史訓練數據可能無法訪問,這使得全數據訓練變得不可行,進一步突顯了CL在記憶舊知識并從動態環境中獲取最新知識方面的效率和有效性。盡管CL取得了顯著進展,大多數研究仍集中在單一數據模態上,如視覺【10-13】、語言【14-16】、圖【17, 18】或音頻【19】。這種單模態的關注忽略了真實世界環境的多模態特性,這些環境本質上是復雜的,由多種數據模態組成而非單一模態。隨著多模態數據的快速增長,例如Meta和TikTok等平臺上圖像、文本和視頻數據的激增,開發能夠從多模態源中持續學習的AI系統變得至關重要,因此出現了多模態持續學習(MMCL)設置。這些MMCL系統需要有效地整合和處理多模態數據流【20, 21】,同時還要能夠保留先前獲取的知識。更重要的是,這種MMCL設置更接近于人類生物系統在應對現實世界復雜性時跨模態學習和整合信息的過程【22, 23】。MMCL的挑戰。盡管傳統單模態CL與MMCL之間存在聯系,MMCL的挑戰遠不止是簡單地將CL方法疊加在多模態數據上。事實證明,這種直接的嘗試通常會產生次優性能【31-33】。具體來說,如圖2所示,除CL中已有的災難性遺忘問題外,MMCL的多模態特性還引入了以下四個挑戰。這些挑戰不僅獨立存在,還可能加劇災難性遺忘問題:

  • 挑戰1(模態不平衡)。模態不平衡指的是在多模態系統中對不同模態進行不均衡處理或表示,這種不平衡在數據和參數層面上都有體現。在數據層面,不同模態的數據可用性在CL過程中可能顯著不同,可能出現極端不平衡的情況,如某些模態的缺失【28】。在參數層面,不同模態特定組件的學習速率可能有所不同,導致跨所有模態的整體不平衡學習過程【34】。因此,MMCL模型可能會遭受性能下降,甚至在某些情況下其表現可能比單模態模型還要差【32, 36】。
  • 挑戰2(復雜模態交互)。模態交互發生在模型組件中,即多模態輸入信息的表示之間進行顯式交互。這一交互在MMCL中引入了獨特的挑戰,主要體現在兩個交互過程中:模態對齊和模態融合【37】。在模態對齊中,不同模態的單一數據樣本的特征在持續學習過程中往往會發生偏離,這種現象被稱為MMCL中的空間紊亂【38】。在模態融合中,傳統的多模態融合方法在非CL環境中效果良好,但在MMCL環境中可能表現較差,因為不同的融合技術對解決遺忘問題的影響各不相同【36, 39】。
  • 挑戰3(高計算成本)。MMCL中的多模態整合顯著增加了模型和任務特定層面的計算成本。在模型層面,增加模態不可避免地增加了可訓練參數的數量。許多MMCL方法利用預訓練的多模態模型作為基礎,但持續地微調這些大規模模型會導致沉重的計算負擔【42, 43】。這些不斷增加的計算需求對MMCL方法的實際部署提出了嚴格的可擴展性要求。
  • 挑戰4(預訓練零樣本能力的退化)。隨著預訓練模型的進步,MMCL方法可以借助這些強大的基礎模型。預訓練的多模態模型通常具有在未見過的任務上實現零樣本能力的優勢【44, 45】。然而,在MMCL的連續微調過程中,預訓練基礎模型的一些初始能力可能會下降,這種退化風險可能導致未來任務的性能嚴重下降【45】。 貢獻。為了應對這些挑戰,研究人員正日益關注MMCL方法。我們首次提供了MMCL的全面綜述。我們總結了當前的數據集和基準測試,以促進研究和實驗,并在快速發展的MMCL領域內討論了未來的研究方向。總之,我們的綜述有以下主要貢獻:
  1. 我們提供了第一個全面的MMCL綜述。我們詳細介紹了MMCL的背景知識,包括基本的設定、不同的MMCL場景和常用評估指標。
  2. 在我們的MMCL方法分類體系中,我們將現有的MMCL工作分為四個類別,并提供了詳細的子類別解釋。
  3. 我們總結了當前的數據集和基準,并討論了未來的研究方向,旨在激發創新性研究,從而促進更有效的MMCL方法的發展。

多模態持續學習根據輸入模態的不同,多模態持續學習可以分為五種主要場景:

  • 類增量學習(Class-incremental Learning, CIL):不同任務間的數據分布和標簽空間不同,且測試階段不提供任務ID。模型需能在所有已學類別間進行分類。
  • 領域增量學習(Domain-incremental Learning, DIL):不同任務間的數據分布不同,但共享相同的標簽空間。測試階段不需要任務ID。
  • 任務增量學習(Task-incremental Learning, TIL):不同任務的數據分布和標簽空間均不同,且測試階段提供任務ID,模型知道執行的是哪個任務。 此外,為了適應多模態數據,定義了兩種新的場景:
  • 生成式領域增量學習(Generative Domain-incremental Learning, GDIL):此場景用于生成式任務,例如視覺問答。與CIL不同,GDIL中的模型輸出來自一個較大的詞匯集。
  • 模態動態任務增量學習(Modality-dynamic Task-incremental Learning, MDTIL):任務序列中的模態可能變化,模型在測試階段獲得任務ID,并適應不同的模態組合。

3 方法學

在多模態持續學習(MMCL)中,有多種方法學策略。本文將MMCL方法分為四大類:基于正則化、基于架構、基于重放以及基于提示的方法。圖5對這些方法進行了分類,并在后續的小節中詳細說明。表2總結了各類MMCL方法的具體特性,而圖6展示了代表性架構,主要以視覺和語言模態為主。對于其他模態的方法,在表3中進行了匯總。在正式介紹MMCL方法之前,我們將首先介紹一些經典的單模態持續學習(CL)方法,因為它們既是MMCL方法的前身,也在MMCL研究中被廣泛用作對比。

**3.1 基于正則化的方法

基于正則化的方法旨在通過對參數施加約束來減少災難性遺忘現象【8】。這類方法根據約束方式的不同,分為顯式正則化和隱式正則化兩種。下圖(圖6a)總結了顯式和隱式正則化方法的代表性架構。3.1.1 顯式正則化顯式正則化方法通過直接為參數賦予重要性權重來抑制模型的參數變化。它通過懲罰那些偏離先前最優狀態的參數,以減緩模型的遺忘。其關鍵思想是對模型的參數偏移施加顯式約束,以保護模型在先前任務中的知識。在這種方法中,常用的技術包括:

  • 彈性權重保持(Elastic Weight Consolidation, EWC):通過利用Fisher信息矩陣對參數賦予權重,從而實現參數保護,避免重要參數發生顯著改變。EWC的變種方法例如EWCH和在線EWC通過單一正則化項的方式進一步提高了效率。
  • 任務相關性調節(Task Importance Regularization, TIR):這是MMCL中的一種方法,基于BLIP2等多模態模型。它通過計算新舊任務之間的相似性來動態調整正則化權重,以適應長期持續學習的需求。 3.1.2 隱式正則化隱式正則化方法主要關注于在訓練新任務時盡量保持模型對舊任務輸出的一致性,從而減少遺忘風險。與顯式正則化不同,隱式正則化方法僅在參數變化導致模型輸出改變時才施加懲罰,因此允許參數更自由地調整。隱式正則化常見的方式是知識蒸餾(KD),通常包括以下幾種策略:
  • 基于logits的蒸餾(Logits-based KD):通過對比新模型和舊模型在最后一層輸出的logits,盡量讓新模型在訓練新任務時保持與舊任務相似的輸出分布。
  • 基于特征的蒸餾(Feature-based KD):不僅關注最終輸出,還在中間層的特征上進行對比,從而保留中間表征。
  • 基于關系的蒸餾(Relation-based KD):使用樣本間的關系信息進行對比,如在視覺-語言模型中,可以利用圖像和文本之間的相似度來進行知識轉移。 典型的單模態模型中,LwF(Learning without Forgetting)是一種經典的隱式正則化方法,它在訓練新任務前使用當前數據生成舊任務的輸出,并在訓練時通過KD損失來最小化新任務下的輸出變化。LwF因其無需顯式存儲舊任務數據的特性,被廣泛應用于多模態和單模態CL模型中。在多模態模型中,隱式正則化方法進一步擴展并改進了KD策略以適應不同的模態。例如,ZSCL(Zero-Shot Continual Learning)和Mod-X都使用CLIP作為基礎模型,通過KD技術保留零樣本能力。此外,Mod-X還關注空間無序(Spatial Disorder)問題,以解決視覺和語言表征在持續訓練過程中逐漸偏離的問題。

3.2 基于架構的方法

架構方法通過引入任務特定組件來減少不同任務之間的干擾,通常分為固定架構和動態架構兩種。

**3.2.1 固定架構

固定架構方法在整個任務序列中保持相同的模型結構,通過任務掩碼選擇性地激活或抑制特定參數,從而使各個任務使用不同的參數組合。這種方式通過分配任務特定的參數部分來減輕遺忘現象。單模態模型中,HAT(Hard Attention to the Task)通過學習接近于二值的注意力向量,在模型層次上選擇性激活或抑制參數。它通過掩碼來固定特定參數,以保留早期任務的知識。在多模態模型中,RATT(Recurrent Attention Task Transformer)使用固定架構進行圖像描述生成。它結合了卷積神經網絡(CNN)和長短時記憶網絡(LSTM),并通過注意力掩碼實現特定任務的激活,以便針對不同任務分配不同的模型層激活狀態。

**3.2.2 動態架構

動態架構方法則允許模型結構隨著任務的引入而動態擴展,通常通過添加新模塊來增加模型容量。與固定架構不同,動態架構可以在新任務到來時擴展新的任務特定模塊,因此性能不會受到初始容量的限制。在單模態模型中,進步網絡(Progressive Network)是一種早期的動態架構,它通過為每個新任務初始化一個新網絡來避免遺忘。這種方法使用橫向連接來支持特征共享和知識轉移。多模態模型中的動態架構方法則可以通過任務特定、模態特定等多種策略來決定如何擴展網絡結構。例如,MoE-Adapters4CL在多模態模型CLIP的基礎上為每個新任務添加模塊,減少了新任務對已有知識的干擾。此外,ODU和CMR-MFN都設計了模態融合模塊,以應對多模態數據中模態組合多變的特性。

3.3 基于重放的方法

重放方法使用一個記憶緩沖區來存儲歷史實例,以幫助在學習新任務時維護早期任務的知識。這些方法無需動態調整網絡架構,也不需約束參數自由度。基于獲取重放數據的不同方式,重放方法可以分為直接重放和偽重放兩種。

**3.3.1 直接重放

直接重放方法通過將舊任務中的少量樣本存儲在記憶緩沖區中,以在新任務訓練時進行重放。此類方法的關鍵在于如何選擇代表性樣本以充分利用有限的記憶空間。在多模態模型中,例如VQACL和SAMM采用隨機選擇策略直接重放多模態樣本。實驗表明,與單模態重放相比,多模態重放能顯著提升模型的穩定性和靈活性。此外,KDR通過在跨模態相似度矩陣上引入KD,以確保模型更新前后的交互一致性,從而進一步鞏固知識。

**3.3.2 偽重放

偽重放方法利用生成模型學習舊任務的數據分布,從而在當前階段生成偽造數據,避免了直接重放方法的存儲需求和隱私問題。例如,單模態模型中DGR(Deep Generative Replay)通過訓練生成對抗網絡(GAN)來生成數據樣本以進行重放。后續研究擴展了偽重放策略,包括在特征層面進行偽重放,以強化特征表示,減少遺忘現象。在多模態模型中,SGP通過保存場景圖和語言模型生成偽造數據以進行偽重放。此外,AID通過偽原型重放策略處理模態不平衡問題,從而提升分類器的區分能力。這些方法解決了多模態學習環境中數據類型多樣性和平衡性的問題。

3.4 基于提示的方法

基于提示的方法利用預訓練大模型,通過修改輸入而非調整模型結構來保留原始知識并學習新任務。此類方法減少了大規模微調的需求,并能夠更好地保留預訓練模型的零樣本能力。在多模態模型中,例如Fwd-Prompt和S-liPrompts分別采用共享提示和任務特定提示策略,增強了視覺-語言模型在跨模態信息融合中的表現。CPE-CLIP通過將視覺提示設計為語言提示的函數來連接多模態信息,使模型在新任務中具備更好的適應性。

4 數據集和基準

本節對當前多模態持續學習(MMCL)領域的主要數據集和基準進行了綜述。MMCL中的大多數數據集都是從最初為非持續學習(CL)任務設計的知名數據集中改編而來,研究人員常常利用多個數據集或將單一數據集劃分為多個子集,以便在MMCL設置中模擬任務【39】。此外,也存在一些專門為MMCL構建的數據集,例如P9D【68】和UESTC-MMEA-CL【39】。表4匯總了涵蓋各種CL場景、模態和任務類型的MMCL基準。以下將具體介紹這些基準,若數據集和代碼為公開可訪問,將在相應位置標明。

**4.1 基于原始數據集的基準

這一部分總結了兩個專門為MMCL構建的數據集:

  • P9D:Zhu等人【68】利用電商數據構建了首個視覺-語言持續預訓練數據集P9D,并建立了跨模態檢索與多模態檢索的VLCP基準。P9D包含超過一百萬對真實產品的圖像和文本數據,并根據行業類別劃分為9個任務。該數據集旨在支持多模態任務中不同類別的持續學習。
  • UESTC-MMEA-CL:Xu等人【39】收集了來自佩戴智能眼鏡的10位參與者的視頻和傳感器數據,構建了包含視覺、加速度和陀螺儀模態的UESTC-MMEA-CL數據集,這是第一個用于持續自我活動識別的多模態數據集。作者還建立了CEAR基準,并使用了三種基礎CL方法:EWC【11】、LwF【10】和iCaRL【12】。研究結果顯示,與其他方法相比,iCaRL在重放基礎上能更有效地減輕遺忘問題。 這兩個數據集通過與常用CL方法的結合驗證了MMCL方法在不同模態組合上的有效性,也進一步揭示了多模態數據融合的挑戰及潛在研究方向。

**4.2 基于多個數據集的基準

除了專門的數據集外,也有一些基準通過使用多個數據集來模擬MMCL任務。以下是一些此類基準的簡要介紹:

  • CLiMB【31】:該基準包括四個視覺-語言任務(VQAv2、NLVR2、SNLI-VE和VCR)、五個僅語言任務(IMDb、SST-2、HellaSwag、CommonsenseQA和PIQA)以及四個僅視覺任務(ImageNet-1000、iNaturalist2019、Places365和MS-COCO目標檢測)。CLiMB采用分類任務來評估模型在不同模態任務中的表現。
  • CLOVE【63】:專注于生成任務,適用于不同模態的生成式任務,利用多個數據集進行評估。
  • MTIL【45】:該基準在視覺-語言領域內使用了多個數據集進行任務增量學習,驗證模型在多任務設置中的表現。
  • CEAR【39】:基準測試多模態數據集(視頻、加速度和陀螺儀)上的持續學習性能,評估模型對復雜運動數據的持續識別能力。 這些基準提供了多種任務和模態組合,用以驗證模型在各種復雜多模態環境中的持續學習能力。通過這些基準,研究人員可以深入探討MMCL方法在不同任務類型下的適用性和性能表現。

5 未來研究方向

隨著多模態模型的快速發展,多模態持續學習(MMCL)已成為一個活躍且前景廣闊的研究課題。在本節中,我們提出了幾個值得進一步探索和研究的未來方向。

**5.1 提升模態數量與質量

當前的MMCL研究中,多模態數據的數量和質量直接影響模型的性能。然而,由于不同模態的數據特性和收集難度,提升模態數量和質量仍面臨諸多挑戰:

  1. 豐富模態種類:許多現有研究主要集中在視覺、語言和音頻模態上,但實際應用中往往需要結合更多模態,如生物信號、環境數據等。因此,未來研究可以探索如何將更多元的模態引入MMCL系統,以提高模型對復雜環境的適應性和泛化能力。
  2. 提高數據質量:不同模態數據的噪聲和不完整性可能導致信息缺失或誤導模型學習。提高數據采集和預處理的質量,以及開發具有魯棒性的數據增強方法,將有助于改善模型對多模態數據的學習效果。
  3. 模態互補性研究:多模態數據之間的互補性在MMCL中發揮著重要作用。研究如何更好地利用不同模態之間的相互補充來增強學習效果,例如通過模態間對齊和融合方法,以更好地利用數據多樣性,提升模型的整體性能。

**5.2 更高效的計算資源利用

MMCL中的模型往往依賴大規模預訓練模型,并在多個模態和任務上進行持續訓練,這對計算資源提出了更高要求。為提高資源利用效率,未來可以在以下幾個方面展開研究:

  1. 參數高效的微調方法:開發參數高效的微調策略(如適配器模塊、低秩近似等),以減少訓練過程中對計算資源的需求。這類方法能夠使模型在進行任務增量學習時僅調整少量參數,從而減輕計算負擔。
  2. 模型壓縮和加速:探索模型壓縮(如量化、剪枝)和加速(如蒸餾、混合精度訓練)技術,以降低MMCL模型的內存和計算成本,使其更適合實際部署。
  3. 分布式與異構計算:結合分布式計算和異構計算設備(如GPU和TPU),分擔大規模多模態數據的處理任務,以應對計算負載挑戰。這可以使得MMCL模型在多任務和大數據量場景下保持較高的性能表現。

**5.3 增強零樣本能力和泛化性能

MMCL中的一個關鍵挑戰是如何在不忘舊任務的同時提升對新任務的零樣本適應能力及泛化性能:

  1. 保持預訓練模型能力:隨著持續微調的進行,MMCL模型可能逐漸喪失預訓練模型的零樣本能力。研究如何在保持先前知識的基礎上,繼續增強模型對新任務的適應性,將是未來的重要方向。
  2. 增強跨任務泛化:MMCL模型往往面對跨任務的知識遷移和適應性問題。如何設計有效的跨任務知識遷移機制,以增強模型在不同任務間的泛化能力,將有助于提高模型在多變環境下的實用性。
  3. 任務間關系學習:許多現實任務之間存在一定的關聯性,未來可以探索如何利用任務間的關系信息(如標簽關系、特征共現)來更好地指導模型學習,從而提升模型對新任務的預測準確性。

**5.4 應對多模態數據中的模態失衡

在多模態環境下,模態數據的分布和數量可能存在不平衡,這會影響MMCL的表現。未來的研究可以關注以下方面:

  1. 模態優先級與加權機制:不同模態對任務完成的重要性可能不同,因此可以研究如何為不同模態分配合適的權重和優先級,以提高模型在模態不平衡情況下的魯棒性。
  2. 動態模態選擇與融合:設計動態的模態選擇策略,使模型能夠在缺少某些模態數據時,靈活地進行模態融合和任務處理。這種動態融合策略將提高模型在不同模態條件下的適應性。
  3. 模態數據重采樣與合成:在模態不平衡的情況下,可以研究如何通過重采樣或合成方法生成缺少的模態數據,以保持模態之間的平衡性,提高模型的整體學習效果。

5.5 提高模型對隱私與數據安全的適應性

隨著隱私和數據安全需求的增加,未來MMCL研究需要更好地應對這些問題:

  1. 隱私保護技術:研究如何在MMCL模型中引入隱私保護技術,如聯邦學習和差分隱私,以在多模態數據環境中保護用戶隱私。
  2. 安全模型更新與遷移:開發安全的模型更新和遷移機制,以防止敏感數據泄露,同時保證模型在不同平臺或設備上的適應性和性能。
  3. 數據合成與偽重放:為減輕隱私風險,可以利用數據合成與偽重放技術,在不依賴真實用戶數據的情況下,重建訓練數據分布,從而提高模型的隱私適應性。

結論

以上是未來研究方向的詳盡討論,為進一步發展多模態持續學習(MMCL)領域提供了切實可行的建議和探索路徑。通過提升模態數量與質量、提高計算資源效率、增強零樣本能力與泛化性能、應對模態失衡問題,以及加強隱私與數據安全的適應性,研究人員可以應對MMCL的挑戰,推動模型更好地適應現實環境的需求。這些方向的研究不僅能解決當前的技術難題,還將推動更為廣泛和深入的實際應用,從而實現更加智能化和多樣化的學習系統。

付費5元查看完整內容

摘要—大型模型智能體(LM agents),由如 GPT-4 和 DALL-E 2 等大型基礎模型驅動,代表了實現人工通用智能(AGI)的重要一步。LM 智能體展示了自主性、具身性和連接性等關鍵特征,使其能夠在物理、虛擬和混合現實環境中無縫與人類、其他智能體及周圍環境互動。本文提供了對 LM 智能體最前沿技術的全面調查,重點討論其架構、合作范式、安全性、隱私和未來前景。具體而言,我們首先探討 LM 智能體的基礎原則,包括一般架構、關鍵組件、使能技術和現代應用。隨后,我們從數據、計算和知識的角度討論 LM 智能體的實際合作范式,以促進其連接智能。此外,我們系統分析了與 LM 智能體相關的安全漏洞和隱私泄露,特別是在多智能體環境中。我們還探討了其底層機制,并回顧現有和潛在的對策。最后,我們概述了構建穩健和安全的 LM 智能體生態系統的未來研究方向。 關鍵詞—大型模型、人工智能智能體、具身智能、多智能體合作、安全、隱私。

I. 引言 A. 大型模型智能體的背景 在1950年代,艾倫·圖靈提出了著名的圖靈測試,以評估機器是否能夠表現出與人類相當的智能,為人工智能(AI)的發展奠定了基礎。這些被稱為“智能體”的人工實體,是AI系統的核心組件。一般來說,AI智能體是能夠理解并響應人類輸入、感知環境、做出決策并在物理、虛擬或混合現實環境中采取行動以實現其目標的自主實體[1]。AI智能體的范圍從遵循預定義規則的簡單機器人到通過經驗學習和適應的復雜自主實體[2]。它們可以是基于軟件的或物理實體,能夠獨立運行或與人類或其他智能體合作。 自20世紀中葉以來,AI智能體的發展取得了顯著進展[3]–[5],如深藍、AlphaGo和AlphaZero,如圖1所示。盡管取得了這些進展,之前的研究主要集中在精細化專業能力上,如符號推理或在特定任務(如圍棋或國際象棋)中表現優異,往往忽視了在AI模型中培養通用能力,如長期規劃、多任務泛化和知識保留。創造能夠靈活適應廣泛任務和復雜環境的AI智能體的挑戰仍然在很大程度上未得到探索。為了進一步推動AI智能體的邊界,開發強大的基礎模型以整合這些關鍵屬性是至關重要的,為下一代AI智能體提供多功能的基礎。 隨著大型模型(LMs)的興起,也稱為大型基礎模型,如OpenAI的GPT-4、Google的PaLM 2和Microsoft的Copilot,LMs為全面增強AI智能體的內在能力開辟了新可能性[6][7]。如圖2所示,一個LM智能體,無論是軟件形式還是具身形式,通常由四個關鍵組件組成:規劃、行動、記憶和互動。這些智能體能夠在物理、虛擬或混合現實環境中無縫操作[1][8]–[10]。特別是,LMs作為AI智能體的“大腦”,賦予它們在人機互動(HMI)、復雜模式識別、知識保留、推理、長期規劃、泛化和適應性方面強大的能力[9]。此外,通過先進的推理和少量/零樣本規劃技術,如思維鏈(CoT)[11]、思維樹(ToT)[12]和反思[13],LM智能體能夠形成復雜的邏輯連接,有效解決復雜的多面任務。例如,AutoGPT[14],一個有前途的LLM智能體原型,可以將復雜任務分解為幾個可管理的子任務,從而促進結構化和高效的問題解決。將LM與檢索增強生成(RAG)技術[15]結合,進一步使智能體能夠訪問外部知識源,并基于檢索的信息提高其響應的準確性。此外,LM智能體可以靈活集成多種LM,包括大型語言模型(LLM)和大型視覺模型(LVM),以實現多方面的能力。 LM智能體被視為實現人工通用智能(AGI)的一重要步驟,并廣泛應用于網絡搜索[16]、推薦系統[17]、虛擬助手[18][19]、元宇宙游戲[20]、機器人技術[21]、自動駕駛汽車[22]和電子設計自動化(EDA)[23]等領域。據MarketsandMarkets[24]報告,2023年全球自主AI和自主智能體市場的估值為480億美元,預計到2028年將以43%的年均增長率增長,達到285億美元。LM智能體引起了全球關注,包括Google、OpenAI、Microsoft、IBM、AWS、Oracle、NVIDIA和百度等領先科技巨頭正在進入LM智能體行業。

B. LM智能體的路線圖和關鍵特征 圖3描繪了LM智能體的未來愿景,其特征為三個關鍵屬性:自主性、具身性和連接性,為實現AGI鋪平道路。

  1. 自主智能。LM智能體的自主智能指的是它們獨立運行的能力,能夠在沒有持續人類輸入的情況下主動做出決策。如圖2(a)所示,LM智能體可以維護一個內部記憶,隨著時間的推移積累知識,以指導未來的決策和行動,使其能夠在動態環境中持續學習和適應[25]。此外,LM智能體可以自主利用各種工具(例如,搜索引擎和外部API)收集信息或創建新工具來處理復雜任務[26]。通過與人類或其他智能體合作或競爭,LM智能體可以有效提升其決策能力[27]。
  2. 具身智能。盡管近年來取得了一些進展,LM通常被動地響應人類在文本、圖像或多模態領域的命令,而不直接與物理世界互動[7]。而具身智能體可以主動感知和作用于其環境,無論是數字、機器人還是物理環境,使用傳感器和執行器[21][25]。向LM賦能的智能體的轉變涉及創建能夠理解、學習和解決現實世界挑戰的具身AI系統。如圖2(b)所示,LM智能體主動與環境互動,并根據實時反饋調整行動。例如,一臺負責清潔的家庭機器人LM智能體可以通過分析房間布局、表面類型和障礙物來生成量身定制的策略,而不僅僅是遵循通用指令。
  3. 連接智能。連接的LM智能體超越了單個智能體的能力,在應對復雜的現實任務中發揮關鍵作用[28]。例如,在自動駕駛中,作為LM智能體的連接自動駕駛汽車共享實時傳感數據,協調運動,并在交叉路口協商通行,以優化交通流量并提高安全性。如圖3所示,通過將眾多LM智能體互聯成“LM智能體互聯網”,連接的LM智能體可以自由分享感知數據和任務導向知識。通過充分利用各種專業LM的計算能力,它促進了合作決策和集體智能。因此,跨數據、計算和知識領域的協作增強了各個智能體的性能和適應性。此外,這些互動使得LM智能體能夠形成社會聯系和屬性,助力智能體社會的發展[29][30]。

C. 保障連接LM智能體的動機 盡管LM智能體的未來光明,但安全和隱私問題仍然是其廣泛采用的重大障礙。在LM智能體的整個生命周期中,可能會出現多種漏洞,從對抗樣本[31]、智能體中毒[32]、LM幻覺[33]到普遍的數據收集和記憶[34]。

  1. 安全漏洞。LM智能體容易出現“幻覺”,即其基礎LM生成似是而非但不符合現實的輸出[33]。在多智能體環境中,幻覺現象可能傳播錯誤信息,損害決策,導致任務失敗,并對物理實體和人類構成風險。此外,維護用于訓練和推理的感知數據和提示的完整性和真實性至關重要,因為偏見或受損的輸入可能導致不準確或不公平的結果[35]。諸如對抗性操控[31]、中毒[36]和后門[37]等攻擊進一步威脅LM智能體,允許惡意行為者操控輸入并欺騙模型。在協作環境中,智能體中毒行為[32],即惡意智能體破壞其他智能體的行為,可能破壞協作系統。此外,將LM智能體集成到網絡物理社會系統(CPSS)中,擴大了攻擊面,使對手能夠利用互聯系統中的漏洞。
  2. 隱私泄露。LM智能體廣泛的數據收集和記憶過程帶來了嚴重的數據泄露和未經授權訪問的風險。這些智能體通常處理大量個人和敏感的商業信息,涉及面向消費者(ToC)和面向企業(ToB)應用,增加了對數據存儲、處理、共享和控制的擔憂[38]。此外,LMs可能無意中記住訓練數據中的敏感細節,可能在互動過程中暴露私人信息[34]。在多智能體合作中,隱私風險進一步加劇,LM智能體在通信和任務執行過程中可能無意中泄露有關用戶、其他智能體或其內部操作的敏感信息。

D. 相關調查與貢獻 近年來,LM智能體在學術界和工業界引起了廣泛關注,導致多角度探索其潛力的各種研究。該領域的一些重要綜述論文如下:Andreas等人[29]提出了AI智能體構建的玩具實驗和關于建模交流意圖、信念和愿望的案例研究。Wang等人[39]識別了基于LLM的自主智能體的關鍵組成部分(即,個人資料、記憶、規劃和行動)以及主觀和客觀評估指標。此外,他們討論了LLM智能體在工程、自然科學和社會科學中的應用。Xi等人[9]提出了一個LLM智能體的一般框架,包括大腦、行動和感知。此外,他們探討了在單智能體、多智能體和人機協作以及智能體社會中的應用。Zhao等人[2]提供了LLM的系統綜述,涵蓋了預訓練、適應調優、利用和能力評估。此外,介紹了背景信息、主流技術和LLM的關鍵應用。Xu等人[40]對移動網絡中的邊緣云AI生成內容(AIGC)服務的關鍵概念、架構和指標進行了教程,并識別了若干用例和實施挑戰。Huang等人[1]提供了虛擬/物理環境中AI智能體的分類,討論了AI智能體的認知方面,并調查了AI智能體在機器人、醫療保健和游戲中的應用。Cheng等人[10]回顧了LLM智能體的關鍵組成部分(包括規劃、記憶、行動、環境和反思)及其潛在應用。還回顧了多智能體系統中的規劃類型、多角色關系和溝通方法。Masterman等人[8]提供了工業項目中單智能體和多智能體架構的概述,并展示了現有研究的見解和局限性。Guo等人[41]討論了基于LLM的多智能體系統的四個組成部分(即接口、建模、通信和能力獲取),并在問題解決和世界模擬方面提出了兩條應用線。Durante等人[42]介紹了多模態LM智能體及其訓練框架,包括學習、行動、認知、記憶、行動和感知。他們還討論了智能體的不同角色(例如,具身、模擬和知識推斷),以及在游戲、機器人、醫療保健、多模態任務和自然語言處理(NLP)等不同應用中的潛力和實驗結果。Hu等人[20]概述了基于LLM的游戲智能體的六個關鍵組成部分(即感知、思維、記憶、學習、行動和角色扮演),并回顧了六種類型游戲中現有的基于LLM的游戲智能體。Xu等人[43]提供了關于游戲中LM智能體的啟用架構和挑戰的全面綜述。Qu等人[44]對將移動邊緣智能(MEI)與LLM整合進行了全面綜述,強調在網絡邊緣部署LLM的關鍵應用以及在邊緣LLM緩存、傳輸、訓練和推理中的最新技術。

  1. 現有的LM智能體調查主要集中在單個LLM智能體和多智能體系統的一般框架設計及其在特定應用中的潛力上。本綜述不同于上述現有調查,重點關注LM智能體的網絡方面,包括一般架構、啟用技術和合作范式,以構建在物理、虛擬或混合現實環境中聯網的LM智能體系統。此外,隨著LM智能體的進展,研究它們在未來AI智能體系統中的安全性和隱私性變得迫在眉睫。本研究全面回顧了LM智能體的安全和隱私問題,并討論了現有和潛在的防御機制,這些內容在現有調查中常被忽視。表I比較了本調查與LM智能體領域先前相關調查的貢獻。
  2. 在本文中,我們系統性地回顧了單個和連接的LM智能體的最新進展,重點關注安全和隱私威脅、現有和潛在的對策以及未來趨勢。我們的調查旨在:1)提供對LM智能體如何工作以及如何在多智能體場景中互動的更廣泛理解;2)審視與LM智能體及其互動相關的安全和隱私挑戰的范圍和影響;3)強調有效的策略和解決方案,以防御這些威脅,保護LM智能體在各種智能應用中的安全。該工作的主要貢獻有四個方面:
  3. 我們全面回顧了LM智能體構建的最新進展,包括一般架構、關鍵組件(即規劃、記憶、行動、互動和安全模塊)以及啟用技術。還討論了LM智能體的工業原型和潛在應用。
  4. 我們系統地對LM智能體的互動模式(即智能體-智能體、智能體-人類和智能體-環境互動)及其互動類型(即合作、部分合作和競爭)進行了分類。我們探討了LM智能體在數據合作、計算合作和知識合作方面的實際合作范式。
  5. 我們全面分析了現有和潛在的安全和隱私威脅、其基本機制、分類及單個和連接的LM智能體面臨的挑戰。我們還回顧了最新的對策,并檢驗其在保護LM智能體方面的可行性。
  6. 最后,我們討論了開放的研究問題,并從能源高效和綠色LM智能體、公平和可解釋的LM智能體、網絡物理社會安全智能體系統、智能體生態系統的價值網絡等角度指出未來的研究方向,旨在提升LM智能體的效率和安全性。

E. 論文組織 本文其余部分組織如下。第二節討論單個LM智能體的工作原理,第三節介紹連接LM智能體的合作范式。第四節和第五節分別介紹LM智能體的安全和隱私威脅的分類,以及最新的對策。第六節概述LM智能體領域的開放研究問題和未來方向。最后,第七節給出結論。圖4描繪了本綜述的組織結構。

II. 大型模型智能體:工作原理 在本節中,我們首先介紹現有的LM智能體標準。然后,討論連接LM智能體的一般架構,包括關鍵組件、通信模式、主要特征和啟用技術。接下來,介紹典型原型并討論LM智能體的現代應用。

  1. LM智能體的操作系統(OS):根據[45],[46],LM智能體的操作系統架構由三層組成:應用層、內核層和硬件層。
  • 應用層承載智能體應用(如旅行、編碼和機器人智能體),并提供抽象系統調用的SDK,簡化智能體開發。
  • 內核層包括普通的操作系統內核和額外的LM智能體內核,重點在于不改變原始操作系統結構。LM智能體內核中的關鍵模塊包括任務規劃和優先級調度的智能體調度器、LM狀態管理的上下文管理器、短期數據的記憶管理器、長期數據保留的存儲管理器、外部API交互的工具管理器,以及隱私控制的訪問管理器。
  • 硬件層包含物理資源(CPU、GPU、內存等),通過操作系統系統調用間接管理,因為LM內核不直接與硬件交互。
  1. LM智能體的構建模塊:根據[1],[8]–[10],LM智能體一般有五個構建模塊:規劃、行動、記憶、互動和安全模塊(詳細見節II-C)。這些模塊共同使LM智能體能夠高效、安全地感知、規劃、行動、學習和互動于復雜動態環境中。
  • 通過大型模型,規劃模塊利用記憶模塊生成策略和行動計劃,實現知情決策[7],[10]。
  • 行動模塊執行這些具體的行動,根據實時環境反饋調整行動,以確保上下文適當的響應[9],[42]。
  • 記憶模塊作為累積知識(如過去經驗和外部知識)的存儲庫,促進持續學習和改進[10]。
  • 互動模塊使智能體與人類、其他智能體和環境之間實現有效的溝通與協作。
  • 安全模塊貫穿于LM智能體的操作中,確保主動防護威脅并維護數據和過程的完整性和機密性。
  1. LM智能體的引擎:LM智能體的引擎由一系列前沿技術驅動,包括大型基礎模型、知識相關技術、互動、數字雙胞胎和多智能體協作(詳細見節II-D)。
  • 大型基礎模型如GPT-4和DALL-E 2作為LM智能體的大腦,使其具備高級模式識別、復雜推理和智能決策能力,提供認知能力[6],[7]。
  • 知識相關技術通過整合知識圖譜、知識庫和RAG系統增強LM智能體,使其能夠訪問、利用和管理大量外部知識源,確保知情和上下文相關的行動[47]。
  • HMI技術通過自然語言處理、多模態接口以及增強/虛擬/混合現實(AR/VR/MR)實現人類與智能體之間的無縫互動,促進動態和自適應的交互[48]。
  • 數字雙胞胎技術通過智能體內部的通信實現物理身體和數字大腦之間的數據和狀態的高效同步[49]。
  • 多智能體協作技術使LM智能體能夠高效協同工作,分享數據、資源和任務,通過智能體間的通信制定合作、競爭和合作競爭策略,解決復雜問題[28]。
  1. LM智能體的通信模式:每個LM智能體由兩個部分組成:(i)位于云端、邊緣服務器或終端設備的LM賦能大腦,以及(ii)相應的物理身體,如自主車輛。每個LM智能體可以主動與其他LM智能體、虛擬/現實環境和人類互動。對于連接的LM智能體,存在兩種典型的通信模式:內部通信用于智能體內大腦與物理身體之間的無縫數據/知識同步,外部通信則用于LM智能體之間的高效協調。表III總結了這兩種通信模式的比較。
  • 內部通信是指單個LM智能體內部的數據/知識交換。這種通信確保LM智能體的不同組件(包括規劃、行動、記憶、互動和安全模塊)協同工作。例如,LM智能體通過其物理身體收集多模態感知數據,然后將解釋的信息傳達給LM賦能的大腦。大腦中的規劃模塊制定響應或行動計劃,隨后由行動模塊執行。這種信息的無縫流動對于維持LM智能體在實時動態場景中的功能性、一致性和響應性至關重要。
  • 外部通信涉及多個LM智能體之間的信息和知識交換。它促進了智能體之間的協同任務分配、資源共享和協調行動,推動集體智能的發展。例如,在智能城市應用中,管理交通信號燈、公共交通和應急服務的各種LM智能體共享實時數據,以優化城市流動性和安全性。有效的外部通信依賴于標準化協議,以確保兼容性和互操作性,從而促進LM智能體網絡的高效和同步操作。
  1. 人類世界與LM智能體之間的信息流:人類通過自然語言、移動智能設備和可穿戴技術與LM智能體互動,使LM智能體能夠理解人類指令并有效解決現實問題。LM智能體反過來從人類輸入中獲取新知識和數據,幫助其持續改進和學習。這一持續更新和優化模型的過程,使LM智能體能夠提供越來越準確和有用的信息。在AR和VR環境中,LM智能體能夠在虛擬場景中與人類用戶協作,如建筑設計,提升整體效率和創造力[50]。
  2. 物理世界與LM智能體之間的信息流:得益于數字雙胞胎技術,LM智能體能夠在其物理身體和數字大腦之間同步數據和狀態,形成無縫互動循環。LM智能體還可以監控并對環境的實時輸入作出反應。這種雙向同步使LM智能體能夠以高精度和響應性感知和應對其周圍環境,無論是虛擬還是現實,從而彌合數字與物理領域之間的差距。通過不斷從環境反饋中學習,LM智能體能夠積累知識并理解物理法則,從而解決復雜的現實世界問題。這一迭代學習過程確保LM智能體不僅對即時刺激作出反應,還能隨著時間推移不斷優化其具體行動,達到更復雜和有效的解決方案。
  3. 網絡世界與LM智能體之間的信息流:在網絡世界中,LM智能體通過高效的云-邊緣網絡連接到LM智能體互聯網,促進無縫數據和知識共享,推動多智能體協作。通過在云和邊緣基礎設施中部署大型模型,LM智能體能夠利用云和邊緣計算的優勢,優化性能和響應能力[51]。云提供強大的計算能力和存儲,支持處理大量數據和訓練復雜模型。同時,邊緣提供接近數據源的實時數據處理能力,減少延遲,確保及時決策。在LM智能體互聯網中,LM智能體可以實時共享數據、知識和學習經驗,構建一個跨多個領域的強大自適應智能網絡。例如,在智能城市中,分布在不同位置的具身LM智能體可以通過共享實時數據和協調行動,協作優化交通流、管理能源資源并增強公共安全。

付費5元查看完整內容

摘要——目前,大多數工業物聯網(IIoT)應用仍然依賴于基于卷積神經網絡(CNN)的神經網絡。盡管基于Transformer的大模型(LMs),包括語言、視覺和多模態模型,已經在AI生成內容(AIGC)中展示了令人印象深刻的能力,但它們在工業領域(如檢測、規劃和控制)中的應用仍然相對有限。在工業環境中部署預訓練的大模型往往面臨穩定性與可塑性之間的挑戰,這主要是由于任務的復雜性、數據的多樣性以及用戶需求的動態性。為了應對這些挑戰,預訓練與微調策略結合持續學習已被證明是一種有效的解決方案,使模型能夠適應動態需求,同時不斷優化其推理和決策能力。本文綜述了大模型在工業物聯網增強的通用工業智能(GII)中的集成,重點關注兩個關鍵領域:大模型賦能GII和GII環境下的大模型。前者側重于利用大模型為工業應用中的挑戰提供優化解決方案,而后者則研究在涉及工業設備、邊緣計算和云計算的協同場景中,持續優化大模型的學習和推理能力。本文為GII的未來發展提供了洞見,旨在建立一個全面的理論框架和研究方向,從而推動GII向更加通用和適應性強的未來發展。 關鍵詞——通用工業智能、大語言模型、持續學習、工業物聯網、邊緣計算。

工業5.0將網絡-物理-社會元素集成到制造業中,強調數字與物理系統的交互以及人機協作,通過互聯網有效地連接設備、物體和人[1]。隨著物聯網(IIoT)的快速發展[2]-[4]、通信技術[5], [6]、AI生成內容(AIGC)[7]、機器人和數字孿生技術[8]-[10],現代工業系統變得越來越復雜。這些系統不僅生成高頻的單模態數據,還包括文本、圖像、視頻、代碼和音頻等多模態數據類型。工業大數據可以用于創建數字化制造工作流程和工業流程,極大地推動了工業5.0和網絡-物理-社會系統中生產力、效率和效能的提升。 如圖1所示,數據集和模型構成了GII生態系統的基礎要素,推動了更高層次算法和應用的快速發展。這些應用包括智能控制系統、預測性維護[11]、故障診斷[12], [13]和異常檢測[14],這些都高度依賴于對IIoT數據的提取和分析。GII的成功特別依賴于其從這些IIoT數據集中高效學習和提取有價值特征的能力。基于Transformer的大模型(LMs),例如大語言模型(LLMs)[16]–[18]、視覺模型[19], [20]、時間序列模型[21]以及多模態模型[22], [23],由于其獨特優勢,受到廣泛關注。通過在大規模數據集上進行預訓練,這些擁有數十億到數萬億參數的模型積累了廣泛的知識,極大地推動了數據處理的自動化和多樣化,同時減少了對人類專業知識的依賴。

在工業領域,大模型的精度和可擴展性使其在提高工業流程的準確性方面非常有效。然而,在工業環境中部署預訓練大模型時,需要根據具體任務架構、動態數據分布和用戶偏好進行謹慎的適配。盡管大模型在多任務泛化、小樣本學習和推理方面具有優勢,但在這些環境中平衡穩定性和適應性仍然是一個顯著挑戰。受到大模型在自然語言處理(NLP)中成功的啟發,工業界越來越多地探索其在GII中的潛力。一種方法是從頭構建行業特定的基礎模型[24],但特定領域數據規模的限制通常阻礙了涌現能力的發展。另一種方法是通過大數據集上的預訓練,然后進行特定任務的微調,這已顯示出在構建穩健的工業模型方面的巨大潛力,顯著提高了各類任務的性能。這種方法有效地應對了特定領域數據匱乏的挑戰,同時加速了工業應用中先進能力的發展。

為工業任務調整大模型是一個重要的研究方向[25]。這些模型在跨任務泛化、零樣本/小樣本學習和推理能力方面的優勢,為解決知識遷移、數據稀缺性和解釋性問題提供了新的途徑。 ****持續大模型(CLMs)****在維持和發展這些工業模型的能力方面發揮了關鍵作用。CLMs在大規模數據集上進行預訓練,并由Transformer架構驅動,設計用于持續學習和適應,確保工業大模型在滿足GII不斷變化的需求時仍然保持相關性和有效性。

A. 本綜述的目標

本文旨在建立一個全面的視角,并對IIoT增強的GII進行深入分析。它提出了將GII分為兩個主要類別的概念:

  • 通用工業智能的大模型(LMs for GII):該方向重點利用大模型的高級數據處理和分析能力來解決工業應用中固有的優化問題。具體來說,LMs通過其處理實時多模態IIoT數據、執行復雜特征提取并確保精確的模式識別和結果驗證的能力,提升了IIoT驅動的工業系統的智能化和運營效率,最終提高了不同工業環境中的測量精度和系統性能。
  • 通用工業智能上的大模型(LMs on GII):該視角探討了工業應用如何通過持續模型操作,在協同的IIoT設備-邊緣-云環境中擴展和優化大模型的能力。通過采用持續學習(CL)和在線學習策略,模型可以適應新數據和環境變化,而無需昂貴的再訓練。這種方法節省了計算資源,最小化了延遲,并高效處理了數據分布變化和性能退化,確保了動態工業場景中的穩健模型性能。

本文通過一個示意圖(圖2)進一步明確了這些類別的引入,幫助闡明了兩種方法之間的結構性差異和操作機制。

B. 本綜述的獨特特征

近年來,持續學習(CL)作為一個研究課題獲得了顯著關注,許多研究探討了其在設備健康管理[26]、機器人[27]和流數據[28]等領域的應用。在大模型的背景下,由于這些模型的規模巨大,頻繁的再訓練成本高昂,因此CL已被認為是至關重要的[29]。盡管CL的文獻廣泛,但我們的綜述獨特地關注了CL在IIoT增強的工業系統中的大模型的持續適應性——這是現有文獻中未被充分覆蓋的領域。本綜述首次為大模型在四個不同的IIoT工業場景中應用的CL方法提供了全面而系統的回顧。

如表I所示,本文通過以下幾個關鍵貢獻來區分自身

  • 新穎的分類體系:我們引入了一個新的GII理論框架。通過將大模型的應用分為兩個維度——“LMs for GII”和“LMs on GII”,本文不僅探討了如何利用大模型優化工業應用,還研究了這些應用如何反過來優化模型本身。這種雙向交互視角顯著豐富了現有文獻。

  • 跨領域多模態集成:與大多數僅專注于特定類型大模型(如語言模型或視覺模型)的現有研究不同,本綜述涵蓋了大語言模型(LLMs)、視覺Transformer、多模態模型和時間序列模型。這種跨模態集成增強了復雜儀器和測量系統的設計、開發和評估,這些系統用于信號的生成、獲取、調理和處理。通過利用不同模型的獨特優勢,它為推進測量科學及其應用提供了更全面和深入的視角,從而更有效地應對復雜的工業挑戰。

  • 持續學習的實際應用:本文強調了持續學習策略在IIoT增強的工業系統,特別是邊緣計算和云計算協同環境中的實際應用。這個重點確保了模型不僅能適應新數據和變化的條件,還能資源高效。通過減少計算需求和訓練成本,我們的方法解決了工業應用中的關鍵約束。

付費5元查看完整內容

近年來,我們見證了大型語言模型(LLM)的快速發展。基于強大的LLM,多模態LLM(MLLM)將模態從文本擴展到更廣泛的領域,因其廣泛的應用場景而引起廣泛關注。由于LLM和MLLM依賴大量的模型參數和數據來實現突現能力,數據的重要性正受到越來越廣泛的關注和認可。追蹤和分析最近針對MLLM的數據導向工作,我們發現模型和數據的發展并不是兩條獨立的路徑,而是相互關聯的。一方面,更大量和更高質量的數據有助于MLLM的更好表現;另一方面,MLLM可以促進數據的發展。多模態數據和MLLM的共同發展需要明確以下幾點:1)在MLLM的哪個發展階段可以采用哪些以數據為中心的方法來增強哪些能力,2)通過利用哪些能力和扮演哪些角色,模型可以對多模態數據作出貢獻。為了促進MLLM社區的數據-模型共同發展,我們系統地回顧了現有與MLLM相關的工作,從數據-模型共同發展的視角進行分析。本調查相關的一個定期維護的項目可以在 //github.com/modelscope/data-juicer/blob/main/docs/awesome llm data.md 訪問。

近年來,大型語言模型(LLM)在廣泛的任務中展示了令人印象深刻的性能,并且相關技術取得了顯著的進展。由于人類的感官不僅限于文本模態,多模態LLM(MLLM)逐漸進入視野,例如能夠處理超越文本模態輸入或輸出的Gemini-1.5 [1] 和 Sora [2],以及能夠在輸入和輸出之間進行多模態交互的GPT-4o [3] 和 NExT-GPT [4]。在過去兩年中,MLLM受到廣泛關注。正如圖1所示,自2023年初以來,與MLLM相關的研究正在以越來越快的速度涌現。 MLLM的卓越性能源于LLM在參數數量擴大帶來的解決一系列任務的突現能力[5]。許多研究表明,擴大模型規模需要更加海量的數據來補充[6], [7], [8],例如擴展法則[9], [10]。具體而言,研究表明,多模態模型需要指數級更多的數據才能在下游任務中實現線性零樣本改進[11]。鑒于此,一系列工作將重點從僅僅關注模型架構和訓練技術轉移到數據中心方法,專注于高質量數據的策劃[12], [13], [14], [15], [16], [17],以提供進一步釋放大型模型潛力的數據基礎。從圖1可以看出,在現有關注MLLM的論文中,與數據中心方法密切相關的論文也表現出強勁的增長趨勢,并占據了重要的部分。 隨著與MLLM相關的大量技術工作不斷涌現,一些針對MLLM的綜述也逐漸出現[18], [19], [20], [21], [22], [23], [24], [25], [26], [27], [28], [29], [30], [31], [32], [33], [34]。這些綜述主要從模型中心的角度進行,而數據的重要性需要進一步強調。一項最近的綜述將數據中心的視角從單模態擴展到多模態,重點關注現有的數據中心方法,并根據所提出的數據管道階段進行組織[35]。實際上,數據和模型的發展是交織在一起的,而不是分開的。更大數量和更高質量的數據提高了模型性能,而從高質量數據中受益的良好訓練的模型可以進一步改進數據。這減少了人工成本,擴大了數據量,并通過使用需要標注的分割掩碼進行訓練的Segment Anything模型(SAM)[36]的訓練成功展示了這一點。隨著SAM在訓練中的熟練程度提高,它逐漸取代人在標注任務中的角色,從而形成一個改進模型和數據集的循環。這樣的漸進和良性循環促進了MLLM的發展,即受益于高質量數據集的MLLM可以幫助改進訓練數據,反過來進一步增強MLLM。 數據-模型共同發展范式很有前途,但尚未得到充分研究。根據我們的調查,目前還缺乏從數據-模型共同發展視角對MLLM的綜述。現有綜述尚未建立數據中心方法與MLLM能力之間的關系,也沒有清晰闡明MLLM的能力如何幫助構建數據集。實現MLLM數據-模型共同發展的關鍵在于闡明哪些數據方法可以增強每種特定的MLLM能力,以及了解模型可以扮演的角色,以改進多模態數據。因此,本綜述旨在通過綜合回顧回答以下研究問題,推進MLLM的數據-模型共同發展: * RQ1:在MLLM的生命周期中,哪些數據中心方法可以在哪個階段用于增強哪些MLLM能力? * RQ2:模型可以扮演哪些角色以促進不同的數據中心方法,并在每種情況下利用模型的哪些特定能力?

為了回答這兩個關鍵研究問題,我們首先提出一個基于MLLM數據-模型共同發展范式的新分類法。我們將先前的努力分為兩個主要類型:數據對模型的貢獻和模型對數據的互惠貢獻,建立其在MLLM能力中的深層連接。隨后,我們從數據-模型共同發展的視角對現有MLLM工作進行全面審查,揭示了推進數據-模型共同發展范式的巨大潛力,主要歸因于缺乏對數據和模型之間協同作用的專注。基于獲得的見解,我們描繪了若干進步的未來方向,以更好地利用數據和模型之間的互補,從基礎設施到各種自我增強程度的數據-模型共同發展。該綜述的主要貢獻有三點: * MLLM開發的新視角:我們提出了一種新分類法,強調多模態數據與MLLM之間的協同作用,旨在理解和挖掘數據和模型開發的互惠優勢。該分類法系統地基于開發MLLM所需的數據相關技術的層次結構進行組織,為研究人員和開發人員提供了推進MLLM的清晰視角。 * 從數據-模型共同發展視角對MLLM的最新綜述:我們系統地回顧了快速增長的MLLM工作,闡明1)哪些MLLM能力可以通過特定的數據中心方法增強,2)經過良好訓練的模型的能力如何反過來支持數據中心方法。據我們所知,這是第一篇從數據-模型共同發展視角對MLLM進行綜述的論文。 * MLLM未來的路線圖:我們提供了一個進步組織的路線圖,涵蓋若干先進和有前途的子方向,重點關注數據和MLLM之間的內部互動。通過這項工作,我們希望為學術研究人員和工業從業者在MLLM不斷發展的領域提供靈感和指導。

組織結構。本文余下部分的組織如下。第二節提供了背景,包括背景知識、分類法以及與現有相關綜述的定性比較。第三節介紹了擴展MLLM的數據中心方法。第四節總結了提高MLLM可用性的數據中心方法。第五節描述了模型直接幫助策劃MLLM數據集的能力。第六節整理了模型作為數據科學家輔助策劃MLLM數據集的應用。第七節列出了一些公開的MLLM數據集,并標明模型在數據策劃中的參與。第八節討論了MLLM未來發展的路線圖。

付費5元查看完整內容

預訓練的大型語言模型(LLM)和大型多模態模型(LMM)的迅速發展開啟了智能應用的新時代,從自然語言處理到內容生成等領域都發生了變革。LLM供應鏈代表了當代人工智能領域的一個關鍵方面。它包括預訓練模型的整個生命周期,從最初的開發和訓練到最終的部署和在各個領域的應用。本文提供了LLM供應鏈的全面概述,突出了其三個核心元素:1)模型基礎設施,包括用于訓練、優化和部署的數據集和工具鏈;2)模型生命周期,涵蓋訓練、測試、發布和持續維護;3)下游應用生態系統,使預訓練模型能夠集成到各種智能應用中。然而,這個快速發展的領域在這些關鍵組成部分中面臨著許多挑戰,包括數據隱私和安全、模型可解釋性和公平性、基礎設施的可擴展性,以及監管合規性。解決這些挑戰對于充分發揮LLM的潛力并確保其道德和負責任的使用至關重要。本文為LLM供應鏈提供了未來的研究議程,旨在推動這些變革性LLM的持續進步和負責任的部署。

預訓練的大型語言模型(LLM)和大型多模態模型(LMM),如GPT4 [2]、Gemini [183]和LLaMA [187]的快速進步,已經徹底改變了人工智能(AI)領域,開啟了智能應用的新時代。這些強大的模型,經過大量數據的訓練,已在從自然語言處理到多模態內容生成的廣泛任務中展示了卓越的能力。 隨著LLM的不斷普及,支持其開發、部署和維護的強大且高效的供應鏈的需求變得越來越明顯。LLM供應鏈涵蓋了從模型訓練到測試、發布及持續維護的整個生命周期。這一復雜的生態系統涉及多種利益相關者,包括模型開發者、數據提供者和終端用戶,他們都必須應對一系列獨特的挑戰,以釋放這些變革性技術的全部潛力。 在本文中,我們將全面概述LLM供應鏈,強調必須解決的關鍵組成部分和關鍵挑戰,以確保LLM的安全、可靠和公平部署。我們將探索這一供應鏈的技術、倫理和操作方面,借鑒軟件工程、系統架構、安全和數據治理領域的見解。我們的目標是全面理解LLM供應鏈,并識別可以推動這一快速發展領域未來的最有前景的研究和開發機會。 LLM供應鏈的定義類似于開源軟件(OSS)供應鏈[93, 164, 204],LLM供應鏈指的是圍繞模型的開發、分發和部署的關系網絡。這一供應鏈包括上游的模型開發社區、模型倉庫、分發平臺和應用市場,以及數據提供者、工具鏈/模型開發者、維護者和終端用戶。如圖1所示,這一供應鏈可以進一步分為三個關鍵組成部分:

基礎設施基礎:LLM供應鏈的基礎是堅實的模型基礎設施,包括多樣化數據集的策劃和管理,以及支持模型高效訓練、優化和部署的工具鏈(如PyTorch [158]、TensorFlow [184]和LangChain [94]);

模型生命周期:模型生命周期是復雜LLM供應鏈生態系統中的關鍵節點。這一全面的生命周期,覆蓋了模型從概念到退役的整個過程,是供應鏈復雜相互依存關系的匯聚點。它不僅涵蓋了模型重用引入的依賴關系,而且與基礎設施層的數據集和開發工具供應鏈緊密交織;

  • 下游應用生態系統:在模型基礎設施和生命周期之上,LLM供應鏈包括一個活躍的下游應用生態系統。這一生態系統包括由LLM驅動的應用和服務,例如GPTs [144],以及直接將這些變革性技術的能力帶給終端用戶的領域特定模型(DSMs)。這些組成部分之間的復雜相互依存關系和互動構成了LLM供應鏈的支柱。通過這樣定義LLM供應鏈,我們可以借鑒現有的OSS供應鏈研究的見解,并將其應用于LLM生態系統的獨特需求和復雜性。這一全面的理解將為隨后探索LLM供應鏈內的機會和挑戰提供基礎。

本文的其余部分安排如下。我們將在第3、第4和第5節分別深入討論模型基礎設施、模型生命周期和下游應用生態系統。每一節的結構依次為愿景、挑戰和機會。最后,在第6節中我們將結束本文。

在本文中,我們對LLM供應鏈進行了全面探討,深入研究了模型基礎設施、生命周期和下游應用生態系統的復雜階段。我們在每個階段都確定了關鍵挑戰,突出了未來研究的機會。在基礎設施領域,我們強調了高質量數據集和魯棒安全的工具鏈的至關重要性。LLM的生命周期,通過開發、測試、發布和維護階段,顯示出持續創新和警惕的需要,以確保模型保持有效、安全,并符合道德標準。對下游應用生態系統的探索,包括LLM應用市場、設備上的LLM和DSM,打開了一個窗口,展示了LLM在各行各業和各種應用中的未來潛力。總之,我們認為LLM供應鏈代表了一個充滿活力和復雜的生態系統,希望本文能為未來研究提供一個議程。

付費5元查看完整內容

智能規劃又叫自動規劃,主要研究在復雜環境下,如何通過自動化的方式生成可行的行動序列,以實現從初始狀態到達目標狀態。大語言模型是指使用大量文本數據訓練的深度學習生成式模型,可以生成自然語言文本或理解語言文本的含義。當前圍繞如何讓大語言模型在強大的常識性知識基礎上獲得生成式智能規劃能力已然成為當下研究的熱潮。本文從大語言模型的視角入手,首先對智能規劃的定義和發展進行概述、簡要介紹了傳統智能規劃的方法;其次基于大語言智能體與智能規劃的緊密關系,介紹了大語言模型的架構和典型的大模型智能體;再次重點圍繞大模型的智能規劃,梳理了規劃語言學習、思維鏈推理、反饋優化和流程自動化共4類規劃方法;最后結合當前的挑戰與困難,介紹大模型進行智能規劃的前沿研究展望。

付費5元查看完整內容
北京阿比特科技有限公司