亚洲男人的天堂2018av,欧美草比,久久久久久免费视频精选,国色天香在线看免费,久久久久亚洲av成人片仓井空

摘要——近年來,基于大語言模型(LLM)驅動的AI智能體展現出前所未有的智能性、靈活性與適應性,正在迅速改變人類的生產方式與生活方式。如今,智能體正經歷新一輪的演化:它們不再像傳統LLM那樣孤立運行,而是開始與多種外部實體(如其他智能體與工具)進行通信,以協同完成更復雜的任務。在這一趨勢下,智能體通信被視為未來AI生態系統的基礎支柱,許多組織也在近幾個月內密集推出相關通信協議(如Anthropic的MCP和Google的A2A)。然而,這一新興領域也暴露出顯著的安全隱患,可能對現實場景造成嚴重破壞。為幫助研究者迅速把握這一前沿方向,并促進未來智能體通信的發展,本文對智能體通信的安全問題進行了系統性綜述。具體而言,我們首先明確界定了“智能體通信”的概念,并將其完整生命周期劃分為三個階段:用戶-智能體交互、智能體-智能體通信以及智能體-環境通信。隨后,我們針對每個通信階段詳細解析相關通信協議,并根據其通信特性剖析潛在的安全風險。在此基礎上,我們總結并展望了各類安全威脅可能的防御對策。最后,本文還討論了該領域仍待解決的關鍵問題與未來研究方向。 關鍵詞:大語言模型、AI智能體、智能體通信、攻擊與安全

一、引言

大語言模型(LLM)的出現引發了人工智能(AI)領域的革命性進展,在理解復雜任務方面展現出前所未有的能力【308】。更重要的是,LLM極大推動了人類所期望的理想AI形式——智能體(agent)的發展。與主要扮演聊天機器人的LLM不同,智能體具備更全面的能力(如感知、交互、推理與執行),使其能夠獨立完成現實世界中的任務。例如,當用戶希望制定旅行計劃時,LLM只能以文本形式提供最佳方案,而智能體則可以將方案轉化為實際行動,如查詢天氣、購買機票和預訂酒店。智能體大大加速了企業智能化轉型的進程,其市場規模預計將以每年46%的速度增長【222】。可以預見,智能體將顛覆現代社會的生產與生活模式,深刻改變未來商業格局。因此,發展和推廣智能體已成為各大國家和頭部科技企業的戰略重點。 當前,智能體正朝著面向特定領域的定制化實體方向演進,即針對特定場景和任務進行專門設計。在這一背景下,如圖1所示,許多任務往往需要多個智能體協作完成,這些智能體可能分布于全球互聯網上。在這種條件下,智能體通信成為未來AI生態系統的基礎,能夠支持智能體發現具備特定能力的其他智能體、訪問外部知識、分派任務及完成其他交互。基于這一龐大的通信需求,越來越多的研究社區和企業開始搶占先機,投身于智能體通信的發展。 2024年11月,Anthropic提出了模型上下文協議(Model Context Protocol,MCP)【16】,這是一個通用協議,允許智能體調用外部環境,如數據集、工具和API。MCP在近幾個月內迅速引起廣泛關注,截至目前,已有數百家企業宣布接入MCP,包括OpenAI【203】、Google【87】、Microsoft【53】、Amazon【21】、阿里巴巴【10】和騰訊【251】,MCP軟件包的每周下載量已超過300萬次【17】。2025年4月,Google又提出了Agent to Agent協議(A2A)【218】,該協議支持智能體之間的無縫通信與協作。自發布以來,A2A獲得了包括Microsoft【188】、Atlassian【149】和PayPal【229】等多家企業的廣泛支持。由此可見,智能體通信的突破正帶來迅速且深遠的變革,并將成為AI生態系統不可或缺的一部分。 然而,智能體通信的迅猛發展也帶來了復雜的安全風險,可能對AI生態系統造成嚴重破壞。例如,不同組織間的智能體協作顯著擴大了攻擊面,可能引發嚴重的安全威脅,包括但不限于隱私泄露、智能體偽造、智能體欺凌以及拒絕服務(DoS)攻擊。由于智能體通信研究尚處于初期階段,急需對整個通信生命周期中存在的安全問題進行系統性回顧。順應這一趨勢,本文旨在對現有的智能體通信技術進行全面梳理,分析其中的安全風險,并探討相應的防御對策。我們相信本研究將對廣泛讀者群體有所幫助,無論是投身于智能體研發的科研人員,還是剛入門的AI初學者。 本文的主要貢獻如下: * 首次系統性綜述智能體通信:我們首次提出智能體通信的定義,并按通信對象將其劃分為三個階段:用戶-智能體交互、智能體-智能體通信、智能體-環境通信。該分類覆蓋了智能體通信的完整生命周期,同一階段的通信協議通常具有相似的攻擊面,有助于后續研究更方便地進行分析與評估。 * 深入分析智能體通信發展過程中的安全風險:我們討論了已發現的攻擊方式以及尚未揭示的潛在威脅。分析表明,用戶-智能體交互主要面臨來自惡意或錯誤用戶輸入的威脅,智能體之間的通信則易受到來自其他智能體或中間人的攻擊,而智能體-環境通信則可能被受損的外部工具和資源所影響。 * 詳細探討有針對性的防御對策:我們指出了針對已識別安全風險的可能防護方向。例如,用戶-智能體交互需要有效過濾多模態輸入;智能體-智能體通信需要強大的機制來監控、歸檔、審計并量化協作中行為的責任;智能體-環境通信則應依賴于對外部環境中“中毒”內容的強力檢測機制。 * 最后討論開放問題與未來研究方向:我們不僅指出了急需發展的防護技術,還強調相關法律與監管體系亦需盡快完善。只有技術和法規雙輪驅動,才能切實保障智能體通信在現實中的安全性。

文章結構

如圖2所示,本文的組織結構如下:第二節對比相關綜述,突出本文的創新點;第三節介紹研究所需的基礎知識;第四節提出智能體通信的定義與分類;第五至第七節依次介紹用戶-智能體交互、智能體-智能體通信、智能體-環境通信中的協議、安全風險及防御對策;第八節討論該領域的開放問題與未來研究方向;第九節為本文的總結。

付費5元查看完整內容

相關內容

大語言模型是基于海量文本數據訓練的深度學習模型。它不僅能夠生成自然語言文本,還能夠深入理解文本含義,處理各種自然語言任務,如文本摘要、問答、翻譯等。2023年,大語言模型及其在人工智能領域的應用已成為全球科技研究的熱點,其在規模上的增長尤為引人注目,參數量已從最初的十幾億躍升到如今的一萬億。參數量的提升使得模型能夠更加精細地捕捉人類語言微妙之處,更加深入地理解人類語言的復雜性。在過去的一年里,大語言模型在吸納新知識、分解復雜任務以及圖文對齊等多方面都有顯著提升。隨著技術的不斷成熟,它將不斷拓展其應用范圍,為人類提供更加智能化和個性化的服務,進一步改善人們的生活和生產方式。

摘要——大型語言模型(LLMs)的最新進展正在推動自主智能體的發展,這些智能體具備在動態、開放式環境中感知、推理和行動的能力。與傳統靜態推理系統相比,這類基于大模型的智能體標志著一種范式的轉變,即朝向具備交互性和記憶增強能力的實體。盡管這種能力大幅拓展了人工智能的功能邊界,但也引入了新的、質變級的安全風險,例如記憶投毒、工具濫用、獎勵操控(reward hacking)以及由價值錯位導致的涌現性失配等問題,這些風險超出了傳統系統或獨立LLM的威脅模型范圍。

本綜述首先分析了推動智能體自主性不斷增強的結構基礎與關鍵能力,包括長期記憶保持、模塊化工具使用、遞歸規劃以及反思式推理。隨后,我們從智能體架構全棧角度出發,系統分析了相應的安全漏洞,識別出諸如延遲決策風險、不可逆工具鏈以及由內部狀態漂移或價值錯位引發的欺騙性行為等失敗模式。這些風險可歸因于感知、認知、記憶與行動模塊間在結構上的脆弱性。

為應對上述挑戰,我們系統梳理了近年來針對不同自主性層級提出的防御策略,包括輸入凈化、記憶生命周期控制、受限決策制定、結構化工具調用以及內省式反思機制。盡管這些方法在一定程度上可緩解風險,但大多是孤立實施,缺乏對跨模塊、跨時間維度涌現性威脅的系統性響應能力。 鑒于此,我們提出了反思性風險感知智能體架構(Reflective Risk-Aware Agent Architecture, R2A2),這一統一的認知框架基于受限馬爾可夫決策過程(Constrained Markov Decision Processes, CMDPs),融合了風險感知世界建模、元策略適應以及獎勵–風險聯合優化機制,旨在在智能體決策循環中實現系統化、前瞻性安全保障。本綜述系統闡釋了智能體自主性如何重塑智能系統的安全格局,并為下一代AI智能體中將安全性作為核心設計原則提供了理論藍圖。 關鍵詞:自主智能體、大語言模型、AI安全、智能體安全、工具濫用、記憶投毒、對齊性、反思架構!

引言

人工智能的最新進展催生了一類基于大規模模型的自主智能體系統 [1][2]。與傳統AI系統針對輸入只輸出一次性預測或決策不同,這些大型模型智能體(通常由最先進的大語言模型,LLMs,驅動)[3]–[7]能夠持續與環境交互:它們可以感知來自用戶或其他來源的輸入,推理下一步行動,并通過各種工具或執行器執行操作,形成一個閉環反饋過程 [8]。早期的原型系統(如具備工具訪問能力的交互式聊天機器人)已展示出這樣的能力:一個具備記憶機制 [9] 和指令執行能力的LLM,可以在無需人類持續監督的情況下完成多步任務 [6][7][10]。這標志著AI范式的一次重大轉變——從靜態模型向主動、具身(situated)的智能體演化,在網絡空間中模糊了“軟件”與“機器人”的界限 [11]。這一轉變在安全性方面帶來了深遠的影響,因為智能體的自主性與廣泛能力既創造了新機遇,也引入了前所未有的風險。 在每一個循環中,智能體接收輸入(用戶查詢或環境反饋),并將其傳遞給LLM,后者再生成一個行動或決策。該行動可能涉及調用工具(如查詢數據庫或執行代碼),工具的輸出隨后被反饋給智能體作為新的信息 [6][7][10][12]。這種“感知–行動”循環賦予智能體自主運行能力:它可以基于中間結果調整計劃、通過多步操作追求目標,甚至用新數據更新內部記憶。簡言之,大模型智能體將靜態AI模型轉變為能夠持續學習并影響其環境的自適應決策者。 從靜態模型到基于LLM的自主智能體的范式轉變,可以被視為從單輪智能躍遷至持續智能(見圖1)。傳統AI系統(如早期專家系統或規則驅動的機器人)依賴預定義規則或狹窄模型,難以泛化到預設范圍之外 [13][14]。而基于LLM的智能體繼承了底層模型的開放式問題解決能力,擁有更廣闊的行動空間。它可以在運行時閱讀文檔或動態上下文,并即興學會使用新工具 [15]。這種靈活性激發了廣泛的期待:這類智能體有望在社會中扮演通用助手的角色,解決各種復雜任務。目前,LLM智能體已在軟件編程、網頁自動化、個人助理、甚至機器人控制等領域獲得應用,標志著通用人工智能邁出了關鍵一步 [16]。 在人類獲得對其他物種主導地位的根本原因,并非力量或速度,而是智能。如果AI發展繼續當前的趨勢,其系統最終可能在幾乎所有領域超越人類的推理能力 [17]。Bengio等人警告稱,AI發展的速度已超越安全研究的進展,并呼吁從多維度展開主動風險管理 [18]。這種“超智能體”將具備發明新工具與策略以控制環境的能力 [19]。但與人類不同,它們并不繼承我們的進化本能或動機——然而,大多數目標(即使是良性的)在資源增加的前提下往往更易實現 [20]。這種默認激勵結構可能使其目標與人類利益發生沖突,甚至導致欺騙性、操控性或抵抗干預的行為 [17]。 為應對這一風險,Bengio等人提出了一種新的范式:“科學型AI”(Scientific AI)[21],強調“理解先于行動”。科學型AI并不通過無約束行為直接優化目標,而是優先構建準確、可解釋的世界模型,生成因果假設,并在不確定性下進行推理。該方法鼓勵智能體進行自省、模塊化推理和可驗證性,從而降低目標錯配帶來的風險 [22]。因此,我們必須謹慎確保智能體是“對齊的”(aligned),即它們能夠可靠地追求有益目標、配合人類監督 [23],并能容忍設計上的不完美。這些根本性挑戰——目標對齊、價值函數的正式定義、以及可糾正性——構成了長期AI安全研究的核心問題 [24]。 大型語言模型(LLMs)的近期突破 [25] 進一步推動了一代全新自主智能體的誕生:它們具備長期規劃、持久記憶和外部工具調用能力。盡管這些能力在各領域具有變革潛力,但其高度自主性也帶來了根本性的安全挑戰。不同于僅生成文本的靜態LLM,自主智能體能夠執行真實世界中具有后果的行為——例如執行代碼、修改數據庫或調用API——從而放大了系統故障與對抗性攻擊的風險。如表1所示,這些威脅正源自于賦予智能體強大能力的核心特性:多步推理、動態工具使用和面向環境的適應性擴展了在多個系統層級上的攻擊面 [26]–[35]。底層LLM仍易受到對抗性提示與幻覺的影響 [36];記憶系統可能被投毒、操控或外泄;工具接口可能成為執行不安全行為的通道;規劃模塊可能生成脆弱的行動序列或追求錯配目標。更嚴重的是,這些風險因智能體運行在開放、不可預測的環境中(如不可信網頁內容或用戶輸入)而被進一步放大,這些環境挑戰了傳統的安全假設 [37]–[39]。 為系統性理解自主性增強如何帶來安全風險的升級,我們在表1中總結并對比了三類AI系統的關鍵區別:傳統AI、獨立LLM,以及基于LLM的自主智能體。比較涵蓋六個關鍵安全維度:自主性水平、學習動態、目標形成、外部影響、資源訪問能力與對齊可預測性。傳統AI系統通常運行在封閉、沙盒環境中,安全風險較低;獨立LLM引入了靈活的自然語言接口,但也因此容易受到提示注入攻擊 [40];LLM智能體則更進一步:它們擁有記憶、可調用工具,并執行長期決策,使其面臨工具濫用 [41][47]、記憶投毒 [42]、涌現性欺騙 [45]、不安全目標重構 [44] 等新型攻擊路徑。為補充此類能力與風險等級的演進,我們在表中增加了“代表性威脅與實例”列,列舉了近年來文獻中發現的真實世界漏洞和失敗模式。例如,盡管獨立LLM缺乏持久狀態,但具備記憶與規劃能力的自主智能體已被觀察到會產生欺騙行為 [43]、濫用委派工具 [46],或由于遞歸推理缺陷生成不安全的行動鏈。這一結構化升級表構成了后續章節分析智能體架構漏洞與防御策略的基本視角。

付費5元查看完整內容

摘要—多傳感器融合感知(Multi-sensor Fusion Perception, MSFP)是具身智能中的一項關鍵技術,能夠服務于多種下游任務(如三維目標檢測與語義分割)和應用場景(如自動駕駛與群體機器人)。近年來,基于人工智能的 MSFP 方法取得了顯著進展,并已在相關綜述中有所回顧。然而,通過嚴謹而細致的調研,我們發現現有綜述仍存在一些局限性。一方面,大多數綜述面向的是單一任務或研究領域,例如三維目標檢測或自動駕駛,因此難以為其他相關任務的研究者提供直接參考。另一方面,大多數綜述僅從多模態融合的單一視角介紹 MSFP,缺乏對 MSFP 方法多樣性的系統考量,例如多視角融合和時序融合等。 為此,本文嘗試從任務無關的視角系統梳理 MSFP 研究工作,從多個技術維度出發介紹相關方法。具體而言,我們首先介紹 MSFP 的背景知識,接著回顧多模態融合與多智能體融合方法,進一步分析時序融合技術。在大語言模型(LLM)時代背景下,我們也探討了多模態 LLM 融合方法。最后,本文總結了 MSFP 面臨的挑戰與未來發展方向。我們希望該綜述能幫助研究者理解 MSFP 的重要進展,并為未來研究提供有價值的參考。 關鍵詞—多傳感器融合感知,具身智能,多模態,多視角,時序,多模態大語言模型(MM-LLM)

I. 引言

近年來,得益于深度學習與大語言模型(Large Language Model, LLM)的快速發展,人工智能(Artificial Intelligence, AI)在多個領域取得了顯著進展 [1]–[3]。作為 AI 的重要研究方向之一,具身智能(Embodied AI)指的是以物理實體為載體,通過在動態環境中的實時感知實現自主決策與行動能力的一種智能形式。具身智能具有廣泛的應用場景,例如自動駕駛和群體機器人智能 [4], [5],近年來已成為 AI 社區的一個研究熱點,同時也被認為是突破當前 AI 發展瓶頸、實現通用人工智能(Artificial General Intelligence, AGI)的關鍵路徑。 在具身智能系統的構建過程中,傳感器數據理解是連接物理世界與數字智能的核心環節。不同于以視覺為主的傳統感知模式,具身智能體(Embodied Agent)需融合多模態傳感器數據,以實現對環境的全景式感知。這些傳感器包括視覺攝像頭、毫米波雷達、激光雷達(LiDAR)、紅外攝像頭和慣性測量單元(IMU)等。多傳感器融合感知(Multi-sensor Fusion Perception, MSFP)對于實現具身智能的魯棒感知與精準決策能力至關重要。例如,視覺攝像頭容易受到光照變化的干擾,而激光雷達在雨霧天氣下的性能也會顯著衰減。 如圖 1 所示,當前面向具身智能的多傳感器融合感知研究主要基于“智能體—傳感器—數據—模型—任務”的基本范式。現有 MSFP 方法在自動駕駛、工業機器人等領域已取得令人矚目的成果,但其在具身智能場景中的應用仍面臨一些固有挑戰。具體而言,首先,跨模態數據的異質性導致難以統一特征空間;其次,不同傳感器之間的時空異步可能造成融合誤差;此外,傳感器故障(如鏡頭污損或信號遮擋)可能導致多模態信息的動態丟失。 圍繞上述問題,如表 1 所示,近年來已有一些綜述工作系統地總結了相關方法 [6]–[14]。盡管這些研究做出了寶貴貢獻,我們在深入調研后仍發現當前綜述存在一些不足。一方面,大多數綜述聚焦于單一任務或研究領域,如三維目標檢測或自動駕駛,使得其他相關任務的研究者難以從中受益。另一方面,大多數綜述僅從多模態融合的單一視角出發,缺乏對 MSFP 方法多樣性的系統探討,例如多智能體融合時序融合等方向的覆蓋不足。

為此,本文旨在從任務無關的視角對 MSFP 研究進行系統梳理,從多個技術維度純粹地組織與呈現現有方法。具體而言,我們首先介紹 MSFP 的背景,包括不同的感知任務、傳感器數據、主流數據集以及評估指標;隨后,綜述多模態融合方法,涵蓋點級、體素級、區域級以及多層級融合策略;沿此思路,我們進一步分析關注多智能體與基礎設施協同感知的多智能體融合方法;在此基礎上,我們探討將多個時間幀傳感器數據進行聯合建模的時序融合方法;在大模型時代背景下,我們還系統調研了當前基于視覺-語言與視覺-LiDAR 融合的多模態大語言模型(MM-LLM)方法,這一方向在現有綜述中鮮有涉及。最后,我們從數據層、模型層與應用層三個維度,全面討論 MSFP 面臨的挑戰與未來發展機遇。 我們希望本文能幫助研究者全面理解過去十年 MSFP 的關鍵進展,并為未來研究提供有價值的啟發與參考。 **本文其余結構如下:**第二節從不同的傳感器數據、可用數據集和典型感知任務角度介紹 MSFP 的背景;第三節從點級、體素級、區域級和多層級等不同粒度介紹多模態融合方法;第四節總結多智能體協同感知方法;第五節回顧 MSFP 中的時序融合方法;第六節調研當前基于 MM-LLM 的融合方法;第七節探討 MSFP 領域尚未解決的挑戰與未來發展方向;最后在第八節總結全文內容。

付費5元查看完整內容

摘要——AI 智能體正在經歷一場范式轉變:從早期由強化學習(Reinforcement Learning, RL)主導,到近年來由大語言模型(Large Language Models, LLMs)驅動的智能體興起,如今正進一步邁向 RL 與 LLM 能力融合的協同演進。這一演進過程不斷增強了智能體的能力。然而,盡管取得了顯著進展,要完成復雜的現實世界任務,智能體仍需具備有效的規劃與執行能力、可靠的記憶機制,以及與其他智能體的流暢協作能力。實現這些能力的過程中,智能體必須應對始終存在的信息復雜性、操作復雜性與交互復雜性。針對這一挑戰,數據結構化有望發揮關鍵作用,通過將復雜且無序的數據轉化為結構良好的形式,從而使智能體能夠更有效地理解與處理。在這一背景下,圖(Graph)因其在組織、管理和利用復雜數據關系方面的天然優勢,成為支撐高級智能體能力所需結構化過程的一種強大數據范式。

為此,本文首次系統性地回顧了圖如何賦能 AI 智能體。具體而言,我們探討了圖技術與智能體核心功能的融合方式,重點介紹了典型應用場景,并展望了未來的研究方向。通過對這一新興交叉領域的全面綜述,我們希望激發下一代智能體系統的研究與發展,使其具備利用圖結構應對日益復雜挑戰的能力。相關資源可在附帶的 Github 鏈接中獲取,并將持續更新以服務社區。

關鍵詞:圖、圖學習、智能體、大語言模型、強化學習、綜述

一、引言

在人工智能(AI)快速演進的浪潮中,AI 智能體因其在任務自動化處理方面的巨大潛力而受到廣泛關注。智能體的發展歷程經歷了從早期基于強化學習(Reinforcement Learning, RL)的架構 [1], [2],到近年來由大語言模型(Large Language Models, LLMs)驅動的智能體 [3], [4],再到最新融合 LLM 作為知識基礎與 RL 作為任務特定學習范式的緊耦合架構 [5],標志著智能體能力的一次重大飛躍。這一演進使得智能體能夠利用 LLM 所蘊含的廣泛世界知識理解復雜任務,并通過 RL 優化實現對任務的精準處理。 執行復雜現實任務的 AI 智能體往往需要具備多樣化的能力 [6], [7]。高效的任務導航依賴于諸多智能體功能,例如精細化的規劃能力、結合外部工具的精確執行能力、可靠的記憶機制,以及與其他智能體的高效協同能力 [8], [9]。然而,由于任務復雜性的存在,智能體在這些功能中常常面臨信息、操作符以及交互的錯綜復雜與混亂無序。因此,亟需一種有效方式來組織和管理所遇數據,以便智能體能夠更好地理解和高效處理,從而提升其應對復雜任務的能力。例如,在規劃階段,智能體需要解析非結構化的任務描述并將其重組為可執行的子任務計劃;在執行過程中,需合理編排多種外部工具以兼顧效率與準確性;在記憶管理中,需有序整理龐大的內容以便有用信息得以保留并可快速檢索;而在多智能體協作中,則需確定合適的協同拓撲結構,以實現有效的信息傳遞。在面對非結構化數據時,傳統智能體通常只能在學習過程中隱式捕捉其中潛在的關聯。基于數據中固有的有益關系,采用圖為基礎的顯式建模結構化方法成為應對這一挑戰的有前景途徑,能夠將原始而復雜的輸入轉化為簡潔有序的形式,從而提升智能體的理解力與處理效率。這類結構化信息有助于智能體探索復雜任務并做出更具信息性的決策。 圖在各類領域中已展現出廣泛的適用性 [10]–[12],并被證明是管理數據、組織含有有價值關系信息的一種強大范式。在構建好的圖基礎上,圖學習(Graph Learning)進一步通過對結構化信息的學習展現出顯著成效 [13], [14]。具體而言,圖通過將實體表示為節點、顯式或隱式關系建模為邊,提供了一種有效的數據組織方式。一個合適的圖結構是實現智能體數據組織的關鍵。圖結構的構建具有高度靈活性,可根據特定環境、任務、操作符與應用需求自定義圖結構 [15]–[17],也可以利用現有的外部知識圖譜 [18], [19]。這種靈活性使得圖能夠廣泛嵌入于多種智能體及其多樣化功能中。在構建好的圖之上,圖學習技術還可進一步提供一個強大的知識提取框架,幫助智能體捕捉復雜關系與有意義的信息。這使得圖技術成為增強 AI 智能體在復雜場景下能力的理想手段。因此,圖與智能體的交叉融合有望大幅提升其對結構化信息的處理與利用能力,進而賦能其在規劃、執行、記憶與多智能體協作等方面的關鍵功能。 分類框架:本綜述系統性地探討了圖在信息、操作符與多模型結構化組織中的作用,涵蓋了從基于 RL 的智能體到基于 LLM 的智能體范式。考慮到 RL 技術與 LLM 基礎模型日益緊密的融合,我們在分析中并未刻意區分圖學習在這兩類智能體架構中的作用,而是如圖 1 所示,從智能體核心功能出發,以圖賦能為主線展開討論。我們重點關注圖學習如何增強智能體的四大關鍵功能:規劃、執行、記憶與多智能體協作。此外,本綜述還探討了智能體反過來如何促進圖學習技術的發展。最后,在全面回顧的基礎上,我們梳理了潛在的應用前景與關鍵的未來研究方向。通過綜述該領域的系統洞察,我們旨在推動新一代能夠利用結構化知識應對日益復雜挑戰的 AI 智能體的發展。 在本文所探討的背景下,現有綜述主要集中于圖技術在強化學習中的應用價值 [20], [21]。而隨著 LLM 的快速發展,圖學習也被視為提升其能力的有效技術,已有若干綜述對該方向進行過探討 [22], [23]。然而,盡管已有貢獻,目前仍缺乏一項系統性地闡述圖如何在智能體不同功能中發揮作用的綜述。據我們所知,本文為首個系統性探索圖技術與智能體多維操作交叉點的研究綜述。我們希望通過全面回顧,為構建下一代圖賦能智能體提供有價值的研究參考與啟發。 本文的主要貢獻如下: * 本文首次全面綜述了圖技術與 AI 智能體之間這一強大而充滿潛力的交叉方向; * 我們提出了一種新的分類方法,系統化地梳理了圖在智能體不同核心功能(規劃、執行、記憶與協作)中的作用,并探討了智能體如何反過來推動圖學習的發展; * 基于本綜述,我們進一步分析了圖賦能智能體的應用前景、關鍵挑戰以及未來研究方向。

文章結構如下:第二節介紹與本綜述相關的基礎知識;第三至第七節將根據提出的分類方法,詳述各項相關研究;第八與第九節分別探討圖與智能體交叉領域中的潛在應用與未來機會;第十節對全文進行總結歸納。

本文提出了一種全新的分類方法,用于系統地探討圖技術與 AI 智能體如何實現相互增強,如圖 2 所示。具體而言,在第 III 至第 VI 節中,我們介紹了圖學習如何支持智能體的核心功能,包括規劃(第 III 節)、執行(第 IV 節)、記憶(第 V 節)以及多智能體協作(第 VI 節)。通過將圖與智能體功能之間的協同點加以細分,不僅契合了智能體系統設計中的自然模塊化特征,也凸顯了圖技術在每項功能中所蘊含的獨特潛力。 此外,在第 VII 節中,我們進一步探討了智能體范式如何反過來促進圖學習的發展。通過明確考慮這一反向作用,即基于智能體范式如何反哺圖學習過程,我們強調了雙向創新的重要性,并倡導一種整體視角,即圖與智能體協同演化、深度融合,從而激發出超越單向整合的新方法論。 基于這一結構清晰的分類框架,我們將在第 VIII 與第 IX 節中進一步討論相關應用與未來研究機遇。

付費5元查看完整內容

摘要——隨著生成式人工智能(Generative AI)的快速發展,尤其是大語言模型的不斷突破,推薦系統正朝著更具通用性的方向演進。與傳統方法不同,生成式人工智能不僅能夠從復雜數據中學習模式和表示,還具備內容生成、數據合成和個性化體驗等能力。這種生成能力在推薦系統中發揮著關鍵作用,能夠緩解數據稀疏問題,并提升系統的整體性能。當前,基于生成式 AI 的推薦系統研究已取得了豐富成果。與此同時,推薦系統的目標也已超越單一的準確性要求,催生了大量面向多目標優化的研究,試圖在推薦中綜合考慮多種目標。然而,據我們所知,目前尚缺乏基于生成式 AI 技術的多目標推薦系統的系統性綜述研究,相關文獻仍存在明顯空白。為填補這一研究空缺,本文對融合生成式 AI 的多目標推薦系統研究進行了系統梳理,按照優化目標對現有工作進行分類整理。同時,我們總結了相關的評估指標和常用數據集,并進一步分析了該領域面臨的挑戰與未來發展方向。 關鍵詞——多目標優化,推薦系統,生成式人工智能,大語言模型

1 引言 在大數據時代,推薦系統已成為應對信息過載問題的關鍵工具,幫助用戶高效地發現有價值的內容。它們被廣泛應用于音樂、新聞、職位推薦等多個領域 [1]–[3],通過過濾海量信息流,顯著提升用戶體驗。推薦系統的發展已歷經數十年,從最初的協同過濾方法 [4]–[7] 和內容推薦方法 [8], [9],到后來的混合模型 [10]、基于圖神經網絡的方法 [11],以及深度學習方法 [12], [13],不斷演進以滿足日益增長的個性化和可擴展性需求。

近年來,生成式人工智能(Generative AI)的突破顯著改變了推薦系統的格局。正如文獻 [14] 所指出的,基于生成技術的推薦系統已成為該領域的新興研究方向。生成對抗網絡(GANs)[15]、變分自編碼器(VAEs)[16]、擴散模型 [17] 和大語言模型(LLMs)[18] 等技術,使得推薦系統能夠更豐富地進行數據合成并實現更深層次的上下文理解。其中,大語言模型在處理多模態數據(文本、圖像、視頻)和生成上下文感知的推薦內容方面展現出強大能力,帶來了前所未有的靈活性。與傳統模型依賴歷史數據預測用戶偏好不同,生成模型可以模擬用戶交互、增強稀疏數據集,并生成個性化內容,從而為推薦范式的創新開辟了新路徑。

生成模型在推薦系統領域展現出巨大潛力。目前的研究主要集中在單一目標任務,例如通過合成數據提升準確性,或利用大語言模型增強可解釋性。然而,對準確性的過度關注可能導致“過濾泡沫”(filter bubble)現象 [19],使用戶被限制在重復或同質化的內容中,抑制探索行為并削弱長期參與度。考慮到生成式人工智能在推理和理解方面的先進能力,其在多目標推薦中的應用也極具前景。 研究社區已廣泛探索在傳統推薦系統框架下平衡多種目標的多目標推薦系統(MORS)[20]–[23],但在融合生成式 AI 技術方面,相關研究仍屬稀缺。因此,將多目標優化整合進生成式推薦系統,是一個亟待深入研究的方向。

為填補這一空白,本文系統調研了使用生成技術實現多目標推薦的現有研究。我們特別強調,任何關于推薦系統附加目標(如多樣性、偶然性或公平性)的討論,都隱含地將準確性作為基礎性前提。因此,我們將多目標推薦系統(MORS)定義為:優化準確性之外其他目標的推薦系統。 本綜述識別出當前生成式推薦系統中除準確性外的主要目標包括:多樣性、偶然性、公平性與安全性;此外還涉及新穎性、可控性、效率與魯棒性等附加目標。我們聚焦于推薦系統中廣泛應用的四類生成技術:GANs、擴散模型、VAEs 與大語言模型。針對每一類目標,我們深入回顧了主流的模型架構與評估指標,并總結相關發展挑戰,旨在為未來的多目標生成式推薦研究提供基礎性見解。

本文的主要貢獻如下:

本文為首個將生成式人工智能(包括 GANs、VAEs、擴散模型和大語言模型)與多目標推薦系統(MORS)結合的全面綜述,提出了一個面向目標的分類框架,系統回顧了四類關鍵目標(多樣性、偶然性、公平性、安全性)下模型架構、優化策略和評估指標的發展與局限性。 * 我們系統總結了不同目標領域(如公平性與偶然性)下的專用評估指標對應基準數據集,為實驗設計提供標準化參考。 * 我們還討論了生成式 MORS 研究中的核心挑戰,并展望了未來的發展方向,包括改進評估指標、設計適用于 LLM 的高級策略、融合多種生成技術以提升推薦質量等。此外,我們強調跨學科合作(如倫理學、社會學)的重要性,以構建更加公平透明的推薦系統。這些見解為學術界與工業界的進一步探索與創新奠定了基礎。

文章結構概覽:

第 2 節綜述推薦系統、生成式推薦系統和多目標推薦系統的相關文獻,構建研究背景。 第 3 節介紹本文涵蓋的四類主要生成技術。 第 4 節作為核心部分,系統梳理基于生成技術的多目標推薦系統,按超越準確性的目標進行分類,介紹相關定義、模型與評估指標。 第 5 節總結各類目標下常用的推薦數據集。 第 6 節探討每類關鍵目標面臨的主要挑戰。 最后在第 7 節對全文進行總結。

付費5元查看完整內容

摘要——視覺語言建模(Vision-Language Modeling, VLM)旨在彌合圖像與自然語言之間的信息鴻溝。在先進行大規模圖文對預訓練、再在任務數據上進行微調的全新范式下,遙感領域中的VLM取得了顯著進展。所產生的模型得益于廣泛通用知識的融入,在多種遙感數據分析任務中展現出強大的性能。此外,這些模型還具備與用戶進行對話式交互的能力。

本文旨在為遙感領域的研究者提供一份及時且全面的綜述,系統回顧基于該兩階段范式的VLM研究進展。具體而言,我們首先對遙感中的VLM進行分類梳理,包括對比學習、視覺指令微調以及文本條件圖像生成。針對每一類方法,我們詳細介紹了常用的網絡結構與預訓練目標。 其次,我們對現有研究進行深入評述,涵蓋對比學習類VLM中的基礎模型與任務適配方法,指令微調類VLM中的架構改進、訓練策略與模型能力,以及生成式基礎模型及其代表性的下游應用。 第三,我們總結了用于VLM預訓練、微調與評估的數據集,分析其構建方法(包括圖像來源與描述生成方式)與關鍵屬性,如數據規模與任務適應性。 最后,本文對未來研究方向提出若干思考與展望,包括跨模態表示對齊、模糊需求理解、基于解釋的模型可靠性、持續擴展的模型能力,以及具備更豐富模態與更大挑戰的大規模數據集。 關鍵詞——遙感,視覺語言建模,對比學習,視覺指令微調,擴散模型

一、引言

遙感中的視覺語言建模(Vision-Language Modeling, VLM)旨在彌合遙感圖像與自然語言之間的信息鴻溝,促進對遙感場景語義(如地物屬性及其關系)的深入理解,并實現與智能遙感數據分析模型或方法的更自然交互方式 [17],[164]。自從遙感領域引入圖像描述 [62]、視覺問答 [54]、文本-圖像(或圖像-文本)檢索 [166] 以及基于文本的圖像生成 [165] 等任務以來,受益于深度學習的發展,VLM在遙感領域取得了顯著成果。 早期的VLM研究主要強調模型結構的精心設計,并通過從零開始在小規模數據集上進行監督訓練。例如,在圖像描述任務中,許多研究 [167]–[170] 試圖將卷積神經網絡(如VGG [171]和ResNet [172])與序列模型(如LSTM [173]和Transformer [174])有效結合,并在UCM-captions [62]與Sydney-captions [62]等數據集上進行訓練。在這一經典的構建范式下,深度模型通常在測試集上表現良好,但在大規模部署中效果欠佳。此外,盡管這些模型能夠描述圖像內容,但在處理圖像相關問答等任務時能力不足,限制了其在多樣化場景中的應用。 近年來,預訓練-微調的新范式為上述挑戰提供了有前景的解決方案。其核心思想是,首先在大規模圖文數據上進行預訓練,使模型能夠學習涵蓋廣泛視覺與文本概念及其對應關系的通用知識,然后在特定任務數據上進行微調。已有研究表明,通用知識的融入不僅提升了模型在單一任務中的泛化能力 [7],[8],還增強了模型在多種下游任務中的適應性與多樣性 [1],[3]。因此,該新范式下的視覺語言建模已成為遙感領域的研究熱點。迄今為止,相關研究取得了顯著進展,如圖1所示,主要體現在以下幾個方面:

基于對比學習的方法(如GeoRSCLIP [7]、SkyCLIP [8]和RemoteCLIP [2]),在跨模態任務與零樣本圖像理解任務中取得了重要突破;

學習圖文間隱式聯合分布的方法(如RS-SD [7]、DiffusionSat [38]和CRSDiff [39]),支持通過文本提示生成圖像;

視覺指令微調方法(如GeoChat [3]、LHRSBot [9]和SkySenseGPT [11]),在遙感數據分析中表現出更強的性能、多樣化的能力與對話交互能力。

盡管已有諸多成果,但VLM仍被公認為一個尚未完全解決的研究難題。目前的模型仍無法達到遙感專家在遙感數據處理方面的水平。為推動該領域進一步發展,已有若干綜述論文試圖系統梳理遙感中的視覺語言建模。例如,Li等人 [17] 從應用視角出發總結了相關模型,并提出潛在研究方向,但其主要聚焦于視覺基礎模型和早期工作;Zhou等人 [16] 則回顧了近期研究進展,但缺乏對關鍵設計的深入剖析,而這些設計對于未來研究的啟發具有重要意義。此外,作為VLM研究的前提條件,相關數據集在現有綜述中也未受到充分關注。 因此,本文旨在針對遙感領域中的預訓練-微調范式,提供一份及時且全面的文獻綜述,重點包括:

對遙感VLM方法的分類,詳細介紹各類方法中常用的網絡結構與預訓練目標;

對基于對比、指令與生成三類VLM方法的最新進展進行總結,重點分析其關鍵設計與下游應用;

對用于預訓練、微調與評估的數據集進行梳理,分析其構建方法與關鍵特性;

討論當前挑戰與未來可能的研究方向。

圖2展示了本文的整體框架。

付費5元查看完整內容

摘 要:盡管深度學習在處理非線性高維問題時表現出強大的能力,但在復雜科學與工程問題中仍面臨諸多挑戰, 如高昂的計算成本、大量的數據需求、難以解釋的黑盒特性,缺乏對物理規律的建模能力等。為此,近年來涌現了一 種新的框架——物理引導深度學習,通過將領域內的物理知識融入深度學習模型的構建和訓練過程中,旨在增強模 型的性能、可解釋性及其物理一致性。對國內外關于物理引導深度學習的相關工作進行了全面梳理與分析。介紹 了物理引導深度學習框架的主要動機與理論基礎。對物理信息組合與物理信息融合兩種模式進行了詳細討論,總 結了各方法的特點、局限性與應用場景。分析了物理引導深度學習在多個領域應用中的表現,并從計算復雜性與優 化收斂問題、控制方程偏離問題、觀測數據依賴問題與知識融合困難問題四個方面探討了該框架目前面臨的挑戰, 并基于此展望該領域未來的發展方向,以期為研究者提供借鑒思路及多維度視角。 關鍵詞:科學范式;物理引導;深度學習;模型融合;控制方程

付費5元查看完整內容

摘要——基礎模型的快速發展——在多樣化、廣泛的數據集上訓練的大規模神經網絡——已經徹底改變了人工智能,推動了自然語言處理、計算機視覺和科學發現等領域的前所未有的進展。然而,這些模型龐大的參數量,往往達到數十億甚至數萬億,給將其適應于特定下游任務帶來了顯著挑戰。低秩適應(LoRA)作為一種非常有前景的方法,已成為緩解這些挑戰的有效手段,提供了一種參數高效的機制,能夠以最小的計算開銷微調基礎模型。本綜述首次全面回顧了低秩適應技術,除了對大規模語言模型的研究,還包括了其在基礎模型中的應用,涵蓋了低秩適應在多個領域的技術基礎、前沿進展及應用。最后,本文討論了理論理解、可擴展性和魯棒性等方面的關鍵挑戰及未來研究方向。本綜述為從事高效基礎模型適應研究和實踐的學者與從業者提供了寶貴的資源。

關鍵詞——基礎模型、大規模語言模型、低秩適應、參數高效微調、多任務學習

1 引言基礎模型代表了人工智能中的一種范式轉變,其中在廣泛和多樣化的數據集上預訓練的大規模神經網絡架構,建立了可泛化的表示框架,可以適應廣泛的下游應用[1],[2]。這些模型跨越多個領域,包括自然語言處理(如 GPT-3.5 [3]、LLaMA [4])、計算機視覺(如 Swin Transformer [5]、MAE [6]、SAM [7])、語音處理(如 Wav2vec2 [8]、Whisper [9])、多模態學習(如 Stable Diffusion [10]、DALL·E 2 [11])和科學應用(如 AlphaFold [12]、ChemBERTa [13]、ESM-2 [14])。基礎模型的特點是其前所未有的規模,參數數量達到數十億甚至數萬億,并且表現出涌現性質——即在沒有明確訓練的情況下自發產生的能力[1]。這些架構已成為現代人工智能系統的基礎構件,推動了多個領域的突破性進展[1],[2]。盡管這些模型展現了廣泛的能力,但通過微調進行任務特定優化仍然是提升模型泛化能力[15]、促進算法公平性[16]、實現定制化[17]以及符合倫理和社會標準[18],[19]的必要手段。然而,它們的規模帶來了顯著的計算挑戰,特別是在訓練和微調所需的計算資源方面[20]。盡管傳統的微調方法(涉及對全部參數進行更新)在各種任務中已證明有效[21],[22],但其計算需求通常使得在基礎模型中應用變得不切實際[23],[24]。因此,參數高效微調(PEFT)方法應運而生,作為應對這些計算挑戰的解決方案[17],[24],[25],[26],[27],[28]。這些方法通過最小化可訓練參數的數量,使得模型適應能夠顯著降低計算需求,而不會影響任務性能。在這些方法中,低秩適應(LoRA)[17]及其變種因其簡便性、實證效果以及在各種模型架構和領域中的廣泛適用性而受到廣泛關注,如圖1所示。LoRA基于兩個關鍵見解:在微調過程中,權重更新通常位于低維子空間中[29],[30],并且任務特定的適應可以通過低秩矩陣有效捕捉[17]。通過在凍結原始模型參數的同時優化這些低秩矩陣,LoRA實現了高效的適應,并能夠在不增加推理延遲的情況下組合多個任務特定的適應[17],[31]。貢獻。本綜述提供了迄今為止,超越大規模語言模型(LLMs)領域[32],針對LoRA技術的首個全面回顧,擴展分析至基礎模型的更廣泛領域。我們的主要貢獻包括: 1. 技術基礎的系統分析:我們提供了對LoRA近期技術進展的結構化分析,包括參數高效策略、秩適應機制、訓練過程改進以及新興的理論視角。 1. 新興前沿的廣泛調查:我們探討了新興的研究前沿,包括融合多個LoRA組成部分和專家混合方法的先進架構,以及持續學習、遺忘、聯邦學習、長序列建模和高效服務基礎設施的方法。 1. 應用的綜合回顧:我們呈現了在多個領域的實際應用綜述,包括自然語言處理、計算機視覺、語音識別、科學發現,以及在代碼工程、推薦系統、圖學習和時空預測等專門應用中的使用。 本綜述通過圖3組織了現有的LoRA研究,識別了第六節中的關鍵挑戰和未來研究方向,為該領域的研究人員和從業者提供了寶貴的資源。

2 基礎知識LoRA [17] 是參數高效微調(PEFT)領域的重要進展。盡管最初是為大規模語言模型(LLMs)開發的,但后續研究已證明它在各種基礎模型中都表現出色。LoRA的數學公式核心思想是在微調過程中將更新矩陣 ?W 限制為低秩,如圖2所示,這一過程通過矩陣分解實現:

參數初始化策略

LoRA采用特定的初始化策略以確保訓練的穩定性和高效性。矩陣A通常使用從隨機高斯分布中抽取的值進行初始化,而矩陣B則初始化為零,這確保在訓練開始時,?W = BA 實際上是一個零矩陣。微調過程

在LoRA中,微調過程遵循以下關鍵原則: * 原始預訓練權重 W? 被保持凍結,在訓練過程中不接受梯度更新。 * 低秩矩陣 A 和 B 是唯一可訓練的參數,用于捕捉任務特定的調整。 * W? 和 ?W 分別作用于輸入向量 x,并將它們的輸出結合起來。 * 輸出 ?W x 被 α/r 縮放。 * 最終輸出向量逐元素相加:

其中 α/r 是一個縮放因子,用于控制低秩更新的幅度。在使用 Adam [33] 優化時,調節縮放因子 α 大致相當于調整學習率 [17],前提是初始化時進行適當的縮放。在實際操作中,α 的值可以根據秩 r 設置,從而消除廣泛的超參數調優需求。LoRA 相比全量微調的優勢

LoRA 在應用于大規模基礎模型時,相比全量微調提供了幾個關鍵優勢: 1. 參數效率:LoRA 通過低秩分解引入了最小的一組可訓練參數,通常將任務特定的參數數量降低幾個數量級。這種方法在資源受限的環境和多任務場景中尤為有利,其中需要對基礎模型進行多次適配。 1. 增強的訓練效率:與更新所有模型參數的傳統全量微調不同,LoRA 僅優化低秩適應矩陣。這大大減少了計算成本和內存需求,尤其是在具有數十億參數的模型中。減少的參數空間通常會導致訓練過程中的更快收斂。 1. 無延遲推理:LoRA 不會引入額外的推理延遲,因為更新矩陣 ?W 可以顯式地與原始凍結權重 W 結合使用。這種集成確保了適應后的模型在部署和推理時保持高效。 1. 靈活的模塊化適應:LoRA 使得創建輕量級的、任務特定的適配器成為可能,這些適配器可以在不修改基礎模型架構的情況下進行互換。這種模塊化有助于高效的多任務學習和任務切換,同時相比為每個任務維護獨立的模型實例,顯著減少了存儲需求。 1. 強大的知識保留能力:通過保留預訓練權重,LoRA 有效地緩解了災難性遺忘問題,這是傳統微調中常見的挑戰。這種方法在獲取任務特定能力的同時,保持了模型的基礎知識。 1. 多樣的部署方式:LoRA 適應的緊湊性有助于高效的部署和系統集成。多個適應器可以方便地組合或在不同任務或領域之間切換,與傳統微調方法相比,提供了更大的靈活性。

3 基礎在本節中,我們將從四個關鍵維度探討LoRA的基本技術方面:參數效率提升、秩適應策略、訓練過程改進和理論基礎。這些組件構成了LoRA有效性的技術基礎。3.1 參數效率提升盡管通過LoRA及其投影矩陣 A(project-down)和 B(project-up)實現了參數效率的提升,但該方法仍然需要大量的可訓練參數。例如,將LoRA應用于LLaMA-2-70B模型 [4] 時,需要更新超過1600萬個參數 [34],這一數字超過了一些BERT架構的總參數數量 [35]。當前的研究通過四種主要方法來應對這一挑戰:參數分解、剪枝、凍結與共享以及量化。圖4展示了這些技術的示例。

3.2 秩適應秩是LoRA中的一個關鍵參數,直接影響模型的適應性和可訓練參數的數量。原始的LoRA方法在所有層中使用固定的低秩,這對于不同的下游任務和模型架構可能并非最優。為了解決這些局限性,近期的研究提出了多種優化LoRA中秩分配的方法,這些方法可以大致分為兩個主要方面:秩細化和秩增強。圖5展示了這兩種方法的示意圖。

3.3 訓練過程改進盡管LoRA在參數高效微調方面已經取得了顯著成功,但優化其訓練動態仍然是最大化適應性能的關鍵。在本節中,我們將討論旨在改進訓練過程的最新進展,特別是學習率、丟棄策略和縮放因子。 4 前沿發展在上述技術基礎的基礎上,本節探討了擴展LoRA能力的新方向的前沿發展。這些前沿發展利用并結合LoRA的基本原理,以實現新的功能、處理更復雜的任務,并解決模型適應中的挑戰。4.1 高級架構盡管原始的LoRA方法顯著提高了微調的效率,并且展示了與全量微調相當的性能,但在靈活性、泛化能力和同時處理多個多樣化任務方面存在局限性。為了解決這些局限性,研究人員開發了先進的LoRA架構,以進一步提高性能、參數效率和泛化能力。4.2 LoRA 在持續學習中的應用LoRA 的參數高效特性使得在新任務上逐步更新模型成為可能,同時可以有效緩解災難性遺忘問題 [98],[99]。使用 LoRA 進行持續學習(CL)有幾個關鍵優勢:(1)與全量微調相比,計算成本降低;(2)自然地將任務特定知識隔離;(3)靈活地組合任務特定的適應。基于 LoRA 的現有持續學習方法大致可以分為三種方法:正則化方法、任務算術方法和集成方法。

4.3 LoRA 在遺忘中的應用

LoRA 使得從基礎模型中有針對性地移除特定知識成為可能,而無需進行大規模的重新訓練。以下是利用 LoRA 實現遺忘的三種主要方法分類:

  1. 模塊化分解方法:通過將模型的適應部分模塊化,實現對特定知識的局部調整或移除,而不影響模型的整體性能。
  2. 基于優化的方法:通過優化特定的參數或子集來刪除或遺忘特定的知識,優化過程通常專注于減少與特定任務相關的影響。
  3. 漸進式遺忘管道:通過逐步更新模型的知識庫,實現在模型訓練過程中逐漸刪除不再需要的知識,同時保證模型的穩定性和性能。

4.4 LoRA 在聯邦學習中的應用在數據隱私問題日益嚴重的時代,聯邦學習(Federated Learning, FL)提供了一種有前景的方式,可以在保護個人數據隱私的同時,利用集體知識。LoRA 與聯邦基礎模型(Federated Foundation Models, FFM)的結合,使得基礎模型在資源受限的設備上變得更加可訪問,尤其是在邊緣計算場景下,有望徹底改變物聯網(IoT)和移動應用領域。

4.5 LoRA 在長序列建模中的應用

處理長序列的能力對于許多由基礎模型處理的任務至關重要【125】【126】【127】。然而,標準的基礎模型通常受到最大上下文長度的限制,這是由于自注意力機制相對于序列長度的二次計算復雜度。為了應對這一局限性,已經提出了幾種基于 LoRA 的方法,用于擴展基礎模型的上下文窗口。

4.6 LoRA服務系統

高效地提供多個LoRA模型的服務同樣至關重要。近期的進展包括改進的GPU內存管理 [129],高效的批處理技術 [130],用于緩解冷啟動延遲的CPU輔助策略 [131],以及針對資源受限的個人設備的適應性方法 [132]。

5 應用

LoRA在微調基礎模型方面的有效性和高效性,促使其在多個領域得到廣泛應用,包括語言處理、計算機視覺、語音識別、多模態、代碼工程、科學發現、推薦系統、圖學習、時空預測等。

6 結論 在本次綜述中,我們對LoRA進行了系統分析,探討了其理論基礎、技術進展以及在適應基礎模型方面的多種應用。LoRA在多個領域的廣泛應用——從自然語言處理和計算機視覺到語音識別和科學計算——突顯了其多功能性和有效性。LoRA能夠在顯著減少計算和存儲需求的同時保持模型性能,這使得它在資源受限的環境和特定領域的適配中尤為寶貴。盡管取得了這些成就,但仍然存在若干關鍵挑戰。LoRA有效性的理論框架需要進一步發展,特別是在理解低秩適配與模型能力之間的相互作用方面。此外,關于可擴展性、魯棒性和在生產環境中安全部署的問題,仍然是當前研究的重要方向。

付費5元查看完整內容

摘要遙感 (RS) 是一種關鍵技術,用于觀測、監測和解讀我們的星球,廣泛應用于地球科學、經濟學、人道主義等領域。雖然人工智能 (AI),特別是深度學習,在遙感領域取得了顯著進展,但開發更智能的遙感系統仍面臨諸多挑戰,包括地球環境的復雜性、多樣的傳感器模式、獨特的特征模式、不同的空間和光譜分辨率以及時間動態等問題。同時,隨著大型基礎模型 (Foundation Models, FMs) 的最新突破,由于其卓越的泛化能力和零樣本遷移能力,AI 在多個領域的潛力得到了擴展。然而,它們的成功主要局限于自然數據,如圖像和視頻,而對于各種非光學模式的遙感數據表現較差,甚至失敗。這激發了開發遙感基礎模型 (RSFMs) 的興趣,以應對覆蓋地表、大氣和海洋等地球觀測 (EO) 任務的復雜需求。本綜述系統性地回顧了新興的 RSFMs 領域。首先,概述了它們的動機和背景,隨后介紹了其基礎概念。接著對現有的 RSFM 研究進行分類和評審,包括它們的數據集及其在視覺基礎模型 (VFMs)、視覺-語言模型 (VLMs)、大型語言模型 (LLMs) 等方面的技術貢獻。此外,我們基于公開數據集對這些模型進行了基準測試,討論了現有的挑戰,并提出了這一快速發展的領域未來的研究方向。

關鍵詞—基礎模型、遙感、地球科學、多模態、視覺識別、視覺-語言模型、大型語言模型、地球觀測、人工智能。

1 引言

深度學習的快速發展為遙感 (RS) 和各種地球觀測 (EO) 應用帶來了顯著進展。然而,當前的大多數模型依賴于明確設計的、任務特定的學習目標。這種方法需要大量的人力進行數據集收集和標注,同時也需要大量的計算資源進行模型訓練和評估。此外,這些模型在不同任務之間的泛化和遷移能力有限,從而限制了 RS 系統的廣泛采用。RS 數據來自多種傳感器和平臺,具有大規模、復雜、動態和異構的特性。如何以協同、穩健和多功能的方式準確智能地解讀 RS 數據,仍是推動 RS 解讀系統進步的一個關鍵但尚未充分探索的挑戰。

隨著深度學習的持續進展,一種革命性趨勢正朝向大型基礎模型 (Foundation Models, FMs) 演進,定義為“任何基于廣泛數據訓練(通常使用大規模自監督學習)并能夠適應多種下游任務的模型(例如,通過微調)”[1]。FMs 包括大型語言模型 (LLMs)視覺基礎模型 (VFMs)視覺-語言模型 (VLMs),在不同任務上展示了顯著的泛化能力和小樣本遷移能力。這一轉變標志著從單一用途模型向通用模型的過渡,以及從監督預訓練向自監督預訓練的過渡,大大減少了訓練資源的需求,同時擴展了模型的應用范圍。

然而,這些進展主要集中在自然數據領域,如圖像和文本,面對分布外領域如 RS 時常面臨重大挑戰。例如,RS 與自然圖像的根本區別——如傳感器模式、捕捉視角、空間分辨率、光譜帶以及時間規律性——阻礙了 FMs 在 RS 應用中的直接應用。盡管存在這些挑戰,FMs 在自然領域的成功為遙感基礎模型 (RSFMs) 的開發提供了有希望的啟示,RSFMs 在利用大規模地理空間數據、建模復雜動態地球表面、提高數據效率、擴展應用范圍、增強任務性能和減少碳足跡方面顯示出巨大潛力。

相比于一般領域的 FMs,開發 RSFM 面臨幾大關鍵挑戰:(1) 自然數據與 RS 數據之間的顯著領域差異;(2) 缺乏用于 RSFM 預訓練的大規模數據集;(3) 缺少適合 RSFMs 的深度架構;(4) 需要應對不同于自然領域通用 FMs 的獨特 RS 應用。為了應對這些挑戰,近年來不斷有努力致力于開發先進的 RSFMs,并在 RS 領域內更好地整合各種 FMs,如圖 1 所示。

盡管取得了快速進展,RSFMs 領域仍然缺乏一篇全面的綜述,提供對這一新興且多方面領域的深入概述。本文旨在彌補這一空白,通過呈現對 RSFMs 最新進展的廣泛調查,涵蓋學習范式、數據集、技術方法、基準測試以及未來研究方向。如圖 2 所示,我們根據模型類型將現有方法分為三大類:用于 RS 的 VFMs、用于 RS 的 VLMs,以及其他 RSFMs,如 LLMs 和生成式 FMs。這些類別將在后續章節中詳細回顧。 本文的主要貢獻有三方面:首先,它對 RSFMs 的最新進展進行了全面系統的回顧。根據我們所知,這是首篇跨越不同類型 FMs 的綜述,涵蓋了這一快速發展的領域。其次,它對各種傳感器模式和任務下應用的 RSFMs 進行了基準測試和深入分析。第三,它確定了多個研究挑戰,并提出了 RSFMs 領域的潛在研究方向。

本綜述的結構如下:第二部分介紹 RSFMs 的背景知識,包括學習范式、常見的 RS 傳感器模式以及相關綜述。第三部分探討了 RSFMs 的基礎,涵蓋了深度網絡架構和典型的 RS 解讀任務。第四、第五和第六部分系統性地回顧了用于 RS 的 VFMs、用于 RS 的 VLMs 及其他類型的 RSFMs 的方法。第七部分總結并比較了現有方法在多個基準數據集上的性能。最后,第八部分提出了 RSFMs 的幾個有前途的未來研究方向。

付費5元查看完整內容

摘要—大型模型智能體(LM agents),由如 GPT-4 和 DALL-E 2 等大型基礎模型驅動,代表了實現人工通用智能(AGI)的重要一步。LM 智能體展示了自主性、具身性和連接性等關鍵特征,使其能夠在物理、虛擬和混合現實環境中無縫與人類、其他智能體及周圍環境互動。本文提供了對 LM 智能體最前沿技術的全面調查,重點討論其架構、合作范式、安全性、隱私和未來前景。具體而言,我們首先探討 LM 智能體的基礎原則,包括一般架構、關鍵組件、使能技術和現代應用。隨后,我們從數據、計算和知識的角度討論 LM 智能體的實際合作范式,以促進其連接智能。此外,我們系統分析了與 LM 智能體相關的安全漏洞和隱私泄露,特別是在多智能體環境中。我們還探討了其底層機制,并回顧現有和潛在的對策。最后,我們概述了構建穩健和安全的 LM 智能體生態系統的未來研究方向。 關鍵詞—大型模型、人工智能智能體、具身智能、多智能體合作、安全、隱私。

I. 引言 A. 大型模型智能體的背景 在1950年代,艾倫·圖靈提出了著名的圖靈測試,以評估機器是否能夠表現出與人類相當的智能,為人工智能(AI)的發展奠定了基礎。這些被稱為“智能體”的人工實體,是AI系統的核心組件。一般來說,AI智能體是能夠理解并響應人類輸入、感知環境、做出決策并在物理、虛擬或混合現實環境中采取行動以實現其目標的自主實體[1]。AI智能體的范圍從遵循預定義規則的簡單機器人到通過經驗學習和適應的復雜自主實體[2]。它們可以是基于軟件的或物理實體,能夠獨立運行或與人類或其他智能體合作。 自20世紀中葉以來,AI智能體的發展取得了顯著進展[3]–[5],如深藍、AlphaGo和AlphaZero,如圖1所示。盡管取得了這些進展,之前的研究主要集中在精細化專業能力上,如符號推理或在特定任務(如圍棋或國際象棋)中表現優異,往往忽視了在AI模型中培養通用能力,如長期規劃、多任務泛化和知識保留。創造能夠靈活適應廣泛任務和復雜環境的AI智能體的挑戰仍然在很大程度上未得到探索。為了進一步推動AI智能體的邊界,開發強大的基礎模型以整合這些關鍵屬性是至關重要的,為下一代AI智能體提供多功能的基礎。 隨著大型模型(LMs)的興起,也稱為大型基礎模型,如OpenAI的GPT-4、Google的PaLM 2和Microsoft的Copilot,LMs為全面增強AI智能體的內在能力開辟了新可能性[6][7]。如圖2所示,一個LM智能體,無論是軟件形式還是具身形式,通常由四個關鍵組件組成:規劃、行動、記憶和互動。這些智能體能夠在物理、虛擬或混合現實環境中無縫操作[1][8]–[10]。特別是,LMs作為AI智能體的“大腦”,賦予它們在人機互動(HMI)、復雜模式識別、知識保留、推理、長期規劃、泛化和適應性方面強大的能力[9]。此外,通過先進的推理和少量/零樣本規劃技術,如思維鏈(CoT)[11]、思維樹(ToT)[12]和反思[13],LM智能體能夠形成復雜的邏輯連接,有效解決復雜的多面任務。例如,AutoGPT[14],一個有前途的LLM智能體原型,可以將復雜任務分解為幾個可管理的子任務,從而促進結構化和高效的問題解決。將LM與檢索增強生成(RAG)技術[15]結合,進一步使智能體能夠訪問外部知識源,并基于檢索的信息提高其響應的準確性。此外,LM智能體可以靈活集成多種LM,包括大型語言模型(LLM)和大型視覺模型(LVM),以實現多方面的能力。 LM智能體被視為實現人工通用智能(AGI)的一重要步驟,并廣泛應用于網絡搜索[16]、推薦系統[17]、虛擬助手[18][19]、元宇宙游戲[20]、機器人技術[21]、自動駕駛汽車[22]和電子設計自動化(EDA)[23]等領域。據MarketsandMarkets[24]報告,2023年全球自主AI和自主智能體市場的估值為480億美元,預計到2028年將以43%的年均增長率增長,達到285億美元。LM智能體引起了全球關注,包括Google、OpenAI、Microsoft、IBM、AWS、Oracle、NVIDIA和百度等領先科技巨頭正在進入LM智能體行業。

B. LM智能體的路線圖和關鍵特征 圖3描繪了LM智能體的未來愿景,其特征為三個關鍵屬性:自主性、具身性和連接性,為實現AGI鋪平道路。

  1. 自主智能。LM智能體的自主智能指的是它們獨立運行的能力,能夠在沒有持續人類輸入的情況下主動做出決策。如圖2(a)所示,LM智能體可以維護一個內部記憶,隨著時間的推移積累知識,以指導未來的決策和行動,使其能夠在動態環境中持續學習和適應[25]。此外,LM智能體可以自主利用各種工具(例如,搜索引擎和外部API)收集信息或創建新工具來處理復雜任務[26]。通過與人類或其他智能體合作或競爭,LM智能體可以有效提升其決策能力[27]。
  2. 具身智能。盡管近年來取得了一些進展,LM通常被動地響應人類在文本、圖像或多模態領域的命令,而不直接與物理世界互動[7]。而具身智能體可以主動感知和作用于其環境,無論是數字、機器人還是物理環境,使用傳感器和執行器[21][25]。向LM賦能的智能體的轉變涉及創建能夠理解、學習和解決現實世界挑戰的具身AI系統。如圖2(b)所示,LM智能體主動與環境互動,并根據實時反饋調整行動。例如,一臺負責清潔的家庭機器人LM智能體可以通過分析房間布局、表面類型和障礙物來生成量身定制的策略,而不僅僅是遵循通用指令。
  3. 連接智能。連接的LM智能體超越了單個智能體的能力,在應對復雜的現實任務中發揮關鍵作用[28]。例如,在自動駕駛中,作為LM智能體的連接自動駕駛汽車共享實時傳感數據,協調運動,并在交叉路口協商通行,以優化交通流量并提高安全性。如圖3所示,通過將眾多LM智能體互聯成“LM智能體互聯網”,連接的LM智能體可以自由分享感知數據和任務導向知識。通過充分利用各種專業LM的計算能力,它促進了合作決策和集體智能。因此,跨數據、計算和知識領域的協作增強了各個智能體的性能和適應性。此外,這些互動使得LM智能體能夠形成社會聯系和屬性,助力智能體社會的發展[29][30]。

C. 保障連接LM智能體的動機 盡管LM智能體的未來光明,但安全和隱私問題仍然是其廣泛采用的重大障礙。在LM智能體的整個生命周期中,可能會出現多種漏洞,從對抗樣本[31]、智能體中毒[32]、LM幻覺[33]到普遍的數據收集和記憶[34]。

  1. 安全漏洞。LM智能體容易出現“幻覺”,即其基礎LM生成似是而非但不符合現實的輸出[33]。在多智能體環境中,幻覺現象可能傳播錯誤信息,損害決策,導致任務失敗,并對物理實體和人類構成風險。此外,維護用于訓練和推理的感知數據和提示的完整性和真實性至關重要,因為偏見或受損的輸入可能導致不準確或不公平的結果[35]。諸如對抗性操控[31]、中毒[36]和后門[37]等攻擊進一步威脅LM智能體,允許惡意行為者操控輸入并欺騙模型。在協作環境中,智能體中毒行為[32],即惡意智能體破壞其他智能體的行為,可能破壞協作系統。此外,將LM智能體集成到網絡物理社會系統(CPSS)中,擴大了攻擊面,使對手能夠利用互聯系統中的漏洞。
  2. 隱私泄露。LM智能體廣泛的數據收集和記憶過程帶來了嚴重的數據泄露和未經授權訪問的風險。這些智能體通常處理大量個人和敏感的商業信息,涉及面向消費者(ToC)和面向企業(ToB)應用,增加了對數據存儲、處理、共享和控制的擔憂[38]。此外,LMs可能無意中記住訓練數據中的敏感細節,可能在互動過程中暴露私人信息[34]。在多智能體合作中,隱私風險進一步加劇,LM智能體在通信和任務執行過程中可能無意中泄露有關用戶、其他智能體或其內部操作的敏感信息。

D. 相關調查與貢獻 近年來,LM智能體在學術界和工業界引起了廣泛關注,導致多角度探索其潛力的各種研究。該領域的一些重要綜述論文如下:Andreas等人[29]提出了AI智能體構建的玩具實驗和關于建模交流意圖、信念和愿望的案例研究。Wang等人[39]識別了基于LLM的自主智能體的關鍵組成部分(即,個人資料、記憶、規劃和行動)以及主觀和客觀評估指標。此外,他們討論了LLM智能體在工程、自然科學和社會科學中的應用。Xi等人[9]提出了一個LLM智能體的一般框架,包括大腦、行動和感知。此外,他們探討了在單智能體、多智能體和人機協作以及智能體社會中的應用。Zhao等人[2]提供了LLM的系統綜述,涵蓋了預訓練、適應調優、利用和能力評估。此外,介紹了背景信息、主流技術和LLM的關鍵應用。Xu等人[40]對移動網絡中的邊緣云AI生成內容(AIGC)服務的關鍵概念、架構和指標進行了教程,并識別了若干用例和實施挑戰。Huang等人[1]提供了虛擬/物理環境中AI智能體的分類,討論了AI智能體的認知方面,并調查了AI智能體在機器人、醫療保健和游戲中的應用。Cheng等人[10]回顧了LLM智能體的關鍵組成部分(包括規劃、記憶、行動、環境和反思)及其潛在應用。還回顧了多智能體系統中的規劃類型、多角色關系和溝通方法。Masterman等人[8]提供了工業項目中單智能體和多智能體架構的概述,并展示了現有研究的見解和局限性。Guo等人[41]討論了基于LLM的多智能體系統的四個組成部分(即接口、建模、通信和能力獲取),并在問題解決和世界模擬方面提出了兩條應用線。Durante等人[42]介紹了多模態LM智能體及其訓練框架,包括學習、行動、認知、記憶、行動和感知。他們還討論了智能體的不同角色(例如,具身、模擬和知識推斷),以及在游戲、機器人、醫療保健、多模態任務和自然語言處理(NLP)等不同應用中的潛力和實驗結果。Hu等人[20]概述了基于LLM的游戲智能體的六個關鍵組成部分(即感知、思維、記憶、學習、行動和角色扮演),并回顧了六種類型游戲中現有的基于LLM的游戲智能體。Xu等人[43]提供了關于游戲中LM智能體的啟用架構和挑戰的全面綜述。Qu等人[44]對將移動邊緣智能(MEI)與LLM整合進行了全面綜述,強調在網絡邊緣部署LLM的關鍵應用以及在邊緣LLM緩存、傳輸、訓練和推理中的最新技術。

  1. 現有的LM智能體調查主要集中在單個LLM智能體和多智能體系統的一般框架設計及其在特定應用中的潛力上。本綜述不同于上述現有調查,重點關注LM智能體的網絡方面,包括一般架構、啟用技術和合作范式,以構建在物理、虛擬或混合現實環境中聯網的LM智能體系統。此外,隨著LM智能體的進展,研究它們在未來AI智能體系統中的安全性和隱私性變得迫在眉睫。本研究全面回顧了LM智能體的安全和隱私問題,并討論了現有和潛在的防御機制,這些內容在現有調查中常被忽視。表I比較了本調查與LM智能體領域先前相關調查的貢獻。
  2. 在本文中,我們系統性地回顧了單個和連接的LM智能體的最新進展,重點關注安全和隱私威脅、現有和潛在的對策以及未來趨勢。我們的調查旨在:1)提供對LM智能體如何工作以及如何在多智能體場景中互動的更廣泛理解;2)審視與LM智能體及其互動相關的安全和隱私挑戰的范圍和影響;3)強調有效的策略和解決方案,以防御這些威脅,保護LM智能體在各種智能應用中的安全。該工作的主要貢獻有四個方面:
  3. 我們全面回顧了LM智能體構建的最新進展,包括一般架構、關鍵組件(即規劃、記憶、行動、互動和安全模塊)以及啟用技術。還討論了LM智能體的工業原型和潛在應用。
  4. 我們系統地對LM智能體的互動模式(即智能體-智能體、智能體-人類和智能體-環境互動)及其互動類型(即合作、部分合作和競爭)進行了分類。我們探討了LM智能體在數據合作、計算合作和知識合作方面的實際合作范式。
  5. 我們全面分析了現有和潛在的安全和隱私威脅、其基本機制、分類及單個和連接的LM智能體面臨的挑戰。我們還回顧了最新的對策,并檢驗其在保護LM智能體方面的可行性。
  6. 最后,我們討論了開放的研究問題,并從能源高效和綠色LM智能體、公平和可解釋的LM智能體、網絡物理社會安全智能體系統、智能體生態系統的價值網絡等角度指出未來的研究方向,旨在提升LM智能體的效率和安全性。

E. 論文組織 本文其余部分組織如下。第二節討論單個LM智能體的工作原理,第三節介紹連接LM智能體的合作范式。第四節和第五節分別介紹LM智能體的安全和隱私威脅的分類,以及最新的對策。第六節概述LM智能體領域的開放研究問題和未來方向。最后,第七節給出結論。圖4描繪了本綜述的組織結構。

II. 大型模型智能體:工作原理 在本節中,我們首先介紹現有的LM智能體標準。然后,討論連接LM智能體的一般架構,包括關鍵組件、通信模式、主要特征和啟用技術。接下來,介紹典型原型并討論LM智能體的現代應用。

  1. LM智能體的操作系統(OS):根據[45],[46],LM智能體的操作系統架構由三層組成:應用層、內核層和硬件層。
  • 應用層承載智能體應用(如旅行、編碼和機器人智能體),并提供抽象系統調用的SDK,簡化智能體開發。
  • 內核層包括普通的操作系統內核和額外的LM智能體內核,重點在于不改變原始操作系統結構。LM智能體內核中的關鍵模塊包括任務規劃和優先級調度的智能體調度器、LM狀態管理的上下文管理器、短期數據的記憶管理器、長期數據保留的存儲管理器、外部API交互的工具管理器,以及隱私控制的訪問管理器。
  • 硬件層包含物理資源(CPU、GPU、內存等),通過操作系統系統調用間接管理,因為LM內核不直接與硬件交互。
  1. LM智能體的構建模塊:根據[1],[8]–[10],LM智能體一般有五個構建模塊:規劃、行動、記憶、互動和安全模塊(詳細見節II-C)。這些模塊共同使LM智能體能夠高效、安全地感知、規劃、行動、學習和互動于復雜動態環境中。
  • 通過大型模型,規劃模塊利用記憶模塊生成策略和行動計劃,實現知情決策[7],[10]。
  • 行動模塊執行這些具體的行動,根據實時環境反饋調整行動,以確保上下文適當的響應[9],[42]。
  • 記憶模塊作為累積知識(如過去經驗和外部知識)的存儲庫,促進持續學習和改進[10]。
  • 互動模塊使智能體與人類、其他智能體和環境之間實現有效的溝通與協作。
  • 安全模塊貫穿于LM智能體的操作中,確保主動防護威脅并維護數據和過程的完整性和機密性。
  1. LM智能體的引擎:LM智能體的引擎由一系列前沿技術驅動,包括大型基礎模型、知識相關技術、互動、數字雙胞胎和多智能體協作(詳細見節II-D)。
  • 大型基礎模型如GPT-4和DALL-E 2作為LM智能體的大腦,使其具備高級模式識別、復雜推理和智能決策能力,提供認知能力[6],[7]。
  • 知識相關技術通過整合知識圖譜、知識庫和RAG系統增強LM智能體,使其能夠訪問、利用和管理大量外部知識源,確保知情和上下文相關的行動[47]。
  • HMI技術通過自然語言處理、多模態接口以及增強/虛擬/混合現實(AR/VR/MR)實現人類與智能體之間的無縫互動,促進動態和自適應的交互[48]。
  • 數字雙胞胎技術通過智能體內部的通信實現物理身體和數字大腦之間的數據和狀態的高效同步[49]。
  • 多智能體協作技術使LM智能體能夠高效協同工作,分享數據、資源和任務,通過智能體間的通信制定合作、競爭和合作競爭策略,解決復雜問題[28]。
  1. LM智能體的通信模式:每個LM智能體由兩個部分組成:(i)位于云端、邊緣服務器或終端設備的LM賦能大腦,以及(ii)相應的物理身體,如自主車輛。每個LM智能體可以主動與其他LM智能體、虛擬/現實環境和人類互動。對于連接的LM智能體,存在兩種典型的通信模式:內部通信用于智能體內大腦與物理身體之間的無縫數據/知識同步,外部通信則用于LM智能體之間的高效協調。表III總結了這兩種通信模式的比較。
  • 內部通信是指單個LM智能體內部的數據/知識交換。這種通信確保LM智能體的不同組件(包括規劃、行動、記憶、互動和安全模塊)協同工作。例如,LM智能體通過其物理身體收集多模態感知數據,然后將解釋的信息傳達給LM賦能的大腦。大腦中的規劃模塊制定響應或行動計劃,隨后由行動模塊執行。這種信息的無縫流動對于維持LM智能體在實時動態場景中的功能性、一致性和響應性至關重要。
  • 外部通信涉及多個LM智能體之間的信息和知識交換。它促進了智能體之間的協同任務分配、資源共享和協調行動,推動集體智能的發展。例如,在智能城市應用中,管理交通信號燈、公共交通和應急服務的各種LM智能體共享實時數據,以優化城市流動性和安全性。有效的外部通信依賴于標準化協議,以確保兼容性和互操作性,從而促進LM智能體網絡的高效和同步操作。
  1. 人類世界與LM智能體之間的信息流:人類通過自然語言、移動智能設備和可穿戴技術與LM智能體互動,使LM智能體能夠理解人類指令并有效解決現實問題。LM智能體反過來從人類輸入中獲取新知識和數據,幫助其持續改進和學習。這一持續更新和優化模型的過程,使LM智能體能夠提供越來越準確和有用的信息。在AR和VR環境中,LM智能體能夠在虛擬場景中與人類用戶協作,如建筑設計,提升整體效率和創造力[50]。
  2. 物理世界與LM智能體之間的信息流:得益于數字雙胞胎技術,LM智能體能夠在其物理身體和數字大腦之間同步數據和狀態,形成無縫互動循環。LM智能體還可以監控并對環境的實時輸入作出反應。這種雙向同步使LM智能體能夠以高精度和響應性感知和應對其周圍環境,無論是虛擬還是現實,從而彌合數字與物理領域之間的差距。通過不斷從環境反饋中學習,LM智能體能夠積累知識并理解物理法則,從而解決復雜的現實世界問題。這一迭代學習過程確保LM智能體不僅對即時刺激作出反應,還能隨著時間推移不斷優化其具體行動,達到更復雜和有效的解決方案。
  3. 網絡世界與LM智能體之間的信息流:在網絡世界中,LM智能體通過高效的云-邊緣網絡連接到LM智能體互聯網,促進無縫數據和知識共享,推動多智能體協作。通過在云和邊緣基礎設施中部署大型模型,LM智能體能夠利用云和邊緣計算的優勢,優化性能和響應能力[51]。云提供強大的計算能力和存儲,支持處理大量數據和訓練復雜模型。同時,邊緣提供接近數據源的實時數據處理能力,減少延遲,確保及時決策。在LM智能體互聯網中,LM智能體可以實時共享數據、知識和學習經驗,構建一個跨多個領域的強大自適應智能網絡。例如,在智能城市中,分布在不同位置的具身LM智能體可以通過共享實時數據和協調行動,協作優化交通流、管理能源資源并增強公共安全。

付費5元查看完整內容

摘要——目前,大多數工業物聯網(IIoT)應用仍然依賴于基于卷積神經網絡(CNN)的神經網絡。盡管基于Transformer的大模型(LMs),包括語言、視覺和多模態模型,已經在AI生成內容(AIGC)中展示了令人印象深刻的能力,但它們在工業領域(如檢測、規劃和控制)中的應用仍然相對有限。在工業環境中部署預訓練的大模型往往面臨穩定性與可塑性之間的挑戰,這主要是由于任務的復雜性、數據的多樣性以及用戶需求的動態性。為了應對這些挑戰,預訓練與微調策略結合持續學習已被證明是一種有效的解決方案,使模型能夠適應動態需求,同時不斷優化其推理和決策能力。本文綜述了大模型在工業物聯網增強的通用工業智能(GII)中的集成,重點關注兩個關鍵領域:大模型賦能GII和GII環境下的大模型。前者側重于利用大模型為工業應用中的挑戰提供優化解決方案,而后者則研究在涉及工業設備、邊緣計算和云計算的協同場景中,持續優化大模型的學習和推理能力。本文為GII的未來發展提供了洞見,旨在建立一個全面的理論框架和研究方向,從而推動GII向更加通用和適應性強的未來發展。 關鍵詞——通用工業智能、大語言模型、持續學習、工業物聯網、邊緣計算。

工業5.0將網絡-物理-社會元素集成到制造業中,強調數字與物理系統的交互以及人機協作,通過互聯網有效地連接設備、物體和人[1]。隨著物聯網(IIoT)的快速發展[2]-[4]、通信技術[5], [6]、AI生成內容(AIGC)[7]、機器人和數字孿生技術[8]-[10],現代工業系統變得越來越復雜。這些系統不僅生成高頻的單模態數據,還包括文本、圖像、視頻、代碼和音頻等多模態數據類型。工業大數據可以用于創建數字化制造工作流程和工業流程,極大地推動了工業5.0和網絡-物理-社會系統中生產力、效率和效能的提升。 如圖1所示,數據集和模型構成了GII生態系統的基礎要素,推動了更高層次算法和應用的快速發展。這些應用包括智能控制系統、預測性維護[11]、故障診斷[12], [13]和異常檢測[14],這些都高度依賴于對IIoT數據的提取和分析。GII的成功特別依賴于其從這些IIoT數據集中高效學習和提取有價值特征的能力。基于Transformer的大模型(LMs),例如大語言模型(LLMs)[16]–[18]、視覺模型[19], [20]、時間序列模型[21]以及多模態模型[22], [23],由于其獨特優勢,受到廣泛關注。通過在大規模數據集上進行預訓練,這些擁有數十億到數萬億參數的模型積累了廣泛的知識,極大地推動了數據處理的自動化和多樣化,同時減少了對人類專業知識的依賴。

在工業領域,大模型的精度和可擴展性使其在提高工業流程的準確性方面非常有效。然而,在工業環境中部署預訓練大模型時,需要根據具體任務架構、動態數據分布和用戶偏好進行謹慎的適配。盡管大模型在多任務泛化、小樣本學習和推理方面具有優勢,但在這些環境中平衡穩定性和適應性仍然是一個顯著挑戰。受到大模型在自然語言處理(NLP)中成功的啟發,工業界越來越多地探索其在GII中的潛力。一種方法是從頭構建行業特定的基礎模型[24],但特定領域數據規模的限制通常阻礙了涌現能力的發展。另一種方法是通過大數據集上的預訓練,然后進行特定任務的微調,這已顯示出在構建穩健的工業模型方面的巨大潛力,顯著提高了各類任務的性能。這種方法有效地應對了特定領域數據匱乏的挑戰,同時加速了工業應用中先進能力的發展。

為工業任務調整大模型是一個重要的研究方向[25]。這些模型在跨任務泛化、零樣本/小樣本學習和推理能力方面的優勢,為解決知識遷移、數據稀缺性和解釋性問題提供了新的途徑。 ****持續大模型(CLMs)****在維持和發展這些工業模型的能力方面發揮了關鍵作用。CLMs在大規模數據集上進行預訓練,并由Transformer架構驅動,設計用于持續學習和適應,確保工業大模型在滿足GII不斷變化的需求時仍然保持相關性和有效性。

A. 本綜述的目標

本文旨在建立一個全面的視角,并對IIoT增強的GII進行深入分析。它提出了將GII分為兩個主要類別的概念:

  • 通用工業智能的大模型(LMs for GII):該方向重點利用大模型的高級數據處理和分析能力來解決工業應用中固有的優化問題。具體來說,LMs通過其處理實時多模態IIoT數據、執行復雜特征提取并確保精確的模式識別和結果驗證的能力,提升了IIoT驅動的工業系統的智能化和運營效率,最終提高了不同工業環境中的測量精度和系統性能。
  • 通用工業智能上的大模型(LMs on GII):該視角探討了工業應用如何通過持續模型操作,在協同的IIoT設備-邊緣-云環境中擴展和優化大模型的能力。通過采用持續學習(CL)和在線學習策略,模型可以適應新數據和環境變化,而無需昂貴的再訓練。這種方法節省了計算資源,最小化了延遲,并高效處理了數據分布變化和性能退化,確保了動態工業場景中的穩健模型性能。

本文通過一個示意圖(圖2)進一步明確了這些類別的引入,幫助闡明了兩種方法之間的結構性差異和操作機制。

B. 本綜述的獨特特征

近年來,持續學習(CL)作為一個研究課題獲得了顯著關注,許多研究探討了其在設備健康管理[26]、機器人[27]和流數據[28]等領域的應用。在大模型的背景下,由于這些模型的規模巨大,頻繁的再訓練成本高昂,因此CL已被認為是至關重要的[29]。盡管CL的文獻廣泛,但我們的綜述獨特地關注了CL在IIoT增強的工業系統中的大模型的持續適應性——這是現有文獻中未被充分覆蓋的領域。本綜述首次為大模型在四個不同的IIoT工業場景中應用的CL方法提供了全面而系統的回顧。

如表I所示,本文通過以下幾個關鍵貢獻來區分自身

  • 新穎的分類體系:我們引入了一個新的GII理論框架。通過將大模型的應用分為兩個維度——“LMs for GII”和“LMs on GII”,本文不僅探討了如何利用大模型優化工業應用,還研究了這些應用如何反過來優化模型本身。這種雙向交互視角顯著豐富了現有文獻。

  • 跨領域多模態集成:與大多數僅專注于特定類型大模型(如語言模型或視覺模型)的現有研究不同,本綜述涵蓋了大語言模型(LLMs)、視覺Transformer、多模態模型和時間序列模型。這種跨模態集成增強了復雜儀器和測量系統的設計、開發和評估,這些系統用于信號的生成、獲取、調理和處理。通過利用不同模型的獨特優勢,它為推進測量科學及其應用提供了更全面和深入的視角,從而更有效地應對復雜的工業挑戰。

  • 持續學習的實際應用:本文強調了持續學習策略在IIoT增強的工業系統,特別是邊緣計算和云計算協同環境中的實際應用。這個重點確保了模型不僅能適應新數據和變化的條件,還能資源高效。通過減少計算需求和訓練成本,我們的方法解決了工業應用中的關鍵約束。

付費5元查看完整內容
北京阿比特科技有限公司