傳統上,Web 作為一個平臺,用于連接信息、資源與人,支持搜索、瀏覽和執行信息型、交易型或通信型任務等人機交互活動。最初的 Web 本質上是關于“連接”的,它將用戶與內容、服務以及彼此鏈接起來。 如今,借助大型語言模型(LLMs)驅動的 AI 智能體的興起,Web 正在發生根本性轉變,邁向“智能體網絡”(Agentic Web)——這是一個以自主、目標驅動交互為特征的互聯網新階段。在這一范式中,智能體可以彼此直接交互,為用戶規劃、協調并執行復雜任務。這種從“以人為中心”向“機器對機器”交互的轉變,使用戶能夠將意圖委托出去,從而擺脫日常數字操作,獲得更加互動化、自動化的網絡體驗。 在本文中,我們提出了一個結構化框架,用于理解和構建智能體網絡。我們回顧了 Web 從個人電腦時代到移動互聯網時代的演變過程,并指出了支撐這一轉變的核心技術基礎。在我們的框架中,一個由三大關鍵維度構成的概念模型起到了核心作用:智能性(intelligence)、交互性(interaction)與經濟性(economics)。這三者共同支撐了 AI 智能體的核心能力,如檢索、推薦、規劃與協作。 我們進一步分析了構建可擴展智能體系統所面臨的架構與基礎設施挑戰,包括通信協議、編排策略以及“智能體注意力經濟”(Agent Attention Economy)等新興范式。最后,我們討論了智能體系統的潛在應用、社會風險與治理問題,并提出了未來的研究方向,以推動構建一個開放、安全且智能的生態系統——由人類意圖與智能體行為共同塑造。 持續更新的智能體網絡相關研究合集可訪問: //github.com/SafeRL-Lab/agentic-web 關鍵詞:智能體網絡,LLM 智能體,Web 架構,安全與保障
長期以來,Web 一直是一個連接平臺(Berners-Lee, 1999;Castells, 2002),將人們與信息、服務以及彼此鏈接起來。在早期階段,Web 支持人機交互,主要用于完成信息型(如閱讀新聞)、交易型(如在線購物)和通信型(如消息和電子郵件)任務。在這一時期,Web 中的“智能”主要體現在幫助用戶訪問、篩選和交互內容的工具中,如搜索引擎(Brin 和 Page, 1998)、推薦系統(Wang 等, 2006;Koren 等, 2009;Zhao 等, 2013;Zhang 等, 2013)以及用戶界面(Deaton, 2003)。然而,用戶始終是主動方,需要手動在頁面間導航、發起操作,并在每一步做出決策。 近幾年,Web 正在經歷一場變革:由大型語言模型(LLMs)驅動的 AI 智能體(Yang 等, 2023a;Kapoor 等, 2024)正在迅速涌現。這些 AI 智能體是一類能夠感知環境、進行推理并自主采取行動以完成用戶設定目標的軟件實體。隨著感知與執行組件的融合,LLMs 的能力已不再局限于響應提示,而是能夠通過智能體進行計劃、記憶,并在數字系統中執行復雜交互(Wang 等, 2023)。更重要的是,這些智能體不再受限于單輪交互,而是能夠持續執行復雜的、長期的任務。此外,多個智能體之間還可以被編排,以協同完成更復雜的目標(Qian 等, 2024;Yang 等, 2025e;Gottweis 等, 2025;Sapkota 等, 2025)。 智能體系統的興起由兩個強大趨勢推動。首先,AI 助手已越來越具備在多個領域(如科研(Ren 等, 2025;Huang 等, 2025b;Schmidgall 等, 2025)、軟件開發(Hong 等, 2023;Xia 等, 2024)、客戶服務(Rome 等, 2024)和個人效率管理(Li 等, 2024b))中執行復雜、多步驟任務的能力。這些智能體不再是被動響應的工具,而是能夠主動規劃、推理并持續執行動作的協作伙伴。其次,用戶在心理上也越來越接受將不僅僅是單個查詢,而是整個工作流(有時跨度可達數分鐘、數小時甚至數天)委托給智能體(Guo 等, 2024;Hong 等, 2024)。這種對智能體自主性的信任正在引發新的用戶期望和交互界面形式,從而推動 Web 使用方式的根本性變革。 這一演變奠定了我們在本文中正式定義的“智能體網絡(Agentic Web)”的基礎。在這一新興范式中,Web 不再只是人類與內容和服務交互的平臺,而是一個動態環境,其中自主智能體代表用戶進行行動、通信與協作,跨越服務與領域(Petrova 等, 2025;Lù 等, 2025;Chaffer, 2025)。例如,OpenAI 于 2025 年 7 月發布的 ChatGPT Agent,已能夠代表用戶執行任務,如為日式早餐規劃并采購食材,或預訂餐廳(OpenAI, 2025)。
智能體網絡是一個分布式、交互式的互聯網生態系統,其中自主軟件智能體(通常由大型語言模型驅動)作為獨立中介,持續地規劃、協調并執行目標導向的任務。在這一范式下,Web 資源與服務向智能體開放訪問,支持持續的智能體間交互、動態信息交換和價值創造,同時也保留傳統的人–Web 交互模式。 與傳統 Web 主要服務于連接文檔、服務和用戶以滿足信息、交易和通信需求不同,智能體網絡支持智能化、目標驅動的交互。盡管訪問信息、完成交易、實現通信的核心功能仍在,但這些任務如今由能夠推理、規劃并代表用戶行動的自主智能體所中介。 其本質性的轉變體現在:從短期、一次性的用戶與靜態內容之間的交互,轉向涉及多服務、多網頁、多領域間協調動作序列的長期持續交互。在智能體網絡中,最終用戶依然是人類,但“中介用戶”(mid users)——即那些主動導航、處理信息、生成內容并與環境交互的主體——則是 AI 智能體。這些智能體通過與分布式的智能體與服務網絡交互,解釋并執行用戶意圖。 用戶的查詢不再是對某一孤立信息的簡單請求,而是對一個復雜任務的委托,這可能涉及多步的協商、規劃與適應。借助結構化或開放式通信協議(Yang 等, 2025d),智能體可跨領域協作,完成整個工作流,最終交付體現高層次用戶目標的成果(Lin 等, 2024b;Yang 等, 2025c)。圖 1 展示了這一智能體中介過程的典型任務生命周期:從用戶意圖到多智能體執行再到結果交付。 在這一新范式下,網頁不再僅是靜態內容的容器,而演化為具有功能能力、接口和任務角色的主動軟件智能體。超鏈接也從傳統的被動導航路徑轉變為智能體間通信、動態任務分解與協同執行的協調通道。因此,智能體網絡將 Web 從一個文檔互鏈的網絡,轉化為一個交互式、智能化的智能體生態系統。 除了交互模型的變革,智能體網絡還重塑了信息的存儲、鏈接與傳輸方式。在早期的個人計算機(PC)時代,Web 內容主要由機構生成,數據體量較小,用戶主要通過關鍵詞搜索訪問信息。隨著移動互聯網的興起,用戶生成內容(UGC)呈現爆炸式增長,信息規模與多樣性隨之擴大,搜索成本隨之上升,推薦系統逐漸成為匹配供需的主流范式。 而隨著 LLMs 與智能體系統的出現,信息流的底層邏輯再次發生重大轉變。如今,世界的知識不僅存儲于靜態網頁中,也嵌入在 LLMs 的模型參數里。智能體可直接訪問這些學習到的知識,結合實時檢索,與其他智能體或在線資源進行自主交互。 這使得智能體能夠超越傳統搜索引擎,實現主動、個性化的內容推薦與信息獲取。此外,智能體還能代表用戶完成交易與消費流程,創造出一種新的生產–消費動態——其中信息與服務的生產對象不再僅是人類,也可能是智能體本身。在某些場景中,Web 內容甚至可能完全由智能體實時生成,而非人類直接創作,從而構建出一個由智能體同時生產與消費知識的生態系統。
在傳統 Web 中,例如訂票這樣的交易型任務通常由用戶手動完成。整個流程包括訪問旅游網站、輸入搜索條件、調整篩選器、在多個頁面之間比對票價,并最終下單。雖然 Web 提供了如推薦引擎、用戶界面和搜索算法等輔助工具,但任務執行仍以用戶主導、逐步操作為核心。 在智能體網絡中,同樣的任務可以通過高層次意圖的委托來發起。用戶只需提供一個目標導向的指令(如“幫我預訂下周末飛往紐約的航班,預算范圍內”),自主智能體即可代表用戶執行整個流程:包括訪問服務與 API、查詢并解析網頁、根據偏好篩選選項,直到完成預訂。智能體可能進行多輪迭代、與其他智能體協調,且無需用戶再參與操作。 這個例子凸顯出核心差異:傳統 Web 由人主導操作靜態服務,而智能體網絡支持跨多個服務與交互的持續、智能、機器主導的工作流。圖 2 補充說明了用戶與系統交互如何從被動消費演進為主動智能體委托的三個 Web 階段。
在傳統 Web 中,執行諸如了解不同大型語言模型如何處理多模態輸入的信息型任務,用戶需手動查找白皮書、提取架構圖、搜索基準測試結果,并將材料整理成報告。這通常涉及在學術搜索引擎、博客文章、PDF 閱讀器與表格工具間頻繁切換。 在智能體網絡中,同樣的任務可交由 Deep Research 智能體處理(如“請撰寫一份報告,比較 GPT-4o、Gemini 與 Claude 如何處理文本與圖像輸入,包括表格與流程圖”)。智能體會解析查詢并規劃多階段工作流:通過 API、瀏覽器訪問和模型上下文協議(MCP)(Anthropic, 2024b)等手段,從在線來源與技術資源庫中檢索內容;解析 PDF 與 HTML 文檔;調用專用模塊提取表格、生成圖示并可視化結果;最終通過多步推理將輸出整合為結構化報告。 這個例子展示了智能體網絡如何超越靜態內容獲取,進入復雜、適應性強的信息處理階段。 因此,PageRank(Page 等, 1999)等傳統 Web 基石概念,以及如 Web 搜索(Broder, 2002)、推薦系統(Resnick 和 Varian, 1997)和計算廣告模型(Nelson, 1974)等更廣泛系統,都需在智能體網絡語境下重新解讀。未來,它們或將不再僅關注靜態鏈接的受歡迎程度或用戶歷史交互,而更多衡量智能體在網絡中的動態效用、響應性與協作潛力。 類似地,原本用于索引靜態內容的網頁爬蟲,也可能演化為“智能體爬蟲”——這些自主探索者能夠發現、協商并與其他智能體交互,索引的對象不僅包括數據,還包括服務能力、接口功能與合作記錄。網頁的元數據將變得更加豐富與可操作:除了基礎標簽或描述外,智能體元數據還可能包括描述 API 的標準化模式、信任等級、性能基準或協商協議等。 過去人工維護、按主題分類的網站目錄或黃頁,也可被重構為動態智能體注冊中心或市場,根據智能體的領域專長、聲譽和協作兼容性進行索引。在這樣的智能體環境中,搜索引擎有望轉變為智能編排器,不僅負責檢索相關智能體,還能組合、協調并管理它們之間的工作流,以完成復雜的委托任務。正如 PageRank 曾用于評估頁面權威性,未來的“智能體排名”算法可能基于協作成功率、響應性以及智能體在多智能體工作流中的貢獻度。 上述這些重構與轉變將為下一代智能體發現、信任校準、激勵對齊與協同編排的算法與協議奠定基礎(Lin 等, 2024b;Wang 等, 2025a),從而推動 Web 成為一個開放、分布式、持續演化的協作智能集合體。 因此,我們亟需重新審視 Web 的基礎技術與模塊,并從智能體自主性與協同的視角重新定義這些組件。從 HTTP 協議、HTML 語義,到索引、搜索與推薦系統等核心構件,都必須在智能體驅動的未來語境下重新思考。盡管“智能體 AI”迅速崛起,目前的研究文獻中仍缺乏對這些 Web 基礎設施在智能體范式下的系統性分析與重構。 填補這一空白對于理解并塑造下一代互聯網至關重要,而這正是本文的目標所在。
第 2 節回顧了 Web 的歷史演變,并結合預測性分析描繪了智能體網絡的未來發展軌跡。 * 第 3 節提出并概念化了智能體網絡,作為一種全新的 Web 形態,提出三維模型并給出一系列研究命題以刻畫其動態特征。 * 第 4 節深入探討了智能體網絡的核心任務與關鍵支撐技術,包括信息檢索、推薦系統、智能體規劃、多智能體學習與協同等內容。 * 第 5 節分析了系統層面正在演化的技術生態,并提出構建智能體網絡基礎設施的核心設計原則。 * 第 6 節展示了代表性應用場景,如電商下單、旅行規劃與企業知識助手等。 * 第 7 節探討了相關的技術風險、信息安全問題、監管挑戰與潛在緩解策略。 * 最后,第 8 與第 9 節總結了本文的核心觀點,并展望了智能體網絡的未來發展路徑。
創造如《鋼鐵俠》中虛構角色 J.A.R.V.I.S 般強大且多才多藝的 AI 助理,一直以來都是人們夢寐以求的目標。隨著(多模態)大語言模型((M)LLMs)的發展,這一夢想正逐步照進現實。基于 (M)LLM 的智能體通過在操作系統(OS)所提供的環境與界面(如圖形用戶界面 GUI)中運行,從而在計算設備(例如計算機和移動電話)上自動執行任務,其能力已取得顯著進展。本文對這一類先進的智能體進行了全面綜述,我們稱之為 操作系統智能體(OS Agents)。 我們首先闡述了 OS 智能體的基本概念,探討其關鍵組成部分,包括環境、觀測空間與動作空間,并梳理了其所需的核心能力,如理解、規劃與基礎對齊(grounding)。隨后,我們分析了構建 OS 智能體的方法,重點介紹了面向特定領域的基礎模型與智能體框架。此外,我們系統回顧了現有的評估協議與基準,展示了 OS 智能體在多種任務中的評估方式。 最后,我們討論了當前面臨的挑戰,并指出未來值得探索的研究方向,包括安全性與隱私、個性化以及自我演化等。本綜述旨在整合 OS 智能體研究的現狀,為學術研究與產業發展提供參考與啟發。我們還維護了一個開源的 GitHub 倉庫,作為促進該領域持續創新的動態資源。本研究的一篇 9 頁精簡版本已被 ACL 2025 接收,以便為該領域提供簡明的入門概覽。
構建一個類似于漫威電影《鋼鐵俠》中 J.A.R.V.I.S. 的超級智能 AI 助理——能夠協助托尼·斯塔克控制各種系統并自動化任務——一直是人類的長期愿景。這類實體被稱為操作系統智能體(Operating System Agents,簡稱 OS Agents),因為它們在操作系統(OS)提供的環境和界面(如圖形用戶界面 GUI)中運行,從而利用計算設備(例如計算機和移動電話)完成各種任務。OS 智能體能夠自主完成任務,具有顯著提升全球數十億用戶生活質量的潛力。想象這樣一個世界:在線購物、旅行安排預訂等日常事務都能由這些智能體無縫處理,從而大幅提升效率與生產力。 過去,Siri【Inc., 2024】、Cortana【Research, 2024】、Amazon Alexa【Google, 2024】和 Google Assistant【Amazon, 2024】等虛擬助手已初步展示了這種潛力,但由于模型能力(如上下文理解【Tulshan and Dhage, 2019】)的限制,這些產品未能實現廣泛應用和全面功能。 幸運的是,近年來多模態大語言模型((M)LLMs)如 Gemini【Google】、GPT【OpenAI】、Grok【xAI】、Yi【01.AI】和 Claude【Anthropic】系列的進展,開啟了 OS 智能體發展的新紀元。這些模型展現出卓越的能力,使得 OS 智能體能夠更好地理解復雜任務并執行計算設備操作。一些代表性案例包括 Anthropic 推出的 Computer Use【Anthropic, 2024a】、蘋果的 Apple Intelligence【Apple, 2024】、智譜 AI 的 AutoGLM【Liu et al., 2024a】和 Google DeepMind 的 Project Mariner【DeepMind, 2024】。 例如,Computer Use 利用 Claude【Anthropic, 2024b】直接與用戶的計算機交互,旨在實現無縫任務自動化。同時,研究界也提出了多種構建基于 (M)LLM 的 OS 智能體的方案【Gur et al., 2023; You et al., 2025; Gou et al., 2024; Meng et al., 2024; Chen et al., 2024a; Wu et al., 2024a; Zhang et al., 2023a; Yan et al., 2023; Ma et al., 2023; Zhang et al., 2024a; He et al., 2024a; Wang and Liu, 2024】。例如,Wu 等人【2024a】提出的 OS-Atlas 是一個基礎 GUI 動作模型,它通過跨平臺合成 GUI 對齊數據,顯著提升了 GUI 基礎對齊能力與分布外任務表現;OS-Copilot【Wu et al., 2024b】則是一個智能體框架,旨在開發通用型智能體以自動化各種計算機任務,在多種應用場景中展現出強大的泛化能力和自我提升能力,即便在弱監督下亦表現出色。 鑒于該領域的迅速發展和日益豐富的研究成果,有必要進行一次全面綜述,以整合當前研究現狀。 在本綜述中,我們首先在第 §2 節討論 OS 智能體的基本概念,定義何謂 OS 智能體,并如圖 2 所示,重點介紹三個核心組成部分:環境、觀測空間與動作空間(§2.1)。隨后,我們總結 OS 智能體應具備的關鍵能力,包括理解、規劃與基礎對齊(§2.2)。 接下來,在第 §3 節中我們深入探討構建 OS 智能體的兩個關鍵方面:(1)面向特定領域的基礎模型開發,涵蓋架構設計、預訓練、監督微調與強化學習等內容(§3.1);(2)圍繞這些模型構建高效的智能體框架,涵蓋感知、規劃、記憶與動作等核心模塊(§3.2)。 在第 §4 節中,我們回顧了 OS 智能體常用的評估協議(§4.1)與基準數據集(§4.2),以了解其在多樣任務中的性能表現。最后在第 §5 節,我們探討 OS 智能體當前所面臨的挑戰與未來研究方向,特別關注安全與隱私問題(§5.1)、個性化與自我演化能力(§5.2)。 本綜述旨在推動 OS 智能體的研究與開發,通過深入剖析其關鍵能力、構建方法與評估方式,幫助讀者全面理解該領域的最新趨勢、技術挑戰與未來發展。我們也認識到,OS 智能體仍處于早期階段,新的方法與應用正在迅速涌現。為支持該領域的持續進展,我們維護了一個開源的 GitHub 倉庫,作為動態資源。我們希望本研究能夠激發更多創新,推動 OS 智能體在學術研究與工業應用中的發展。 //arxiv.org/abs/2508.04482
隨著大語言模型(LLMs)的最新進展,智能體人工智能(Agentic AI)在現實世界應用中變得愈發顯著,逐漸向基于多LLM的智能體發展,使其能夠感知、學習、推理并協同行動。這些基于LLM的多智能體系統(MASs)使得一組智能體能夠協調并大規模地共同解決復雜任務,從孤立的模型轉向以協作為核心的方法。本文對MASs的協作方面進行了廣泛綜述,并引入了一個可擴展的框架以指導未來研究。我們的框架基于關鍵維度對協作機制進行了分類:參與者(涉及的智能體)、類型(如合作、競爭或競合)、結構(如點對點、集中式或分布式)、策略(如基于角色或基于模型)以及協調協議。通過對現有方法的回顧,我們的研究結果為揭示和推進基于LLM的MASs提供了基礎,旨在為復雜的現實世界用例提供更智能和協作的解決方案。此外,本文還探討了MASs在多個領域的廣泛應用,包括5G/6G網絡、工業5.0、問答系統以及社會和文化場景,展示了其廣泛采用和深遠影響。最后,我們總結了關鍵經驗教訓、開放挑戰以及MASs在實現人工集體智能方面的潛在研究方向。 //arxiv.org/pdf/2501.06322
近年來,大語言模型(LLMs)的進展徹底改變了人工智能(AI)領域,使其能夠執行復雜的任務,如創意寫作、推理和決策,甚至在某些方面可與人類水平相媲美 [156]。然而,盡管這些模型在個體層面展現了卓越的能力,它們仍存在一些固有局限性,例如幻覺問題 [57]、自回歸特性(如無法進行慢思考 [49])以及擴展規律 [55, 69]。為了解決這些挑戰,智能體人工智能(Agentic AI)將LLMs作為“大腦”或“協調者”,將其與外部工具和議程(如規劃)相結合,使基于LLM的智能體能夠采取行動、解決復雜問題,并與外部環境進行學習和交互 [1,2]。此外,研究人員越來越多地探索水平擴展——利用多個基于LLM的智能體協同工作,以實現集體智能。這種方法與多智能體系統(MASs)和協作AI的研究方向一致,后者專注于使智能體群體能夠協調、共享知識并共同解決問題。這些領域的融合催生了基于LLM的MASs,它們利用多個LLM的集體智能來應對復雜的多步驟挑戰 [118]。MASs的靈感不僅來自技術進步,還源于人類集體智能(如“心智社會” [87]、“心智理論” [45])。人類社會擅長通過團隊合作和專業化實現共同目標,從日常任務到科學發現皆是如此。類似地,MASs旨在模擬這些原則,使AI智能體能夠通過結合各自的優勢和視角進行有效協作。基于LLM的MAS可以具有多種不同特性的協作渠道,如圖1所示。MASs在各個領域取得了顯著成功,通過利用專業智能體之間的協作和協調,增強了個體LLM的能力。這些系統在智能體之間分配任務,使智能體能夠共享知識、執行子任務,并將其努力與共同目標對齊。MASs的潛在益處是變革性的。它們在知識記憶方面表現出色,使分布式智能體能夠保留和共享多樣化的知識庫,而不會使單個系統過載 [51, 154]。它們通過將任務分配給多個智能體來增強長期規劃能力,支持在長期交互中持續解決問題 [58]。此外,MASs通過匯集具有專門提示/角色的多個模型的專業知識,實現了有效的泛化,使其能夠比獨立模型更有效地解決多樣化問題。最后,MASs通過同時管理由專業智能體處理的子任務,提高了交互效率,加速了復雜多步驟任務的解決。MAS致力于實現集體智能,即多個智能體的綜合能力超越其個體貢獻的總和 [24]。有效MASs的一個主要關注點是協作機制 [33, 74, 75, 97, 132],這些機制推動了從傳統的孤立模型向強調交互的方法的轉變,使智能體能夠連接、協商、決策、規劃并共同行動,從而在集體環境中推動AI能力的提升。深入了解協作機制在MASs中的運作方式,對于釋放其全部潛力至關重要。
由于基于LLM的多智能體協作系統的重要性和迫切需求,已有一些關于該主題的綜述。然而,這些工作往往未能全面探討基于LLM的MASs的協作方面和機制,而這些對于使智能體能夠有效實現共同目標至關重要,如表1所總結。例如,[47, 107, 136] 主要關注單智能體系統,僅淺顯地涉及多智能體協作。[136] 提出了一個基于LLM的智能體框架,包括三個組件:大腦、感知和行動。他們的工作強調了將LLMs作為智能體的“大腦”,利用輸入模態集成、提示、檢索和工具使用等技術。然而,他們對多智能體協作的討論僅限于智能體行為和個性,缺乏對使智能體協同工作的機制的深入探討。[47] 調查了基于LLM的MASs成功應用的領域和場景,分析了這些系統的通信結構(分層、去中心化、集中式和共享消息池),但未涉及協作的其他特征,如類型、策略或協調架構。其他工作,如[82],專注于協作策略,將其分類為合并、集成和合作。盡管他們的綜述討論了這些策略如何應用于LLMs,并將合作擴展到傳統融合技術之外,但忽略了其他關鍵的協作機制,如競爭和競合,以及除流行協作類型之外的維度。相比之下,[120] 提出了一個通過MASs增強LLM能力的通用框架,展示了Auto-GPT等工具如何與其框架對齊。然而,協作機制仍停留在概念層面,缺乏詳細的實現和特征描述。[50] 的重點是配置LLMs以利用多樣化的能力和角色,例如集成記憶和信息檢索組件。他們對多智能體協作的探索主要集中在規劃和協調架構上,強調基于智能體角色和專業化的全局和局部任務規劃。與此同時,[46] 將其研究范圍縮小到基于LLM的MASs在基于智能體的建模和模擬中的應用,討論了環境感知、人類對齊、行動生成和評估等挑戰。盡管對模擬特定應用具有啟發性,但它缺乏對深入協作機制的更廣泛視角。類似地,[68] 調查了這些系統在數字孿生中的應用,而[52, 70] 則專注于軟件工程領域。從上述總結和解釋中可以看出,現有研究在全面探索基于LLM的MASs的協作方面和機制方面存在明顯不足,而這些對于使智能體能夠共同實現目標至關重要。本文旨在提供基于LLM的智能體在多智能體協作系統中協作基礎的全面視角。以協作為核心,我們的研究基于參與者(涉及的智能體)、類型(如合作、競爭或競合)、結構(如點對點、集中式或分布式)、策略(如基于角色、基于規則或基于模型)以及協調層對智能體之間的協作進行了特征化。我們強調了促進有效協作的機制和關鍵技術,識別了MAS設計中的關鍵特征和趨勢。通過對現有方法的綜述和開放挑戰的識別,我們將這些發現綜合為一個連貫的框架。該框架為未來研究奠定了基礎,推動了LLMs在MASs中的集成,并為開發更具適應性、智能性和協作性的AI系統鋪平了道路,以應對復雜的現實世界應用。我們的主要貢獻如下:
本文的結構如下:第2節提供了理解本工作所需的背景知識,包括LLMs、MASs和協作AI的概述。第3節通過數學符號介紹了基于LLM的多智能體協作系統的基礎概念,強調了協作的關鍵作用。接著,第4節對基于LLM的多智能體協作系統進行了廣泛綜述,按協作的關鍵特征(包括類型、策略、結構和協調與編排)分類。第5節回顧了基于LLM的多智能體協作系統在學術界和工業界的關鍵應用。第6節討論了這一新興研究領域的開放問題和未來研究方向。最后,第7節總結了這篇關于基于LLM的多智能體協作系統的綜述論文。
大語言模型(LLMs)通過實現類人文本生成和自然語言理解,徹底改變了人工智能(AI)領域。然而,它們對靜態訓練數據的依賴限制了它們對動態實時查詢的響應能力,導致輸出結果過時或不準確。檢索增強生成(RAG)作為一種解決方案,通過集成實時數據檢索來增強LLM,提供上下文相關且最新的響應。盡管如此,傳統的RAG系統仍受到靜態工作流的限制,缺乏應對多步驟推理和復雜任務管理所需的適應能力。智能體檢索增強生成(智能體RAG)通過將自主AI智能體嵌入到RAG管道中,超越了這些局限性。這些智能體利用智能體設計模式——反思、規劃、工具使用和多智能體協作——動態管理檢索策略、迭代優化上下文理解,并調整工作流以滿足復雜的任務需求。這種集成使智能體RAG系統能夠在各種應用中提供無與倫比的靈活性、可擴展性和上下文感知能力。本綜述全面探討了智能體RAG,從其基礎原理及RAG范式的演變開始,呈現了智能體RAG架構的詳細分類法,突出了醫療、金融和教育等行業中的關鍵應用,并考察了實際實施策略。此外,本文還討論了擴展這些系統、確保倫理決策和優化實際應用性能的挑戰,同時提供了有關實施智能體RAG框架和工具的詳細見解。
關鍵詞: 大語言模型(LLMs) · 人工智能(AI) · 自然語言理解 · 檢索增強生成(RAG) · 智能體RAG · 自主AI智能體 · 反思 · 規劃 · 工具使用 · 多智能體協作 · 智能體設計模式 · 上下文理解 · 動態適應性 · 可擴展性 · 實時數據檢索 · 智能體RAG的分類法 · 醫療應用 · 金融應用 · 教育應用 · 倫理AI決策 · 性能優化 · 多步驟推理
1 引言
大語言模型(LLMs)[1, 2] [3],如OpenAI的GPT-4、Google的PaLM和Meta的LLaMA,憑借其生成類人文本和執行復雜自然語言處理任務的能力,已顯著改變了人工智能(AI)領域。這些模型推動了各個領域的創新,包括對話代理[4]、自動內容創作和實時翻譯。最近的進展已將它們的能力擴展到多模態任務,如文本到圖像和文本到視頻生成[5],使得從詳細提示生成和編輯視頻和圖像成為可能[6],從而拓寬了生成式AI的潛在應用范圍。盡管取得了這些進展,大語言模型仍面臨顯著的局限性,主要源于它們依賴于靜態的預訓練數據。這種依賴通常導致信息過時、產生幻覺響應[7],并且無法適應動態的現實世界場景。這些挑戰突顯了需要集成實時數據、動態調整響應以保持上下文相關性和準確性的系統。檢索增強生成(RAG)[8, 9]作為應對這些挑戰的一個有前景的解決方案應運而生。通過將大語言模型的生成能力與外部檢索機制[10]結合,RAG系統增強了響應的相關性和時效性。這些系統從知識庫[11]、API或網絡等來源檢索實時信息,有效彌合了靜態訓練數據與動態應用需求之間的鴻溝。然而,傳統的RAG工作流仍然受限于其線性和靜態的設計,限制了它們執行復雜多步驟推理、整合深層次上下文理解以及迭代優化響應的能力。智能體[12]的演進進一步增強了AI系統的能力。現代智能體,包括大語言模型驅動的和移動智能體[13],是能夠感知、推理并自主執行任務的智能實體。這些智能體利用智能體工作流模式,如反思[14]、規劃[15]、工具使用和多智能體協作[16],使其能夠管理動態工作流并解決復雜問題。檢索增強生成與智能體智能的融合催生了智能體檢索增強生成(智能體RAG)[17],這一范式將智能體集成到RAG管道中。智能體RAG通過動態檢索策略、上下文理解和迭代優化[18],實現了信息處理的自適應和高效性。與傳統的RAG不同,智能體RAG通過自主智能體來協調檢索、篩選相關信息并優化響應,在需要精確性和適應性的場景中表現出色。本綜述探討了智能體RAG的基礎原理、分類法和應用。它全面回顧了RAG范式,如樸素RAG、模塊化RAG和圖結構RAG[19],以及它們向智能體RAG系統演變的過程。主要貢獻包括詳細的智能體RAG框架分類法、在醫療[20, 21]、金融和教育[22]等領域的應用,并提供了實施策略、基準測試和倫理考慮的見解。
本文的結構如下:第2節介紹RAG及其演變,強調傳統方法的局限性。第3節詳細闡述智能體智能及智能體模式的原理。第4節提供智能體RAG系統的分類法,包括單智能體、多智能體和基于圖的框架。第5節探討智能體RAG的應用,第6節討論實施工具和框架。第7節聚焦于基準測試和數據集,第8節總結并展望智能體RAG系統的未來發展方向。
2. 檢索增強生成(RAG)的基礎
2.1 RAG概述
檢索增強生成(RAG)是人工智能領域的一項重要進展,它將大型語言模型(LLMs)的生成能力與實時數據檢索相結合。盡管LLMs在自然語言處理任務中表現出色,但其依賴靜態預訓練數據的特性導致其生成的響應往往過時或不完整。RAG通過從外部數據源動態檢索相關信息并將其整合到生成過程中,提供了更具上下文準確性和時效性的輸出。
2.2 RAG的核心組件RAG系統的架構通常包括三個主要組件:檢索器(Retriever):負責從外部數據源(如知識庫、API或向量數據庫)中查詢相關信息。先進的檢索器利用密集向量搜索和基于Transformer的模型來提高檢索精度和語義相關性。增強器(Augmentation):處理檢索到的數據,提取并總結與查詢上下文最相關的信息。生成器(Generation):將檢索到的信息與LLMs的預訓練知識相結合,生成連貫且上下文相關的響應。
2.3 RAG范式的演進RAG范式經歷了從簡單到復雜的演進過程,逐步適應了現實世界應用中對上下文準確性、可擴展性和多步推理的需求。以下是RAG范式的主要演進階段: 2.3.1 Naive RAGNaive RAG是RAG的最基礎實現,依賴于簡單的關鍵詞檢索技術(如TF-IDF和BM25)從靜態數據集中獲取文檔。盡管Naive RAG易于實現,但其缺乏上下文意識,生成的響應往往過于碎片化或泛化。
2.3.2 Advanced RAGAdvanced RAG在Naive RAG的基礎上引入了語義理解和增強的檢索技術,如密集檢索模型(Dense Passage Retrieval, DPR)和神經排序算法。這些改進使得Advanced RAG能夠處理更復雜的查詢,尤其是在需要高精度和細致理解的場景中。
2.3.3 Modular RAGModular RAG將檢索和生成流程分解為獨立的、可重用的組件,允許根據特定任務進行優化和定制。這種模塊化設計使得Modular RAG能夠靈活應對多領域任務,同時保持高精度和可擴展性。
2.3.4 Graph RAGGraph RAG通過引入圖數據結構,增強了多跳推理和上下文豐富性。圖RAG系統能夠捕捉實體之間的關系和層次結構,從而生成更準確和豐富的輸出,尤其是在需要結構化關系推理的領域(如醫療診斷和法律研究)中表現出色。
2.3.5 Agentic RAGAgentic RAG通過引入自主智能體,實現了動態決策和工作流優化。與靜態系統不同,Agentic RAG能夠根據查詢的復雜性動態調整檢索策略,并通過迭代優化提升響應質量。Agentic RAG在客戶支持、金融分析和自適應學習平臺等需要動態適應性和上下文精確性的領域中表現出色。
3. Agentic RAG的核心原則與背景
Agentic RAG的核心在于其集成了自主智能體,能夠進行動態決策、迭代推理和協作工作流。這些智能體通過以下設計模式來增強系統的適應性和精確性: 3.1 智能體設計模式3.1.1 反思(Reflection)反思是智能體工作流中的基礎設計模式,允許智能體通過自我反饋機制迭代評估和優化其輸出。通過反思,智能體能夠識別并糾正錯誤、不一致性,并改進其性能。在多智能體系統中,反思可以涉及不同角色的智能體,如一個智能體生成輸出,另一個智能體對其進行批判,從而促進協作改進。
3.1.2 規劃(Planning)規劃使智能體能夠將復雜任務分解為更小的子任務,從而在多步推理和動態問題解決中表現出色。通過規劃,智能體能夠動態確定完成任務的步驟序列,確保在不確定和動態環境中保持靈活性。3.1.3 工具使用(Tool Use)工具使用允許智能體通過與外部工具、API或計算資源交互來擴展其能力。通過動態集成工具,智能體能夠適應復雜任務并提供更準確和上下文相關的輸出。
3.1.4 多智能體協作(Multi-Agent Collaboration)多智能體協作通過任務分配和并行處理來提高系統的可擴展性和適應性。每個智能體專注于特定的子任務,并通過通信和共享中間結果來確保整體工作流的高效性和一致性。
4. Agentic RAG系統的分類
Agentic RAG系統可以根據其架構的復雜性和設計原則進行分類,主要包括單智能體架構、多智能體系統和分層智能體架構。每種架構都針對特定的挑戰進行了優化,并在不同的應用中表現出色。4.1 單智能體Agentic RAG:路由器單智能體Agentic RAG系統采用集中式決策機制,由單個智能體負責檢索、路由和信息的整合。這種架構簡化了系統設計,特別適用于工具或數據源數量有限的場景。工作流程查詢提交與評估:用戶提交查詢,協調智能體接收并分析查詢,確定最合適的信息源。知識源選擇:根據查詢類型,協調智能體選擇不同的檢索選項,如結構化數據庫、語義搜索、網絡搜索或推薦系統。數據整合與LLM合成:檢索到的數據傳遞給大型語言模型(LLM),LLM將來自多個源的信息整合成連貫且上下文相關的響應。輸出生成:系統生成綜合性的用戶響應,并以簡潔、可操作的格式呈現。關鍵特性與優勢集中化簡化:單個智能體處理所有檢索和路由任務,簡化了系統設計和維護。效率與資源優化:由于智能體數量較少,系統對計算資源的需求較低,能夠快速處理查詢。動態路由:智能體實時評估每個查詢,選擇最合適的知識源。跨工具的多功能性:支持多種數據源和外部API,適用于結構化和非結構化工作流。 4.2 多智能體Agentic RAG系統多智能體RAG系統通過多個專用智能體處理復雜的工作流和多樣化的查詢類型。每個智能體專注于特定的任務或數據源,從而提高了系統的靈活性和可擴展性。工作流程查詢提交:用戶查詢由協調智能體接收,并根據查詢需求分配給專用檢索智能體。專用檢索智能體**:每個智能體負責特定類型的數據源或任務,如結構化查詢、語義搜索、網絡搜索或推薦系統。工具訪問與數據檢索:每個智能體將查詢路由到其領域內的適當工具或數據源,檢索過程并行執行,以提高效率。數據整合與LLM合成:檢索完成后,所有智能體的數據傳遞給LLM,LLM將信息整合成連貫的響應。輸出生成:系統生成綜合性的響應,并以簡潔、可操作的格式呈現給用戶。關鍵特性與優勢模塊化:每個智能體獨立運行,允許根據系統需求無縫添加或移除智能體。可擴展性:多個智能體并行處理查詢,能夠高效處理高查詢量。任務專業化:每個智能體針對特定類型的查詢或數據源進行優化,提高了檢索的準確性和相關性。效率:通過將任務分配給專用智能體,系統減少了瓶頸,提升了復雜工作流的性能。
4.3 分層智能體Agentic
RAG系統分層智能體RAG系統采用多層次的信息檢索和處理方法,增強了系統的效率和戰略決策能力。智能體按層次組織,高層智能體負責監督和指導低層智能體,確保查詢由最合適的資源處理。工作流程查詢接收:用戶提交查詢,由頂層智能體接收并進行初步評估。戰略決策:頂層智能體評估查詢的復雜性,并決定優先使用哪些子智能體或數據源。任務分配:頂層智能體將任務分配給低層智能體,低層智能體執行其分配的任務。數據整合與合成:低層智能體的結果由高層智能體整合,并生成連貫的響應。響應交付:最終的合成響應返回給用戶,確保響應全面且上下文相關。關鍵特性與優勢戰略優先級:頂層智能體可以根據查詢的復雜性、可靠性或上下文優先選擇數據源或任務。可擴展性:通過將任務分配給多個層次的智能體,系統能夠處理高度復雜或多方面的查詢。增強的決策能力:高層智能體通過戰略監督提高了響應的整體準確性和連貫性。
5. Agentic RAG的應用Agentic RAG系統在多個領域中展示了其變革潛力,尤其是在需要實時數據檢索、生成能力和自主決策的場景中。以下是Agentic RAG在幾個關鍵領域中的應用:
5.1 客戶支持與虛擬助手Agentic RAG系統通過實時、上下文感知的查詢解決,徹底改變了客戶支持。傳統的聊天機器人和虛擬助手通常依賴于靜態知識庫,導致生成通用或過時的響應。相比之下,Agentic RAG系統能夠動態檢索最相關的信息,適應用戶的上下文,并生成個性化的響應。用例:Twitch廣告銷售增強Twitch利用Agentic RAG系統動態檢索廣告商數據、歷史活動表現和受眾 demographics,生成詳細的廣告提案,顯著提升了運營效率。
5.2 醫療與個性化醫療在醫療領域,Agentic RAG系統通過整合患者特定數據和最新的醫學研究,幫助臨床醫生進行診斷和治療規劃。用例:患者病例摘要Agentic RAG系統通過整合電子健康記錄(EHR)和最新的醫學文獻,生成全面的患者病例摘要,幫助臨床醫生更快地做出決策。
5.3 法律與合同分析Agentic RAG系統通過快速文檔分析和決策支持工具,重新定義了法律工作流程。用例:合同審查Agentic RAG系統可以分析合同,提取關鍵條款并識別潛在風險,自動化合同審查過程,確保合規性并降低風險。
5.4 金融與風險分析Agentic RAG系統通過提供實時洞察,徹底改變了金融行業,支持投資決策、市場分析和風險管理。用例:汽車保險理賠處理Agentic RAG系統可以自動化理賠處理,通過檢索保單詳情并結合事故數據,生成理賠建議,同時確保符合監管要求。
5.5 教育與個性化學習Agentic RAG系統在教育領域也取得了顯著進展,通過生成解釋、學習材料和反饋,支持個性化學習。用例:研究論文生成Agentic RAG系統通過從多個來源綜合關鍵發現,幫助研究人員生成研究論文摘要,提升研究效率。
5.6 圖增強的多模態工作流圖增強的Agentic RAG(GEAR)結合了圖結構和檢索機制,特別適用于需要多模態數據的工作流。用例:市場調查生成GEAR能夠生成包含文本、圖像和視頻的詳細市場調查報告,幫助營銷團隊分析市場趨勢和客戶偏好。
6. Agentic RAG的工具與框架
Agentic RAG系統的開發依賴于多種工具和框架,這些工具和框架提供了強大的支持,幫助開發者構建復雜的Agentic RAG系統。以下是一些關鍵的工具和框架:
6.1 LangChain與LangGraphLangChain提供了模塊化組件,用于構建RAG管道,無縫集成檢索器、生成器和外部工具。LangGraph則通過引入基于圖的工作流,支持循環、狀態持久化和人機交互,增強了Agentic RAG系統的復雜性和自校正能力。
6.2 LlamaIndexLlamaIndex的Agentic Document Workflows(ADW)支持端到端的文檔處理、檢索和結構化推理。它引入了元智能體架構,子智能體管理較小的文檔集,頂層智能體負責協調任務,如合規性分析和上下文理解。
6.3 Hugging Face Transformers與QdrantHugging Face提供了預訓練模型,用于嵌入和生成任務,而Qdrant則通過自適應向量搜索能力增強了檢索工作流,允許智能體動態切換稀疏和密集向量方法。
6.4 CrewAI與AutoGen這些框架強調多智能體架構。CrewAI支持分層和順序流程、強大的記憶系統和工具集成。AutoGen則通過多智能體協作,支持代碼生成、工具執行和決策制定。
6.5 OpenAI Swarm框架OpenAI Swarm框架是一個輕量級的多智能體編排框架,強調智能體的自主性和結構化協作。
6.6 Agentic RAG與Vertex AIGoogle的Vertex AI平臺與Agentic RAG無縫集成,提供了構建、部署和擴展機器學習模型的平臺,支持強大的上下文感知檢索和決策工作流。
6.7 Amazon Bedrock for Agentic RAGAmazon Bedrock提供了一個強大的平臺,用于實現Agentic RAG工作流。
6.8 IBM Watson與Agentic RAGIBM的watsonx.ai支持構建Agentic RAG系統,通過集成外部信息和增強響應準確性,回答復雜查詢。
6.9 Neo4j與向量數據庫Neo4j是一個開源的圖數據庫,擅長處理復雜的關系和語義查詢。與Neo4j一起,向量數據庫如Weaviate、Pinecone、Milvus和Qdrant提供了高效的相似性搜索和檢索能力,構成了高性能Agentic RAG工作流的基礎。
7. 基準測試與數據集
當前的基準測試和數據集為評估Agentic RAG系統提供了寶貴的見解。以下是一些關鍵的基準測試和數據集:
7.1 BEIR(信息檢索基準測試)BEIR是一個多功能的基準測試,用于評估嵌入模型在各種信息檢索任務中的表現,涵蓋了生物信息學、金融和問答等多個領域的17個數據集。
7.2 MS MARCO(微軟機器閱讀理解)MS MARCO專注于段落排序和問答任務,廣泛用于RAG系統中的密集檢索任務。
7.3 TREC(文本檢索會議,深度學習賽道)TREC提供了段落和文檔檢索的數據集,強調檢索管道中排序模型的質量。
7.4 MuSiQue(多跳順序問答)MuSiQue是一個多跳推理基準測試,強調從斷開連接的上下文中檢索和綜合信息的重要性。
7.5 2WikiMultihopQA2WikiMultihopQA是一個多跳問答數據集,專注于跨多個來源連接知識的能力。7.6 AgentG(Agentic RAG知識融合)AgentG專為Agentic RAG任務設計,評估跨多個知識庫的動態信息綜合能力。
7.7 HotpotQAHotpotQA是一個多跳問答基準測試,要求對互連的上下文進行檢索和推理,適用于評估復雜的RAG工作流。
7.8 RAGBenchRAGBench是一個大規模、可解釋的基準測試,包含10萬個跨行業領域的示例,提供了可操作的RAG指標。
7.9 BERGEN(檢索增強生成基準測試)BERGEN是一個用于系統化基準測試RAG系統的庫,支持標準化實驗。7.10 FlashRAG工具包FlashRAG工具包實現了12種RAG方法,并包含32個基準測試數據集,支持高效和標準化的RAG評估。
7.11 GNN-RAGGNN-RAG評估圖基RAG系統在節點級和邊級預測任務中的表現,重點關注知識圖譜問答(KGQA)中的檢索質量和推理性能。
8. 結論
Agentic Retrieval-Augmented Generation (Agentic RAG) 代表了人工智能領域的一項重大進步,通過集成自主智能體,克服了傳統RAG系統的局限性。Agentic RAG系統通過動態決策、迭代推理和協作工作流,顯著提升了系統的適應性和精確性,使其能夠應對復雜的現實世界任務。盡管Agentic RAG系統展示了巨大的潛力,但仍面臨一些挑戰,如多智能體架構的協調復雜性、可擴展性和延遲問題,以及倫理決策的確保。未來的研究需要進一步探索這些挑戰,并開發專門的基準測試和數據集,以評估Agentic RAG系統的獨特能力。隨著人工智能系統的不斷發展,Agentic RAG將成為創建自適應、上下文感知和具有影響力的解決方案的基石,滿足快速變化的世界需求。通過解決這些挑戰并探索未來的方向,研究人員和從業者可以充分發揮Agentic RAG系統的潛力,推動跨行業和領域的變革性應用。
數據分發服務(DDS)是一種中間件協議,也是無人系統中內聚通信的主要候選協議。早先工作提出了一種包含 SATCOM 和 WiFi 鏈接的網絡架構。本文通過將 5G 通信與 DDS 集成,擴展了先前研究的網絡架構。在這種集成中,無人飛行器(UAV)的控制被卸載到 5G 網絡上,這不僅確保了無人飛行器的安全運行,還通過提供特定任務的有效載荷數據促進了一系列應用。本研究的目標是利用受控模擬,成功地將無人機連接到 5G 網絡,并分析無人機能否向地面站發送數據。此外,還對系統的延遲和吞吐量進行了分析,并與之前的設置進行了比較。
本文的貢獻如下:
探索使用包含 DDS 的多鏈路網絡架構將 5G 網絡集成到無人機控制和向地面控制站發送數據的可行性。
在理想和抖動網絡配置下,評估各節點點對點鏈路的吞吐量和延遲性能,以實現可靠和最佳通信。
當網絡配置出現抖動和損耗時,評估網絡節點之間同步多流通信的吞吐量和延遲性能。
將 5G 網絡架構的網絡性能與早期論文中的網絡架構進行比較和分析。
本文其余各章的內容安排如下: 在第 2 章中,介紹了相關著作的背景、所使用軟件的概述以及相關通信技術的背景。第 3 章介紹了擬議的 5G 網絡架構、仿真參數的選擇和仿真場景。它還討論了如何設置 5G 鏈路。隨后,第 4 章將介紹和討論仿真結果。最后,第 5 章將給出結論和對未來工作的建議。
近年來,網絡邊緣的計算設施迅猛增長,推動了邊緣計算網絡成為支持各種智能服務的基礎設施,如個人語音助手、視頻安全監控和自動駕駛車輛。同時,人工智能(AI)的前沿技術已將機器學習(ML)擴展到圖領域,并推動了圖智能(GI)的發展,這解鎖了處理、抽象和學習圖結構中海量數據的前所未有的能力。鑒于圖與網絡之間的內在關系,圖表示學習與邊緣網絡的交叉領域,即邊緣圖智能(Edge GI或EGI),揭示了它們之間的新型互動——GI模型為建模、理解和優化邊緣網絡開辟了新途徑,反過來,邊緣網絡作為訓練、部署和加速GI模型的物理支持。受此精妙閉環驅動,EGI被廣泛認為是充分釋放邊緣計算潛力的有力解決方案,正引起廣泛關注。然而,EGI的研究尚處于起步階段,通信和AI社區內對一個專門的場所分享最新進展的需求日益高漲。為此,本文提倡EGI的概念,探討其范圍和核心原則,并對這一新興領域的最新研究工作進行全面綜述,具體介紹和討論了:1)邊緣計算和圖表示學習的基本原理,2)圍繞圖智能與邊緣網絡閉環的新興技術,即“邊緣服務于GI”和“GI服務于邊緣”,以及3)未來EGI的開放挑戰和研究機會。通過跨越通信、網絡和圖學習領域的鴻溝,我們相信這篇綜述能引起更多關注,促進有意義的討論,并激發對EGI進一步研究的想法。
近年來,邊緣網絡迅速發展,通過逐步擴展的計算設施在網絡邊緣連接起來,邊緣網絡承載的數據、存儲和計算資源數量不斷增加。它們已成為支持各種應用的基礎設施,如智能工業制造、流媒體視頻分析、機器人和車輛互聯網等。作為集中核心網絡的補充對稱性,邊緣網絡位于互聯網的末端,覆蓋物理附近的用戶,提供了用戶中心的服務,減少了響應延遲,提高了資源效率,并增強了隱私和安全性。由于這些獨特的架構優勢,邊緣網絡已成為先進通信技術的重要實驗場。它們在延遲敏感、資源需求高和隱私保護的要求下,特別適合新興智能服務,并被廣泛認為是彌合人工智能(AI)與人類之間“最后一英里”的有前途的解決方案。 與此同時,AI也在快速發展。為了充分釋放大數據在各種形式中的潛力,最近的AI進展將表示學習從歐幾里得結構擴展到圖拓撲,推動了深度學習(DL)的前沿,形成了新的模型流派,即圖神經網絡(GNN)。與傳統的DNN(如CNN、RNN)通常應用1D/2D卷積不同,GNN引入了圖嵌入技術,以從圖關系中消化信息。具體來說,它在輸入圖上迭代地應用鄰域聚合,并通過神經網絡運算符從不同大小的子圖中捕捉層次模式。這使得GNN能夠抽象和學習特定頂點、鏈接或整個圖的屬性,從而推廣到未觀察到的圖。利用這種強大的表達能力,使用GNN進行學習,即圖學習(GL),在圖分析性能方面表現出色,并支持各種與圖相關的任務,從節點分類和鏈接預測到圖同構和分類。
鑒于圖智能(GI)和邊緣網絡在各自領域的顯著成功,圖與網絡之間的內在聯系促使它們走向融合。GI提供了大量的經驗學習模型(如卷積和遞歸GNN,圖自動編碼器)以及各種學習范式,如遷移學習(TL)和強化學習(RL),從圖數據中進行高級學習。相應地,邊緣網絡通常包含豐富的平臺集,包括移動設備、機器人、車輛和邊緣節點,這些平臺承載了各種基于圖的應用,如交通預測和網絡資源管理。它們的雙向互動,GI增強和優化邊緣網絡,而邊緣網絡支持和加速GI計算,形成了互相賦能的閉環,催生了它們的整合互動,即“邊緣圖智能”或簡稱“EGI”。具體來說,通過融合GI和邊緣計算,EGI在以下三個方面提供了互惠的好處:
互惠性能提升:隨著移動和物聯網設備的快速普及,邊緣網絡中生成的數據在數量和模態上急劇增加(如物理信號、數字音頻和視覺內容)。據IDC預測,邊緣網絡中的數十億物聯網設備在2025年將產生超過90 ZB的數據。這自然為修改、訓練和微調GI模型提供了數據溫床,從而推動GI模型邁向更高程度的智能。反之,鑒于在邊緣網絡中收集的豐富關系數據,GI使現代圖分析能夠理解、診斷和優化邊緣網絡,從而提高網絡性能,如魯棒性和服務質量(QoS)。
互惠能力擴展:作為互聯網的最后一英里,邊緣網絡不斷孵化圍繞終端用戶的開創性用戶中心場景,其中許多場景可以抽象為圖(如無線傳感器網絡、車輛互聯網)。這些場景作為需求側的強大動力,推動GI的發展和部署,擴大GI模型的應用范圍。反過來,將GI應用于邊緣網絡解鎖了其在確保邊緣網絡免受異常影響、開發新的基于圖的應用以及智能服務圖相關任務方面的擴展能力。這歸功于GI模型結合圖嵌入和卷積的創新機制,使GI能夠在圖中進行學習和推理,例如高精度節點識別和鏈接預測。
互惠技術民主化:技術民主化的愿景是使GI和邊緣計算更易于使用、理解和友好,惠及更多人,并已成為社會公益的重要議程。為此,GI和邊緣網絡通過互相賦能來改進彼此。一方面,邊緣網絡通過將智能計算拉近終端用戶,使其更易獲取和負擔得起,從而民主化GI,使其在各種場景中可用且個性化。另一方面,通過廣泛應用GI于邊緣網絡,邊緣網絡也得以推廣。特別是,鑒于許多GI模型計算密集和數據依賴的特點,邊緣計算通過提供低延遲和減少帶寬預算的計算資源,展示了其相對于云計算的明顯優勢,并與GI高度契合。隨著圍繞終端用戶的GI的普及,邊緣網絡也因而受到關注和部署,以實現推廣。
雖然EGI這個術語較新,但研究和實踐已早有開展。自2015年GCN發展以來,GI在AI社區中日益流行,并引發了在各種現實世界圖上構建GNN的浪潮。同時,邊緣網絡和邊緣計算也從2019年開始迅速發展,并積極擁抱AI,催生了邊緣AI或邊緣智能的概念。目前,EGI的互動已引起業界和學術界的廣泛關注,推動了許多創新優化、技術和應用在網絡邊緣的發展,例如交通流量預測、基于位置的推薦和車輛軌跡預測。作為邊緣AI的實質性擴展,EGI揭示了其基本問題——邊緣網絡和AI技術可以融合到多深,以及它們的融合可以帶來多少潛力——并通過豐富的現實應用展示了其強大的能力。
盡管如此,對EGI的討論仍然局限于單方面的維度。現有文獻要么回顧了圖學習的現狀,但對其在邊緣網絡中的應用討論有限,要么特別關注將GI技術應用于某些特定的邊緣場景(如交通領域、電網),卻忽視了一般邊緣網絡的整體視野。最近的一些文獻也回顧了GI在物聯網和無線網絡背景下的進展,但主要關注在其討論范圍內的GI應用,缺乏對“邊緣服務于GI”方面的系統分類,這是EGI閉環的基本支柱之一。雖然邊緣計算和通信社區已廣泛研究邊緣智能系統,但大多數集中于一般AI計算系統或致力于傳統DL工作負載(如CNN或RNN),對具有獨特能力和特點的GI模型理解甚少。
本文主張EGI不應僅限于在邊緣數據上應用GI或在邊緣平臺上運行GI。相反,GI和邊緣網絡正在融合,EGI應作為一個整體來看待,以反映GI和邊緣網絡之間的內在互動。這表明它們的雙向賦能需要全面探索,以便確定和衡量EGI的程度。具體來說,根據GI和邊緣網絡的融合程度,我們可以將EGI分為六個級別,如圖2所示:
Level 0:在邊緣網絡基礎設施中隱含的圖數據,分析模型對圖結構一無所知。邊緣計算系統也以無圖方式處理數據。換句話說,無論是模型側還是基礎設施側,都沒有明確處理“圖”,因此它們被歸類為初始級別。
Level 1:從邊緣網絡收集的數據被建模為圖。1級系統比0級更進一步,賦予邊緣數據圖語義(使用一般計算方法)。
Level 2:以圖形式表示的邊緣數據通過傳統圖計算算法(如PageRank和單源最短路徑算法)處理。2級系統通過啟用圖導向計算能力優于1級。
Level 3:邊緣網絡利用圖數據進行GI模型推理,模型可以在云上訓練。與較低級別相比,3級系統在邊緣網絡中引入了AI,并擁抱GI模型。
Level 4:邊緣網絡利用圖數據進行GI模型訓練。4級和3級的關鍵區別在于能夠學習邊緣原生GI模型,例如通過邊緣數據微調模型參數。
Level 5:交互式EGI,GI和邊緣網絡可以在運行時動態調整其配置,以實現最佳EGI性能。5級系統優于所有其他級別,因為它們可以動態調整GI和邊緣網絡,而較低級別的都是靜態設置。GI和邊緣網絡的兩個視角達到融合,因為它們完全和諧。
EGI的評級主要分為三個區間。第一個區間涵蓋0級到2級,其中EGI與AI關系較小,甚至處理非圖數據。第二個區間包括3級和4級,其中EGI通過在邊緣網絡上進行推理或訓練,結合了GI模型。第三個區間是5級,位于最高級別,因為其GI和邊緣網絡深度融合,并且能夠動態適應不同的場景。隨著EGI系統達到更高的級別,其GI和邊緣網絡的融合更深入。因此,GI的智能資源和邊緣網絡的基礎設施資源逐步被開發,以提高EGI性能。然而,這也可能帶來額外的開發努力和系統開銷。這種矛盾意味著在所有情況下沒有“銀彈”。相反,實際中的EGI應與用戶需求保持一致,并考慮特定應用場景和可用資源預算的聯合考慮。
在本文中,我們深入討論了GI和邊緣網絡如何互惠,并對EGI的最新研究工作進行了全面而具體的綜述。特別是,圍繞圖和網絡之間的內在聯系,本文首次揭示了GI和邊緣網絡之間的雙向互動,并根據它們的互惠互動提供了簡潔的評級。根據評級,我們的綜述確定了EGI的四個主要推動因素,如圖3所示:
邊緣GI應用(第四節):在邊緣網絡中應用GI的典型應用場景和用例;
邊緣網絡支持GI(第五節):GI模型計算的范式,包括在邊緣網絡上的模型訓練和推理;
GI優化邊緣網絡(第六節):用于優化邊緣網絡的實際GI方法,針對其具體功能;
EGI生態系統(第七節):在硬件、軟件和基準測試方面,為高性能EGI計算提供的全棧基礎設施支持。
總體而言,這些關鍵推動因素可以很好地適應閉環,即“邊緣服務于GI”和“GI服務于邊緣”,如圖1所述。在“邊緣服務于GI”的過程中,邊緣網絡為圖智能提供物理平臺和軟件堆棧,作為支持GI模型訓練和推理過程的基礎設施。更具體地說,GI模型的密集訓練工作負載可以通過邊緣資源池(如聯邦邊緣學習)來解決,并開發邊緣推理技術以在資源受限和服務水平目標(SLO)要求下部署和加速GI模型。另一方面,在“GI服務于邊緣”的過程中,帶有這些推理解決方案的GI模型可以高效地在邊緣平臺上執行,從而啟用各種基于圖的應用并優化邊緣網絡的各個方面。除了回顧這些關鍵推動因素,我們的綜述還提供了GI和邊緣網絡的基本而友好的介紹,不需要GI或邊緣計算的先驗知識。我們還討論了未來EGI的各種開放挑戰和研究方向,鼓勵AI和通信社區共同推動EGI的發展,以惠及更廣泛的人群。
本文的其余部分組織如下:首先,第二節和第三節分別簡要回顧了圖智能和邊緣計算網絡的基礎知識。接下來,后續章節介紹了與四個推動因素相關的研究工作:邊緣GI應用(第四節),邊緣網絡支持GI(第五節),GI優化邊緣網絡(第六節),以及EGI生態系統(第七節)。最后,第八節討論了EGI的開放挑戰和未來研究機會,第九節作出結論。表1列出了本文中使用的主要縮寫。
過去幾十年里,數據量激增,為依賴數據的學習型AI技術奠定了基礎。對話代理(通常稱為AI聊天機器人)在很大程度上依賴這些數據來訓練大型語言模型(LLM),并在響應用戶提示時生成新的內容(知識)。隨著OpenAI的ChatGPT的問世,基于LLM的聊天機器人在AI社區中樹立了新的標準。本文對基于LLM的聊天機器人的演變和部署進行了完整的綜述。我們首先總結了基礎聊天機器人的發展歷程,接著是LLM的演變,然后概述了當前使用中的以及開發階段的基于LLM的聊天機器人。鑒于AI聊天機器人作為生成新知識的工具,我們探討了它們在各個行業的多樣化應用。隨后,我們討論了開放性挑戰,考慮到用于訓練LLM的數據以及生成知識的濫用可能引發的諸多問題。最后,我們展望了未來,以提高它們在眾多應用中的效率和可靠性。通過梳理關鍵里程碑和當今基于LLM的聊天機器人的現狀,我們的綜述邀請讀者深入探討這個領域,反思下一代聊天機器人將如何重塑對話式AI。
近幾年,數據的指數級增長改變了數字信息的世界。2023年,全球創建、捕獲、復制和消費的數據總量約為120澤字節,預計到2024年將達到147澤字節,到2025年將超過180澤字節【1】。圖1展示了2010年至2023年數據量的增加情況,并預測了2024年和2025年的數據量。這一數據生態系統的快速擴展為人工智能(AI)領域的突破性創新鋪平了道路,促成了多種機器學習模型的發展。其中,大型語言模型(LLM)由于其在理解、生成和處理人類語言方面的卓越能力而成為一個重要的子集【2】。
在AI驅動的聊天機器人時代【15】–【17】,LLM在推動對話能力和實現類人互動方面發揮了關鍵作用【2】【7】。數據的顯著增長和計算知識的進步提高了基于LLM的聊天機器人的功能,使其在各個領域變得越來越受歡迎和廣泛采用。它們在理解和回應人類語言時所具備的前所未有的上下文相關性和準確性,以及處理大量信息流的能力,使其成為教育【18】–【20】、研究【21】–【23】、醫療保健【8】【24】【25】等諸多領域的必備工具。鑒于基于LLM的聊天機器人的巨大潛力和前景,其不斷增長的使用量和必要的優化帶來了諸多挑戰,需要進行深入的研究和評估。隨著基于LLM的聊天機器人領域的快速擴展,學者、專業人士和新手都面臨著大量的研究文獻。因此,我們的工作為應對這些不斷變化的需求提供了一份及時且完整的基于LLM的聊天機器人的綜述。
在LLM和基于LLM的聊天機器人出現之前,對話式AI面臨著諸多挑戰。早期的聊天機器人在上下文理解和領域特異性方面有限,往往提供不準確的回應。缺乏復雜的語言理解限制了它們進行類人交互的能力,導致用戶體驗顯得機械化和不連貫。在各個行業的可擴展性也存在問題,因為處理大量信息流并實時響應是個挑戰。LLM的出現徹底改變了聊天機器人,并開啟了AI驅動的交互新紀元。2023年3月,OpenAI推出了其最新的杰作GPT-4(也稱為ChatGPT Plus【29】),繼2022年11月ChatGPT 3.5首次亮相以來引發的熱議之后【30】【31】。圖2展示了自初次發布以來ChatGPT(藍色)的人氣指數,其相比于其他廣泛使用的技術(如黃色的5G、綠色的物聯網和紅色的區塊鏈)具有明顯優勢。其創新能力引發了前所未有的人氣激增,標志著AI驅動通信的新篇章。在相關發展中,谷歌于2023年2月6日宣布推出其首個基于LLM的聊天機器人BARD【32】,并于3月21日提供早期訪問【33】。此外,還有許多其他基于LLM的聊天機器人正在開發中。鑒于這些技術的深遠影響,本文綜述旨在提供關于基于LLM的聊天機器人的發展、行業應用、主要挑戰以及提高其有效性和可靠性的策略的精簡且最新的概述。我們的目標是將這些多樣化的研究整合成一篇結構合理的綜述,以便深入理解基于LLM的聊天機器人,并為讀者提供未來研究的指南。
A. 現有綜述、評論和案例研究
多篇文章回顧了基于LLM的聊天機器人的廣泛應用,突出了它們的重大影響和在各個領域所帶來的復雜挑戰。本文將討論其中的一些文章,并展示我們的綜述如何擴展和區別于它們。
【5】探討了AI和聊天機器人在學術領域的使用及其對研究和教育的倫理影響,研究了這些技術對教育評估完整性的影響及其轉變學術研究的潛力,并提出了有效解決方案以緩解教育和研究領域的倫理挑戰和可能的濫用問題。
【6】通過案例研究探討了ChatGPT如何提升在線學習。研究結果表明,學生們更傾向于使用這些代理來進行教育活動,認為其提供了更互動和更有吸引力的學習環境。Koubaa等【7】詳細審查了ChatGPT的技術創新,并在他們的綜述中開發了一種獨特的分類法,用于研究分類,探索了ChatGPT在各個領域的應用。此外,他們還強調了顯著的挑戰和未來探索的方向。【8】系統性地回顧了ChatGPT在醫療保健中的應用,重點關注教育、研究和實踐。作者概述了ChatGPT在科學寫作和個性化學習中的革命性潛力,同時批判性地分析了其優點,并承認存在的重大問題,如倫理和準確性問題。另一篇評論文章【9】評估了ChatGPT在教育中的影響,指出其在經濟學、編程、法律、醫學教育和數學等學科中的不同表現。文章突出了這一工具的潛力和挑戰,如準確性問題和抄襲,并建議更新評估方法和教育政策,以負責任地使用這些工具。【10】的作者通過虛擬和面對面的反饋進行了一項探索性調查,分析了ChatGPT在教育、醫療保健和研究中的影響。調查顯示,ChatGPT可以提高個性化學習、臨床任務和研究效率。他們還解決了主要的倫理和實際問題,建議在部署AI時要謹慎并遵循嚴格的倫理指南以應對這些挑戰。同樣,【11】對ChatGPT進行了全面分析,重點關注其演變、廣泛應用和主要挑戰。與【10】通過調查直接獲取反饋不同,【11】通過匯總現有研究的發現來評估ChatGPT的影響和挑戰,提供了更普遍的視角,而不涉及初級數據收集。進一步探討,【12】和【13】深入研究了ChatGPT的廣泛跨學科應用。【12】匯集了多個學科的見解,評估了其在市場營銷、教育和醫療保健等領域的影響,而【13】則引入了ChatGPT研究的分類法,詳細介紹了其在醫療保健、金融和環境科學等領域的應用。此外,這兩篇文章都討論了倫理考慮和實際部署方面的基本挑戰。另一篇近期文章【14】通過單一案例研究方法評估了ChatGPT和Bing Chat在化學教育中的有效性。研究分析了這些工具與模擬學生之間的廣泛互動,以提高創造力、解決問題的能力和個性化學習。研究結果顯示,兩者都是有價值的“思考代理”,但ChatGPT在提供更全面和上下文相關的回應方面明顯優于Bing Chat。
與現有工作不同,我們的綜述不僅關注具體的聊天機器人,還涵蓋了包括BARD、Bing Chat和Claude在內的各種模型。此外,我們探索了多個領域的應用,討論了各種挑戰,每個挑戰都詳細分類。表I總結了所討論文章的發現,便于對其貢獻進行比較理解。
B. 我們的貢獻
我們的綜述旨在回答以下問題:
聊天機器人如何從簡單的自動化系統發展到今天的基于LLM的變體?LLM的基礎性進步如何自LLM時代之前重新定義了聊天機器人的能力?
基于LLM的聊天機器人在不同領域的關鍵應用是什么?它們如何影響這些領域的運營動態和用戶交互?
基于LLM的聊天機器人的廣泛使用帶來了哪些挑戰?這些挑戰如何影響其性能和可靠性?
基于LLM的聊天機器人需要哪些技術改進?如何通過實施倫理指南確保其負責任的使用? 在回答這些問題時,我們提供了對聊天機器人歷史的全面概述。此外,我們討論了LLM的基礎知識,重點介紹了基于Transformers的自注意力機制和GPT模型中的創新特性,如上下文學習和鏈式思維(CoT)提示。接著,我們提供了基于LLM的聊天機器人的詳細分類,按其在教育、研究和醫療保健等領域的功能和應用進行組織。我們還承認它們在軟件工程和金融中的日益重要性。接下來,我們從技術方面探討了開放性挑戰,涵蓋了知識的時效性問題以及幻覺等問題,同時還考慮了數據透明度、偏見、隱私風險和不公平等倫理問題。然后,我們從學術濫用、過度依賴和錯誤信息傳播等角度探討了濫用問題。最后,我們討論了基于LLM的聊天機器人的未來展望,從技術改進如模型優化到遵循倫理指南和在各個領域推廣負責任的使用。我們的貢獻總結如下:
與大多數專注于特定聊天機器人或其有限方面的文章不同,我們的綜述涵蓋了多種基于LLM的模型,包括ChatGPT、BARD、Bing Chat等。
雖然大多數文章專注于單個聊天機器人在一個或多個領域的應用,而沒有詳細分類,但我們的綜述擴展到多個應用領域的各種聊天機器人。我們提供了詳細的應用分類法,結構化且深入地探索了不同聊天機器人在教育、研究、醫療保健、軟件工程和金融等領域的表現。
我們從技術、倫理和濫用角度討論了若干開放性挑戰。此外,我們圍繞知識和數據這兩個LLM的核心支柱構建了討論。這種方法展示了聊天機器人與廣泛訓練數據的交互及其后續生成新內容(知識)之間的動態關系。 綜述的其余部分安排如下:第二部分介紹了聊天機器人的基礎年、LLM的興起及基于LLM的聊天機器人的概述。第三部分重點介紹了這些聊天機器人在教育、研究和醫療保健中的應用,還涵蓋了軟件工程和金融等雜項應用。第四部分探討了這些聊天機器人固有的挑戰,第五部分探索了該領域的未來展望。最后,第六部分總結了綜述的主要發現和整體貢獻。圖3展示了我們綜述的提綱。
人工智能在軍事行動中的應用正在改變戰爭。生成式人工智能(Gen-Generation AI)是一種在戰場上特別有前途的新興人工智能能力。生成式 AI 利用算法通過從現有數據中學習來創建新穎、逼真的內容。這項技術可以通過生成合成但真實的訓練數據和模擬,在軍事環境中被證明是無價的。本文深入探討了生成式人工智能及其對人工智能戰爭未來的潛在影響。研究了最新的科學文獻和數據,分析了軍事環境中的生成式人工智能。本文還以直觀的方式解釋了關鍵的生成式 AI 技術,并討論了生成模型如何實現對戰場變量的更強大的統計分析。此外,還提出了將生成式人工智能與計算機視覺、語言處理和其他人工智能功能相結合以增強決策的獨特想法。在承認突出的倫理考慮的同時,本文旨在全面了解生成式人工智能在戰爭中的變革可能性。總體而言,生成式人工智能產生高保真模擬內容的能力可能使其成為尋求利用人工智能的現代軍隊的基本技術。
生成式人工智能是人工智能的一個分支,專注于創建新穎的內容,它通過在大型數據集上訓練算法來工作,以便它們能夠識別模式并生成模仿原始數據的新數據。這項技術有多種應用,如生成藝術、音樂和文本。對于軍事用途,生成式人工智能可以通過合成逼真的訓練模擬來增強有限的真實世界數據,減少對稀缺數據的依賴,并為戰爭啟用更強大的人工智能系統。
圖:通用機器學習與現代生成式 AI 之間的關系
科學文獻和數據驅動的分析揭示了生成式人工智能在戰爭中的潛力。研究人員已經探索將生成式人工智能用于目標識別、無人機群和決策支持系統等軍事應用。Smith等人撰寫的同行評議文章“生成式 AI 用于增強態勢感知”研究了使用生成式 AI 來提高戰場態勢感知能力。通過分析,Smith等人證明了生成式人工智能可以有效地識別大型數據集中的相關模式,以幫助軍事人員做出明智的決策。此外,本文的數據驅動分析強調了生成式人工智能模型在戰爭場景中優于傳統方法的性能。
人工智能戰爭分析依靠不同的數據源來訓練和評估軍事應用的模型。其中包括來自傳感器和監視的實時軍事情報;用于預測行動的歷史沖突數據;模擬訓練環境以改進人工智能系統;以及社交媒體等新穎的來源,以獲得更多視角。通過利用傳感器饋送、歷史數據、模擬和新興數據流,AI 模型可以獲得全面的戰場感知能力,并能夠生成預測性見解,為戰略決策提供信息。
為了澄清這一點,Smith等人使用生成對抗網絡(GAN)來生成真實的訓練數據。這種人工智能技術由兩部分組成:一個生成器,用于創建模仿真實樣本的合成數據,另一個是試圖識別合成數據的鑒別器。生成器從真實數據中學習以欺騙鑒別器。對于AI戰爭,GAN可以從歷史和模擬數據中生成不同的戰斗場景。這為軍事人員提供了多樣化的訓練情況,以建立適應性和決策能力。總之,GAN通過將創意生成器與挑剔的鑒別器進行對比來生成逼真的合成訓練數據。
概率建模技術使人工智能系統能夠在戰爭固有的不確定性中做出明智決策。通過量化不確定性和生成概率預測,貝葉斯推理等技術使軍事規劃者能夠分析風險、發現模式并制定基于預測性見解的戰略,而不僅僅是猜測。將概率模型整合到人工智能中,將戰爭分析從被動轉變為主動。
生成式人工智能與計算機視覺和自然語言處理的結合,可以為軍事應用創建復雜的人工智能系統。通過利用生成技術生成合成訓練數據,這些集成系統可以增強目標識別、戰場監視和人機交互等功能。然而,人工智能在戰爭中的開發和使用引發了深刻的倫理和法律問題,值得仔細考慮。
憑借其多樣化的應用和變革潛力,生成式人工智能成為尋求在未來戰爭中獲得優勢的軍事組織的一項強大的新功能。通過利用生成模型創建逼真的模擬、生成數據和增強決策,軍隊可以增強其系統并開發創新解決方案,以應對復雜的戰場挑戰。然而,隨著這項技術的進步,在利用其承諾和解決道德影響之間取得謹慎的平衡將是至關重要的。總體而言,生成式人工智能標志著人工智能賦能戰爭的新前沿,需要負責任的開發才能在降低風險的同時充分實現其優勢。
雖然具有高度自主性的人工智能系統的開發引起了人們的擔憂,但重要的是要注意,這些系統旨在協助人類決策,而不是完全取代它。戰爭中的生成式人工智能旨在提供更好的信息、態勢感知和預測,以支持人類決策者。人類的監督和控制對于確保在戰爭中負責任和合乎道德地部署人工智能仍然至關重要。
生成式人工智能確實有可能創造逼真的場景和合成數據,但它在欺騙策略中的使用引發了道德問題。軍事組織在戰爭中利用生成式人工智能時,必須優先考慮透明度并遵守法律和道德框架。
生成式人工智能與戰爭中的進攻和防御行動都相關。它可用于模擬和評估各種場景,提高進攻和防御策略的準備和有效性。生成合成數據的能力使人工智能系統能夠預測和應對潛在威脅,從而增強整體防御能力。
生成式 AI 可以與其他各種 AI 技術集成,例如計算機視覺、自然語言處理和強化學習。這種集成使開發更先進、更智能的人工智能系統成為可能,這些系統可以在復雜的戰爭場景中感知、理解和做出決策。通過利用不同人工智能方法的優勢,生成式人工智能可以增強現有人工智能系統在戰爭中的能力。
雖然生成式人工智能等人工智能技術有可能使某些任務和流程自動化,但它們并不打算取代人類軍事人員。其目的是加強人類決策,促進更明智的選擇,并提高運營效率。人類的判斷力、創造力和道德是人工智能系統在戰爭背景下無法完全復制的基本方面。
參考來源:Vairavan Ramanathan
大型語言模型(LLMs)在廣泛的任務中取得了顯著的成功。由于LLMs令人印象深刻的規劃和推理能力,它們被用作自動執行許多任務的自主智能體。最近,基于將一個LLM作為單一規劃或決策智能體的發展,基于LLM的多智能體系統在復雜問題解決和世界模擬方面取得了相當的進展。為了向社區提供這一動態領域的概覽,我們呈現這篇綜述,以提供關于基于LLM的多智能體系統的基本方面及挑戰的深入討論。我們的目標是讓讀者對以下問題獲得實質性的見解:基于LLM的多智能體模擬哪些領域和環境?這些智能體如何被描述,它們如何通信?什么機制有助于智能體能力的增長?對于那些有興趣深入研究這一領域的人,我們還總結了常用的數據集或基準,以便他們方便地訪問。為了讓研究人員了解最新的研究,我們維護一個開源的GitHub倉庫,致力于概述基于LLM的多智能體系統的研究。
1 引言
最近,大型語言模型(LLMs)展現出了達到與人類相當的推理和規劃能力的顯著潛力。這種能力完全符合人類對能夠感知周圍環境、做出決策并作出響應的自主智能體的期待[Xi等,2023;Wooldridge和Jennings,1995;Russell和Norvig,2009;Guo等,2023;Liang等,2023]。因此,基于LLM的智能體已被研究和快速發展,以理解和生成類似人類的指令,促進在廣泛的上下文中進行復雜的互動和決策[Yao等,2023;Shinn等,2023;Li等,2023d]。及時的綜述文章系統地總結了基于LLM的智能體的進展,如在文獻[Xi等,2023;Wang等,2023b]中所見。
基于單個LLM智能體的啟發性能力,已提出基于LLM的多智能體,以利用多個智能體的集體智能和專業化輪廓及技能。與使用單一LLM驅動的智能體的系統相比,多智能體系統通過1) 將LLMs專業化為具有不同能力的各種不同智能體,以及2) 使這些多樣化的智能體之間進行互動,有效地模擬復雜的現實世界環境,提供了先進的能力。在這一背景下,多個自主智能體協作參與規劃、討論和決策,反映了人類團隊工作在解決問題任務中的合作本質。這種方法利用了LLMs的溝通能力,借助它們生成文本進行交流和對文本輸入的響應能力。此外,它利用了LLMs在各個領域的廣泛知識和專門化特定任務的潛力。最近的研究已經展示了使用基于LLM的多智能體解決各種任務的有希望的結果,如軟件開發[Hong等,2023; Qian等,2023]、多機器人系統[Mandi等,2023; Zhang等,2023c]、社會模擬[Park等,2023; Park等,2022]、政策模擬[Xiao等,2023; Hua等,2023]以及游戲模擬[Xu等,2023c; Wang等,2023c]。由于這個領域的跨學科研究性質,它吸引了來自社會科學、心理學和政策研究等不同背景的研究者,研究論文的數量正在迅速增加,如圖1所示(受[Gao等,2023b]設計的啟發),從而擴大了基于LLM的多智能體研究的影響。盡管如此,早期的工作是獨立進行的,導致缺乏系統回顧以總結它們,建立這個領域的全面藍圖,并檢查未來的研究挑戰。這強調了我們工作的重要性,并作為呈現這篇綜述論文的動機,致力于基于LLM的多智能體系統的研究。
我們期望我們的綜述能對LLMs的研究和開發以及利用LLMs進行的更廣泛的跨學科研究做出重大貢獻。讀者將獲得關于基于LLM的多智能體(LLM-MA)系統的全面概覽,把握基于LLMs建立多智能體系統所涉及的基本概念,并捕捉到這一動態領域中最新的研究趨勢和應用。我們認識到這個領域正處于初級階段,并且隨著新方法和應用的迅速發展。為了提供一種持續的資源來補充我們的綜述論文,我們維護了一個開源的GitHub倉庫。我們希望我們的綜述能激發進一步的探索和創新,以及在廣泛的研究領域中的應用。
為了幫助來自不同背景的個人理解LLM-MA技術,并補充現有的綜述通過解決未解決的問題,我們以以下方式組織了我們的綜述論文。在第2節中闡述背景知識后,我們提出了一個關鍵問題:LLM-MA系統如何與協作任務解決環境對齊?為了回答這個問題,我們在第3節提出了一個全面的框架,用于定位、區分和連接LLM-MA系統的各個方面。我們通過討論: 1)智能體-環境界面,詳細說明智能體如何與任務環境互動; 2)智能體輪廓,解釋一個智能體如何被LLM描述以以特定方式行為; 3)智能體通信,考察智能體如何交換信息和協作;以及 4)智能體能力獲取,探索智能體如何發展其解決問題的能力。
關于LLM-MA研究的另一個視角是它們的應用。在第4節,我們將當前應用分為兩個主要流:用于問題解決的多智能體和用于世界模擬的多智能體。為了指導個人識別合適的工具和資源,我們在第5節提出了用于研究LLM-MA的開源實現框架,以及可用的數據集和基準。基于前面的總結,我們在第6節開放了對未來研究挑戰和機會的討論。結論在第7節中總結。
解析LLM-MA系統:界面、輪廓、通信和能力
在本節中,我們深入探討LLM-MA系統的復雜性,其中多個自主智能體參與類似于人類群體動力學的協作活動,應對問題解決場景。我們要解決的一個關鍵問題是,這些LLM-MA系統如何與它們的操作環境以及它們旨在實現的集體目標對齊。為了闡明這一點,我們在圖2中展示了這些系統的通用架構。我們的分析解剖了這些系統的操作框架,重點關注四個關鍵方面:智能體-環境界面、智能體輪廓、智能體通信和智能體能力獲取。
應用
LLM-MA系統已在廣泛的應用中被使用。我們在表1中總結了兩類應用:問題解決和世界模擬。我們將在下面詳細闡述這些應用。請注意,這是一個快速發展的研究領域,幾乎每天都有新應用出現。我們維護一個開源倉庫來報告最新的工作。
使用LLM-MA進行問題解決的主要動機是利用具有專門專業知識的智能體的集體能力。這些智能體,每個都作為個體行動,協作以有效地解決復雜問題,例如軟件開發、具體化智能體、科學實驗和科學辯論。 LLM-MA的另一個主流應用場景是世界模擬。這一領域的研究正在迅速增長,涵蓋了包括社會科學、游戲、心理學、經濟學、政策制定等在內的多種領域。在世界模擬中使用LLM-MA的關鍵原因在于它們出色的角色扮演能力,這對于現實地描繪模擬世界中的各種角色和觀點至關重要。世界模擬項目的環境通常被設計來反映被模擬的特定場景,智能體以各種輪廓設計以匹配這一背景。與專注于智能體合作的問題解決系統不同,世界模擬系統涉及多種智能體管理和通信方法,反映了現實世界交互的復雜性和多樣性。
結論
基于LLM的多智能體展現了激勵人心的集體智能,并迅速在研究者中獲得了越來越多的興趣。在這篇綜述中,我們首先系統回顧了LLM-MA系統的發展,通過從不同方面定位、區分和連接它們,涉及智能體-環境界面、LLMs對智能體的描述、管理智能體通信的策略以及能力獲取的范式。我們還總結了LLM-MA在問題解決和世界模擬中的應用。通過突出常用的數據集和基準,并討論挑戰和未來機會,我們希望這篇綜述能成為各個研究領域的研究者們的有用資源,激發未來的研究去探索基于LLM的多智能體的潛力。
AI Agent(人工智能代理)是一種能夠感知環境、進行決策和執行動作的智能實 體。不同于傳統的人工智能,AI Agent 具備通過獨立思考、調用工具去逐步完成給 定目標的能力。AI Agent 和大模型的區別在于,大模型與人類之間的交互是基于 prompt 實現的,用戶 prompt 是否清晰明確會影響大模型回答的效果。而 AI Agent 的工作僅需給定一個目標,它就能夠針對目標獨立思考并做出行動。和傳統的 RPA 相比,RPA 只能在給定的情況條件下,根據程序內預設好的流程來進行工作的處 理,而 AI Agent 則可以通過和環境進行交互,感知信息并做出對應的思考和行動。
大語言模型的浪潮推動了 AI Agent 相關研究快速發展,AI Agent 是當前通往 AGI 的主要探索路線。大模型龐大的訓練數據集中包含了大量人類行為數據,為模擬類 人的交互打下了堅實基礎;另一方面,隨著模型規模不斷增大,大模型涌現出了上 下文學習能力、推理能力、思維鏈等類似人類思考方式的多種能力。將大模型作為 AI Agent 的核心大腦,就可以實現以往難以實現的將復雜問題拆解成可實現的子任 務、類人的自然語言交互等能力。由于大模型仍存在大量的問題如幻覺、上下文容 量限制等,通過讓大模型借助一個或多個 Agent 的能力,構建成為具備自主思考決 策和執行能力的智能體,成為了當前通往 AGI 的主要研究方向。
一個基于大模型的 AI Agent 系統可以拆分為大模型、規劃、記憶與工具使用四個組 件部分。AI Agent 可能會成為新時代的開端,其基礎架構可以簡單劃分為 Agent = LLM + 規劃技能 + 記憶 + 工具使用,其中 LLM 扮演了 Agent 的“大腦”,在這個 系統中提供推理、規劃等能力。
AI Agent 發展迅速,出現多款“出圈”級研究成果。2023 年 3 月起,AI Agent 領 域迎來了第一次“出圈”,西部世界小鎮、BabyAGI、AutoGPT 等多款重大 Agent 研究項目均在短短兩周內陸續上線,引發了大家對 AI Agent 領域的關注。目前已經 涌現了在游戲領域大放異彩的英偉達 Voyager 智能體、能夠幫助個人完成簡單任務 的 Agent 助理 HyperWrite、以及主打個人情感陪伴的 AI 助理 Pi 等多款優秀的 Agent 成果,AI Agent 的研究進展迅速。
“Agent+”有望成為未來產品的主流,有望在多個領域實現落地應用。我們認為, AI Agent 的研究是人類不斷探索接近 AGI 的過程,隨著 Agent 變得越來越“可用” 和“好用”,“Agent+”的產品將會越來越多,未來將有望成為 AI 應用層的基本架 構,包括 to C、to B 產品等。
2B 和垂直領域仍是 AI Agents 容易率先落地的方向,用戶對 Agent 的認知正在形 成,初創企業正在卡位。由于 Agent 對環境反饋的依賴性較強,具備顯著特點的企 業環境是更加適合 Agent 建立起對某一個垂直領域認知的場景。當前關于 AI Agent 的研究主要還是以學術界和開發者為主,商業化產品極少,但是用戶對于 Agent 的 關注度正在提升,可能未來幾年間就會涌現出大量以 Agent 作為核心的產品應用到 各行各業。目前,已經有一些初創公司開始以企業的智能體平臺作為主要的產品研 發方向,例如瀾碼科技正在打造基于 LLM 的企業級 Agent 平臺。
在現代AI中,大規模的深度學習模型已經成為許多重要互聯網業務背后的核心技術,如搜索/ADs/推薦系統/CV/NLP。BERT、Vision Transformer、GPT-3和Switch Transformer模型將模型規模擴大到10億甚至萬億個參數,表明幾乎所有學習任務的精度都有了顯著提高。使用云集群進行分布式訓練是及時成功訓練此類大規模模型的關鍵。開發更先進的分布式訓練系統和算法既可以降低能量成本,也可以使我們訓練更大的模型。此外,開發聯邦學習這樣的顛覆式學習范式也至關重要,它不僅可以保護用戶的隱私,還可以分擔處理前所未有的大數據和模型的負擔。本次演講將主要討論用于大規模模型的分布式ML系統:用于云集群的動態分布式訓練(//DistML.ai)和用于邊緣設備的規模聯合學習()。
在第一部分中,我將介紹PipeTransformer,這是一種用于Transformer模型分布式訓練(BERT和ViT)的自動化彈性pipeline。在PipeTransformer中,我們設計了一種自適應的飛凍結算法,可以在訓練過程中逐步識別并凍結某些層,以及一種彈性流水線系統,可以動態減少GPU資源來訓練剩余的活動層,并在已釋放的GPU資源上分叉更多的流水線,以擴大數據并行度的寬度。在第二部分中,我將討論可擴展的聯邦學習,用于在資源受限的邊緣設備和FedML生態系統上訓練大規模模型,旨在為各種AI應用(如CV NLP、GraphNN和IoT)在邊緣進行無處不在的分布式訓練。
Chaoyang He是 FedML 聯合創始人兼 CTO,博士畢業于南加州大學,他曾在華為、百度、騰訊任職,擁有豐富的互聯網產品和業務研發經驗。