創造如《鋼鐵俠》中虛構角色 J.A.R.V.I.S 般強大且多才多藝的 AI 助理,一直以來都是人們夢寐以求的目標。隨著(多模態)大語言模型((M)LLMs)的發展,這一夢想正逐步照進現實。基于 (M)LLM 的智能體通過在操作系統(OS)所提供的環境與界面(如圖形用戶界面 GUI)中運行,從而在計算設備(例如計算機和移動電話)上自動執行任務,其能力已取得顯著進展。本文對這一類先進的智能體進行了全面綜述,我們稱之為 操作系統智能體(OS Agents)。 我們首先闡述了 OS 智能體的基本概念,探討其關鍵組成部分,包括環境、觀測空間與動作空間,并梳理了其所需的核心能力,如理解、規劃與基礎對齊(grounding)。隨后,我們分析了構建 OS 智能體的方法,重點介紹了面向特定領域的基礎模型與智能體框架。此外,我們系統回顧了現有的評估協議與基準,展示了 OS 智能體在多種任務中的評估方式。 最后,我們討論了當前面臨的挑戰,并指出未來值得探索的研究方向,包括安全性與隱私、個性化以及自我演化等。本綜述旨在整合 OS 智能體研究的現狀,為學術研究與產業發展提供參考與啟發。我們還維護了一個開源的 GitHub 倉庫,作為促進該領域持續創新的動態資源。本研究的一篇 9 頁精簡版本已被 ACL 2025 接收,以便為該領域提供簡明的入門概覽。
構建一個類似于漫威電影《鋼鐵俠》中 J.A.R.V.I.S. 的超級智能 AI 助理——能夠協助托尼·斯塔克控制各種系統并自動化任務——一直是人類的長期愿景。這類實體被稱為操作系統智能體(Operating System Agents,簡稱 OS Agents),因為它們在操作系統(OS)提供的環境和界面(如圖形用戶界面 GUI)中運行,從而利用計算設備(例如計算機和移動電話)完成各種任務。OS 智能體能夠自主完成任務,具有顯著提升全球數十億用戶生活質量的潛力。想象這樣一個世界:在線購物、旅行安排預訂等日常事務都能由這些智能體無縫處理,從而大幅提升效率與生產力。 過去,Siri【Inc., 2024】、Cortana【Research, 2024】、Amazon Alexa【Google, 2024】和 Google Assistant【Amazon, 2024】等虛擬助手已初步展示了這種潛力,但由于模型能力(如上下文理解【Tulshan and Dhage, 2019】)的限制,這些產品未能實現廣泛應用和全面功能。 幸運的是,近年來多模態大語言模型((M)LLMs)如 Gemini【Google】、GPT【OpenAI】、Grok【xAI】、Yi【01.AI】和 Claude【Anthropic】系列的進展,開啟了 OS 智能體發展的新紀元。這些模型展現出卓越的能力,使得 OS 智能體能夠更好地理解復雜任務并執行計算設備操作。一些代表性案例包括 Anthropic 推出的 Computer Use【Anthropic, 2024a】、蘋果的 Apple Intelligence【Apple, 2024】、智譜 AI 的 AutoGLM【Liu et al., 2024a】和 Google DeepMind 的 Project Mariner【DeepMind, 2024】。 例如,Computer Use 利用 Claude【Anthropic, 2024b】直接與用戶的計算機交互,旨在實現無縫任務自動化。同時,研究界也提出了多種構建基于 (M)LLM 的 OS 智能體的方案【Gur et al., 2023; You et al., 2025; Gou et al., 2024; Meng et al., 2024; Chen et al., 2024a; Wu et al., 2024a; Zhang et al., 2023a; Yan et al., 2023; Ma et al., 2023; Zhang et al., 2024a; He et al., 2024a; Wang and Liu, 2024】。例如,Wu 等人【2024a】提出的 OS-Atlas 是一個基礎 GUI 動作模型,它通過跨平臺合成 GUI 對齊數據,顯著提升了 GUI 基礎對齊能力與分布外任務表現;OS-Copilot【Wu et al., 2024b】則是一個智能體框架,旨在開發通用型智能體以自動化各種計算機任務,在多種應用場景中展現出強大的泛化能力和自我提升能力,即便在弱監督下亦表現出色。 鑒于該領域的迅速發展和日益豐富的研究成果,有必要進行一次全面綜述,以整合當前研究現狀。 在本綜述中,我們首先在第 §2 節討論 OS 智能體的基本概念,定義何謂 OS 智能體,并如圖 2 所示,重點介紹三個核心組成部分:環境、觀測空間與動作空間(§2.1)。隨后,我們總結 OS 智能體應具備的關鍵能力,包括理解、規劃與基礎對齊(§2.2)。 接下來,在第 §3 節中我們深入探討構建 OS 智能體的兩個關鍵方面:(1)面向特定領域的基礎模型開發,涵蓋架構設計、預訓練、監督微調與強化學習等內容(§3.1);(2)圍繞這些模型構建高效的智能體框架,涵蓋感知、規劃、記憶與動作等核心模塊(§3.2)。 在第 §4 節中,我們回顧了 OS 智能體常用的評估協議(§4.1)與基準數據集(§4.2),以了解其在多樣任務中的性能表現。最后在第 §5 節,我們探討 OS 智能體當前所面臨的挑戰與未來研究方向,特別關注安全與隱私問題(§5.1)、個性化與自我演化能力(§5.2)。 本綜述旨在推動 OS 智能體的研究與開發,通過深入剖析其關鍵能力、構建方法與評估方式,幫助讀者全面理解該領域的最新趨勢、技術挑戰與未來發展。我們也認識到,OS 智能體仍處于早期階段,新的方法與應用正在迅速涌現。為支持該領域的持續進展,我們維護了一個開源的 GitHub 倉庫,作為動態資源。我們希望本研究能夠激發更多創新,推動 OS 智能體在學術研究與工業應用中的發展。 //arxiv.org/abs/2508.04482
具身智能(Embodied AI)旨在發展能夠具備物理形態、并能在真實環境中進行感知、決策、行動與學習的智能系統,這為通用人工智能(AGI)的實現提供了一條有前景的路徑。盡管經過數十年的探索,具身智能體在開放動態環境中執行通用任務時,仍然難以達到人類水平的智能。近年來,大模型的突破性進展徹底革新了具身智能,顯著增強了其在感知、交互、規劃與學習方面的能力。 本文對大模型賦能的具身智能進行了全面綜述,重點聚焦于自主決策與具身學習。在決策方面,我們探討了分層決策與端到端決策兩類范式:具體而言,大模型如何增強分層決策中的高層規劃、低層執行與反饋機制;以及大模型如何提升視覺-語言-行動(Vision-Language-Action, VLA)模型以支持端到端決策。在具身學習方面,我們介紹了主流的學習方法,并深入闡述大模型如何提升模仿學習與強化學習。首次地,我們將**世界模型(World Models)**納入具身智能的綜述,介紹其設計方法及其在增強決策與學習中的關鍵作用。 盡管該領域已取得了實質性進展,但仍然存在諸多挑戰。本文最后對這些挑戰進行了討論,并展望了未來可能的研究方向。 附加關鍵詞與短語:具(ju)身智能,大模型,分(fen)層決(jue)策,端到端,模仿(fang)學習(xi),強化(hua)學習(xi),世界模型
具身智能(Embodied AI)[209] 旨在發展具備物理形態的智能系統,使其能夠在真實環境中進行感知、決策、行動與學習。該領域認為,真正的智能源于智能體與環境的交互,因此為實現通用人工智能(AGI)[184] 提供了一條前景可期的路徑。盡管具身智能的探索已經持續了數十年,但要賦予智能體類人水平的智能,使其能夠在開放、非結構化且動態的環境中執行通用任務,仍然面臨巨大挑戰。 早期的具身智能系統[21, 200] 基于符號推理與行為主義,依賴僵化的預編程規則,因而表現出有限的適應性與表層智能。盡管機器人已廣泛應用于制造、物流和特定操作,但它們的功能依然局限于可控環境。機器學習[133],尤其是深度學習[99] 的進展,為具身智能帶來了重要轉折點。基于視覺引導的規劃和基于強化學習的控制[173] 顯著降低了智能體對精確環境建模的依賴。然而,這些模型往往依賴任務特定的數據集進行訓練,在泛化性與可遷移性方面仍然存在不足,限制了其在多樣化場景下的適應能力。 近年來,大模型[149, 150, 182, 183] 的突破性進展顯著提升了具身智能的能力。憑借更強的感知、交互與規劃能力,這些模型為通用型具身智能體[137] 的發展奠定了基礎。然而,大模型賦能的具身智能仍處于萌芽階段,在泛化性、可擴展性以及無縫環境交互方面依舊面臨挑戰[177]。因此,亟需對近年來大模型賦能具身智能的研究進行全面、系統的綜述,以揭示其差距、挑戰與機遇,從而推動 AGI 的實現。 通過對相關領域的系統調研,我們發現現有研究分散、主題復雜,但缺乏系統性分類。已有綜述大多聚焦于大模型自身,例如大語言模型(LLM)[29, 151, 225] 與視覺語言模型(VLM)[104, 113, 191],而較少關注大模型與具身智能體的協同作用。即便有些綜述涉及該方向,它們也往往集中于特定組件,如規劃[188]、學習[7, 26, 204]、模擬器[201]與應用[157, 201, 209],而缺乏對整體范式及各組件如何交互以提升智能的系統性分析。此外,一些較早的綜述遺漏了最新進展,尤其是自 2024 年以來迅速興起的視覺-語言-行動(Vision-Language-Action, VLA)模型[117]與端到端決策。例如,綜述 [119] 對 VLA 模型進行了詳細介紹,但缺少與分層范式的比較以及對學習方法的深入探討。同時,由于該領域發展迅速,早期的綜述[48, 220] 已難以跟上最新研究。 在本文中,我們聚焦于大模型賦能的具身智能中的決策與學習,對相關研究進行分析與分類,厘清最新進展,指出尚存挑戰與未來方向,為研究者提供清晰的理論框架與實踐指導。我們與相關綜述的對比見表1。 本文的主要貢獻如下: 1. 從具身智能視角探討大模型賦能。 在分層決策方面,具身智能涉及高層規劃、低層執行與反饋增強,我們據此對相關工作進行回顧與分類。在端到端決策方面,具身智能依賴于 VLA 模型,因此我們綜述 VLA 模型及其增強方法。在具身學習方面,我們重點考察模仿學習(IL)與強化學習(RL):在 IL 中,大模型如何賦能策略與網絡構建;在 RL 中,大模型如何賦能獎勵函數設計與策略網絡構建。 1. 全面綜述具身決策與具身學習。 本文不僅回顧了大模型賦能下的分層與端到端決策范式并進行對比,還系統性地討論了具身學習方法,包括模仿學習、強化學習,以及遷移學習與元學習。此外,我們首次將**世界模型(World Models)**納入具身智能的綜述,探討其在決策與學習中的作用。 1. 采用水平與垂直結合的雙重分析方法。 水(shui)平(ping)分(fen)(fen)析比較了(le)多種(zhong)方(fang)法,包括不同類型的大模(mo)(mo)型、分(fen)(fen)層與(yu)端(duan)到(dao)端(duan)決策、模(mo)(mo)仿學(xue)(xue)習(xi)與(yu)強化學(xue)(xue)習(xi),以及多樣化的具(ju)身學(xue)(xue)習(xi)策略;垂(chui)直分(fen)(fen)析則追蹤核心模(mo)(mo)型或方(fang)法的演化過程,闡(chan)述其起源、進展與(yu)開放問題。這一雙(shuang)重(zhong)方(fang)法論既提(ti)供了(le)宏觀綜述,也帶來了(le)對主流方(fang)法的深入洞察。
本文的組織結構如圖1所示:第2節介紹具身智能的概念,綜述大模型并討論其通用能力提升,隨后分析大模型與具身智能的協同關系。第3節探討分層決策范式,詳細闡述大模型如何增強動態高層規劃、低層執行與基于反饋的迭代優化。第4節聚焦端到端決策,先介紹并分解 VLA 模型,再探討在感知、動作生成與部署效率方面的最新增強,并在最后與分層決策進行系統對比。第5節介紹具身學習方法,特別是大模型增強的模仿學習與強化學習。第6節討論世界模型及其在具身智能決策與學習中的作用。第7節總結開放挑戰與未來前景,第8節給出結論。
傳統上,Web 作為一個平臺,用于連接信息、資源與人,支持搜索、瀏覽和執行信息型、交易型或通信型任務等人機交互活動。最初的 Web 本質上是關于“連接”的,它將用戶與內容、服務以及彼此鏈接起來。 如今,借助大型語言模型(LLMs)驅動的 AI 智能體的興起,Web 正在發生根本性轉變,邁向“智能體網絡”(Agentic Web)——這是一個以自主、目標驅動交互為特征的互聯網新階段。在這一范式中,智能體可以彼此直接交互,為用戶規劃、協調并執行復雜任務。這種從“以人為中心”向“機器對機器”交互的轉變,使用戶能夠將意圖委托出去,從而擺脫日常數字操作,獲得更加互動化、自動化的網絡體驗。 在本文中,我們提出了一個結構化框架,用于理解和構建智能體網絡。我們回顧了 Web 從個人電腦時代到移動互聯網時代的演變過程,并指出了支撐這一轉變的核心技術基礎。在我們的框架中,一個由三大關鍵維度構成的概念模型起到了核心作用:智能性(intelligence)、交互性(interaction)與經濟性(economics)。這三者共同支撐了 AI 智能體的核心能力,如檢索、推薦、規劃與協作。 我們進一步分析了構建可擴展智能體系統所面臨的架構與基礎設施挑戰,包括通信協議、編排策略以及“智能體注意力經濟”(Agent Attention Economy)等新興范式。最后,我們討論了智能體系統的潛在應用、社會風險與治理問題,并提出了未來的研究方向,以推動構建一個開放、安全且智能的生態系統——由人類意圖與智能體行為共同塑造。 持續更新的智能體網絡相關研究合集可訪問: //github.com/SafeRL-Lab/agentic-web 關鍵詞:智能體(ti)網(wang)絡(luo),LLM 智能體(ti),Web 架(jia)構,安全與保障
長(chang)期(qi)(qi)以(yi)(yi)(yi)來(lai)(lai),Web 一(yi)(yi)(yi)(yi)(yi)直是(shi)(shi)一(yi)(yi)(yi)(yi)(yi)個連接(jie)平臺(Berners-Lee, 1999;Castells, 2002),將(jiang)人(ren)們(men)與(yu)信息(xi)、服務(wu)(wu)(wu)(wu)以(yi)(yi)(yi)及彼此(ci)鏈接(jie)起(qi)來(lai)(lai)。在(zai)(zai)(zai)(zai)早期(qi)(qi)階段,Web 支持人(ren)機交互,主(zhu)(zhu)要用(yong)于(yu)完(wan)成(cheng)(cheng)信息(xi)型(xing)(xing)(如(ru)(ru)閱讀新(xin)(xin)聞)、交易型(xing)(xing)(如(ru)(ru)在(zai)(zai)(zai)(zai)線購物)和通信型(xing)(xing)(如(ru)(ru)消息(xi)和電子郵件(jian))任務(wu)(wu)(wu)(wu)。在(zai)(zai)(zai)(zai)這(zhe)(zhe)(zhe)一(yi)(yi)(yi)(yi)(yi)時期(qi)(qi),Web 中(zhong)(zhong)的(de)(de)(de)“智(zhi)(zhi)能(neng)(neng)(neng)(neng)(neng)”主(zhu)(zhu)要體(ti)(ti)現在(zai)(zai)(zai)(zai)幫助用(yong)戶訪(fang)問、篩選和交互內容(rong)的(de)(de)(de)工具(ju)中(zhong)(zhong),如(ru)(ru)搜(sou)索引擎(Brin 和 Page, 1998)、推(tui)薦系統(tong)(Wang 等(deng)(deng), 2006;Koren 等(deng)(deng), 2009;Zhao 等(deng)(deng), 2013;Zhang 等(deng)(deng), 2013)以(yi)(yi)(yi)及用(yong)戶界(jie)(jie)面(mian)(Deaton, 2003)。然而(er),用(yong)戶始(shi)終是(shi)(shi)主(zhu)(zhu)動(dong)方,需要手動(dong)在(zai)(zai)(zai)(zai)頁面(mian)間導航、發(fa)(fa)起(qi)操(cao)作(zuo),并(bing)在(zai)(zai)(zai)(zai)每(mei)一(yi)(yi)(yi)(yi)(yi)步做出決策(ce)。 近幾(ji)年(nian),Web 正在(zai)(zai)(zai)(zai)經歷一(yi)(yi)(yi)(yi)(yi)場變革:由(you)大(da)型(xing)(xing)語言模型(xing)(xing)(LLMs)驅動(dong)的(de)(de)(de) AI 智(zhi)(zhi)能(neng)(neng)(neng)(neng)(neng)體(ti)(ti)(Yang 等(deng)(deng), 2023a;Kapoor 等(deng)(deng), 2024)正在(zai)(zai)(zai)(zai)迅速涌現。這(zhe)(zhe)(zhe)些 AI 智(zhi)(zhi)能(neng)(neng)(neng)(neng)(neng)體(ti)(ti)是(shi)(shi)一(yi)(yi)(yi)(yi)(yi)類(lei)能(neng)(neng)(neng)(neng)(neng)夠感(gan)(gan)知環境、進行(xing)(xing)推(tui)理并(bing)自(zi)主(zhu)(zhu)采取行(xing)(xing)動(dong)以(yi)(yi)(yi)完(wan)成(cheng)(cheng)用(yong)戶設定目標(biao)的(de)(de)(de)軟件(jian)實體(ti)(ti)。隨著感(gan)(gan)知與(yu)執(zhi)行(xing)(xing)組件(jian)的(de)(de)(de)融(rong)合,LLMs 的(de)(de)(de)能(neng)(neng)(neng)(neng)(neng)力已不(bu)再(zai)局限(xian)于(yu)響(xiang)應(ying)提示,而(er)是(shi)(shi)能(neng)(neng)(neng)(neng)(neng)夠通過(guo)智(zhi)(zhi)能(neng)(neng)(neng)(neng)(neng)體(ti)(ti)進行(xing)(xing)計劃、記憶,并(bing)在(zai)(zai)(zai)(zai)數(shu)字(zi)系統(tong)中(zhong)(zhong)執(zhi)行(xing)(xing)復(fu)雜(za)交互(Wang 等(deng)(deng), 2023)。更(geng)重要的(de)(de)(de)是(shi)(shi),這(zhe)(zhe)(zhe)些智(zhi)(zhi)能(neng)(neng)(neng)(neng)(neng)體(ti)(ti)不(bu)再(zai)受(shou)限(xian)于(yu)單(dan)輪交互,而(er)是(shi)(shi)能(neng)(neng)(neng)(neng)(neng)夠持續(xu)執(zhi)行(xing)(xing)復(fu)雜(za)的(de)(de)(de)、長(chang)期(qi)(qi)的(de)(de)(de)任務(wu)(wu)(wu)(wu)。此(ci)外,多(duo)個智(zhi)(zhi)能(neng)(neng)(neng)(neng)(neng)體(ti)(ti)之間還可以(yi)(yi)(yi)被(bei)編排,以(yi)(yi)(yi)協同完(wan)成(cheng)(cheng)更(geng)復(fu)雜(za)的(de)(de)(de)目標(biao)(Qian 等(deng)(deng), 2024;Yang 等(deng)(deng), 2025e;Gottweis 等(deng)(deng), 2025;Sapkota 等(deng)(deng), 2025)。 智(zhi)(zhi)能(neng)(neng)(neng)(neng)(neng)體(ti)(ti)系統(tong)的(de)(de)(de)興(xing)起(qi)由(you)兩個強大(da)趨勢推(tui)動(dong)。首先(xian),AI 助手已越來(lai)(lai)越具(ju)備(bei)在(zai)(zai)(zai)(zai)多(duo)個領域(如(ru)(ru)科研(Ren 等(deng)(deng), 2025;Huang 等(deng)(deng), 2025b;Schmidgall 等(deng)(deng), 2025)、軟件(jian)開發(fa)(fa)(Hong 等(deng)(deng), 2023;Xia 等(deng)(deng), 2024)、客戶服務(wu)(wu)(wu)(wu)(Rome 等(deng)(deng), 2024)和個人(ren)效率管理(Li 等(deng)(deng), 2024b))中(zhong)(zhong)執(zhi)行(xing)(xing)復(fu)雜(za)、多(duo)步驟任務(wu)(wu)(wu)(wu)的(de)(de)(de)能(neng)(neng)(neng)(neng)(neng)力。這(zhe)(zhe)(zhe)些智(zhi)(zhi)能(neng)(neng)(neng)(neng)(neng)體(ti)(ti)不(bu)再(zai)是(shi)(shi)被(bei)動(dong)響(xiang)應(ying)的(de)(de)(de)工具(ju),而(er)是(shi)(shi)能(neng)(neng)(neng)(neng)(neng)夠主(zhu)(zhu)動(dong)規劃、推(tui)理并(bing)持續(xu)執(zhi)行(xing)(xing)動(dong)作(zuo)的(de)(de)(de)協作(zuo)伙伴。其次,用(yong)戶在(zai)(zai)(zai)(zai)心理上(shang)也越來(lai)(lai)越接(jie)受(shou)將(jiang)不(bu)僅(jin)(jin)僅(jin)(jin)是(shi)(shi)單(dan)個查詢,而(er)是(shi)(shi)整(zheng)個工作(zuo)流(有時跨度可達數(shu)分鐘、數(shu)小時甚至數(shu)天)委(wei)托給智(zhi)(zhi)能(neng)(neng)(neng)(neng)(neng)體(ti)(ti)(Guo 等(deng)(deng), 2024;Hong 等(deng)(deng), 2024)。這(zhe)(zhe)(zhe)種對智(zhi)(zhi)能(neng)(neng)(neng)(neng)(neng)體(ti)(ti)自(zi)主(zhu)(zhu)性(xing)的(de)(de)(de)信任正在(zai)(zai)(zai)(zai)引發(fa)(fa)新(xin)(xin)的(de)(de)(de)用(yong)戶期(qi)(qi)望和交互界(jie)(jie)面(mian)形式,從而(er)推(tui)動(dong) Web 使用(yong)方式的(de)(de)(de)根本性(xing)變革。 這(zhe)(zhe)(zhe)一(yi)(yi)(yi)(yi)(yi)演變奠定了(le)我們(men)在(zai)(zai)(zai)(zai)本文中(zhong)(zhong)正式定義的(de)(de)(de)“智(zhi)(zhi)能(neng)(neng)(neng)(neng)(neng)體(ti)(ti)網絡(luo)(Agentic Web)”的(de)(de)(de)基礎。在(zai)(zai)(zai)(zai)這(zhe)(zhe)(zhe)一(yi)(yi)(yi)(yi)(yi)新(xin)(xin)興(xing)范式中(zhong)(zhong),Web 不(bu)再(zai)只(zhi)是(shi)(shi)人(ren)類(lei)與(yu)內容(rong)和服務(wu)(wu)(wu)(wu)交互的(de)(de)(de)平臺,而(er)是(shi)(shi)一(yi)(yi)(yi)(yi)(yi)個動(dong)態(tai)環境,其中(zhong)(zhong)自(zi)主(zhu)(zhu)智(zhi)(zhi)能(neng)(neng)(neng)(neng)(neng)體(ti)(ti)代表(biao)用(yong)戶進行(xing)(xing)行(xing)(xing)動(dong)、通信與(yu)協作(zuo),跨越服務(wu)(wu)(wu)(wu)與(yu)領域(Petrova 等(deng)(deng), 2025;Lù 等(deng)(deng), 2025;Chaffer, 2025)。例(li)如(ru)(ru),OpenAI 于(yu) 2025 年(nian) 7 月發(fa)(fa)布的(de)(de)(de) ChatGPT Agent,已能(neng)(neng)(neng)(neng)(neng)夠代表(biao)用(yong)戶執(zhi)行(xing)(xing)任務(wu)(wu)(wu)(wu),如(ru)(ru)為日(ri)式早餐規劃并(bing)采購食材,或預訂餐廳(ting)(OpenAI, 2025)。
智(zhi)(zhi)(zhi)(zhi)(zhi)(zhi)能(neng)(neng)(neng)(neng)(neng)(neng)體(ti)(ti)(ti)(ti)(ti)(ti)網(wang)(wang)(wang)(wang)(wang)絡(luo)(luo)(luo)是(shi)一個(ge)(ge)分布式(shi)(shi)(shi)、交(jiao)(jiao)(jiao)互式(shi)(shi)(shi)的(de)(de)(de)(de)(de)(de)(de)(de)(de)(de)互聯網(wang)(wang)(wang)(wang)(wang)生(sheng)態(tai)(tai)(tai)系(xi)統,其中(zhong)(zhong)自(zi)主(zhu)(zhu)(zhu)(zhu)軟(ruan)件智(zhi)(zhi)(zhi)(zhi)(zhi)(zhi)能(neng)(neng)(neng)(neng)(neng)(neng)體(ti)(ti)(ti)(ti)(ti)(ti)(通(tong)(tong)(tong)常由(you)大型(xing)語(yu)言(yan)模型(xing)驅(qu)動(dong)(dong)(dong))作為(wei)(wei)獨立中(zhong)(zhong)介(jie),持(chi)續(xu)(xu)地規(gui)劃、協(xie)(xie)調(diao)并執(zhi)行(xing)目(mu)標導向的(de)(de)(de)(de)(de)(de)(de)(de)(de)(de)任(ren)(ren)務。在(zai)(zai)(zai)(zai)這一范(fan)(fan)式(shi)(shi)(shi)下,Web 資源(yuan)與(yu)(yu)(yu)服(fu)(fu)(fu)務向智(zhi)(zhi)(zhi)(zhi)(zhi)(zhi)能(neng)(neng)(neng)(neng)(neng)(neng)體(ti)(ti)(ti)(ti)(ti)(ti)開放訪問(wen)(wen)(wen),支(zhi)持(chi)持(chi)續(xu)(xu)的(de)(de)(de)(de)(de)(de)(de)(de)(de)(de)智(zhi)(zhi)(zhi)(zhi)(zhi)(zhi)能(neng)(neng)(neng)(neng)(neng)(neng)體(ti)(ti)(ti)(ti)(ti)(ti)間(jian)交(jiao)(jiao)(jiao)互、動(dong)(dong)(dong)態(tai)(tai)(tai)信(xin)(xin)(xin)(xin)息(xi)交(jiao)(jiao)(jiao)換和價值創造,同時(shi)也保留(liu)傳統的(de)(de)(de)(de)(de)(de)(de)(de)(de)(de)人(ren)(ren)–Web 交(jiao)(jiao)(jiao)互模式(shi)(shi)(shi)。 與(yu)(yu)(yu)傳統 Web 主(zhu)(zhu)(zhu)(zhu)要服(fu)(fu)(fu)務于連(lian)接(jie)文檔、服(fu)(fu)(fu)務和用(yong)(yong)(yong)戶(hu)(hu)(hu)(hu)以滿足信(xin)(xin)(xin)(xin)息(xi)、交(jiao)(jiao)(jiao)易和通(tong)(tong)(tong)信(xin)(xin)(xin)(xin)需求(qiu)不(bu)同,智(zhi)(zhi)(zhi)(zhi)(zhi)(zhi)能(neng)(neng)(neng)(neng)(neng)(neng)體(ti)(ti)(ti)(ti)(ti)(ti)網(wang)(wang)(wang)(wang)(wang)絡(luo)(luo)(luo)支(zhi)持(chi)智(zhi)(zhi)(zhi)(zhi)(zhi)(zhi)能(neng)(neng)(neng)(neng)(neng)(neng)化(hua)、目(mu)標驅(qu)動(dong)(dong)(dong)的(de)(de)(de)(de)(de)(de)(de)(de)(de)(de)交(jiao)(jiao)(jiao)互。盡管訪問(wen)(wen)(wen)信(xin)(xin)(xin)(xin)息(xi)、完成(cheng)(cheng)交(jiao)(jiao)(jiao)易、實(shi)現(xian)(xian)(xian)通(tong)(tong)(tong)信(xin)(xin)(xin)(xin)的(de)(de)(de)(de)(de)(de)(de)(de)(de)(de)核心功(gong)能(neng)(neng)(neng)(neng)(neng)(neng)仍在(zai)(zai)(zai)(zai),但這些(xie)任(ren)(ren)務如今由(you)能(neng)(neng)(neng)(neng)(neng)(neng)夠(gou)推(tui)理、規(gui)劃并代表用(yong)(yong)(yong)戶(hu)(hu)(hu)(hu)行(xing)動(dong)(dong)(dong)的(de)(de)(de)(de)(de)(de)(de)(de)(de)(de)自(zi)主(zhu)(zhu)(zhu)(zhu)智(zhi)(zhi)(zhi)(zhi)(zhi)(zhi)能(neng)(neng)(neng)(neng)(neng)(neng)體(ti)(ti)(ti)(ti)(ti)(ti)所中(zhong)(zhong)介(jie)。 其本質性(xing)的(de)(de)(de)(de)(de)(de)(de)(de)(de)(de)轉(zhuan)(zhuan)變(bian)體(ti)(ti)(ti)(ti)(ti)(ti)現(xian)(xian)(xian)在(zai)(zai)(zai)(zai):從(cong)(cong)(cong)短期(qi)、一次性(xing)的(de)(de)(de)(de)(de)(de)(de)(de)(de)(de)用(yong)(yong)(yong)戶(hu)(hu)(hu)(hu)與(yu)(yu)(yu)靜(jing)態(tai)(tai)(tai)內(nei)(nei)容(rong)之(zhi)間(jian)的(de)(de)(de)(de)(de)(de)(de)(de)(de)(de)交(jiao)(jiao)(jiao)互,轉(zhuan)(zhuan)向涉及多(duo)(duo)服(fu)(fu)(fu)務、多(duo)(duo)網(wang)(wang)(wang)(wang)(wang)頁、多(duo)(duo)領(ling)域間(jian)協(xie)(xie)調(diao)動(dong)(dong)(dong)作序列的(de)(de)(de)(de)(de)(de)(de)(de)(de)(de)長期(qi)持(chi)續(xu)(xu)交(jiao)(jiao)(jiao)互。在(zai)(zai)(zai)(zai)智(zhi)(zhi)(zhi)(zhi)(zhi)(zhi)能(neng)(neng)(neng)(neng)(neng)(neng)體(ti)(ti)(ti)(ti)(ti)(ti)網(wang)(wang)(wang)(wang)(wang)絡(luo)(luo)(luo)中(zhong)(zhong),最終(zhong)用(yong)(yong)(yong)戶(hu)(hu)(hu)(hu)依然是(shi)人(ren)(ren)類(lei),但“中(zhong)(zhong)介(jie)用(yong)(yong)(yong)戶(hu)(hu)(hu)(hu)”(mid users)——即那些(xie)主(zhu)(zhu)(zhu)(zhu)動(dong)(dong)(dong)導航、處理信(xin)(xin)(xin)(xin)息(xi)、生(sheng)成(cheng)(cheng)內(nei)(nei)容(rong)并與(yu)(yu)(yu)環境交(jiao)(jiao)(jiao)互的(de)(de)(de)(de)(de)(de)(de)(de)(de)(de)主(zhu)(zhu)(zhu)(zhu)體(ti)(ti)(ti)(ti)(ti)(ti)——則(ze)是(shi) AI 智(zhi)(zhi)(zhi)(zhi)(zhi)(zhi)能(neng)(neng)(neng)(neng)(neng)(neng)體(ti)(ti)(ti)(ti)(ti)(ti)。這些(xie)智(zhi)(zhi)(zhi)(zhi)(zhi)(zhi)能(neng)(neng)(neng)(neng)(neng)(neng)體(ti)(ti)(ti)(ti)(ti)(ti)通(tong)(tong)(tong)過(guo)與(yu)(yu)(yu)分布式(shi)(shi)(shi)的(de)(de)(de)(de)(de)(de)(de)(de)(de)(de)智(zhi)(zhi)(zhi)(zhi)(zhi)(zhi)能(neng)(neng)(neng)(neng)(neng)(neng)體(ti)(ti)(ti)(ti)(ti)(ti)與(yu)(yu)(yu)服(fu)(fu)(fu)務網(wang)(wang)(wang)(wang)(wang)絡(luo)(luo)(luo)交(jiao)(jiao)(jiao)互,解釋并執(zhi)行(xing)用(yong)(yong)(yong)戶(hu)(hu)(hu)(hu)意(yi)圖(tu)。 用(yong)(yong)(yong)戶(hu)(hu)(hu)(hu)的(de)(de)(de)(de)(de)(de)(de)(de)(de)(de)查(cha)詢不(bu)再是(shi)對某一孤立信(xin)(xin)(xin)(xin)息(xi)的(de)(de)(de)(de)(de)(de)(de)(de)(de)(de)簡單請求(qiu),而(er)(er)是(shi)對一個(ge)(ge)復(fu)雜(za)任(ren)(ren)務的(de)(de)(de)(de)(de)(de)(de)(de)(de)(de)委托,這可(ke)(ke)能(neng)(neng)(neng)(neng)(neng)(neng)涉及多(duo)(duo)步的(de)(de)(de)(de)(de)(de)(de)(de)(de)(de)協(xie)(xie)商(shang)、規(gui)劃與(yu)(yu)(yu)適應。借(jie)助結(jie)構(gou)化(hua)或開放式(shi)(shi)(shi)通(tong)(tong)(tong)信(xin)(xin)(xin)(xin)協(xie)(xie)議(Yang 等(deng), 2025d),智(zhi)(zhi)(zhi)(zhi)(zhi)(zhi)能(neng)(neng)(neng)(neng)(neng)(neng)體(ti)(ti)(ti)(ti)(ti)(ti)可(ke)(ke)跨領(ling)域協(xie)(xie)作,完成(cheng)(cheng)整個(ge)(ge)工(gong)作流,最終(zhong)交(jiao)(jiao)(jiao)付體(ti)(ti)(ti)(ti)(ti)(ti)現(xian)(xian)(xian)高層(ceng)次用(yong)(yong)(yong)戶(hu)(hu)(hu)(hu)目(mu)標的(de)(de)(de)(de)(de)(de)(de)(de)(de)(de)成(cheng)(cheng)果(Lin 等(deng), 2024b;Yang 等(deng), 2025c)。圖(tu) 1 展(zhan)示了這一智(zhi)(zhi)(zhi)(zhi)(zhi)(zhi)能(neng)(neng)(neng)(neng)(neng)(neng)體(ti)(ti)(ti)(ti)(ti)(ti)中(zhong)(zhong)介(jie)過(guo)程的(de)(de)(de)(de)(de)(de)(de)(de)(de)(de)典型(xing)任(ren)(ren)務生(sheng)命周期(qi):從(cong)(cong)(cong)用(yong)(yong)(yong)戶(hu)(hu)(hu)(hu)意(yi)圖(tu)到多(duo)(duo)智(zhi)(zhi)(zhi)(zhi)(zhi)(zhi)能(neng)(neng)(neng)(neng)(neng)(neng)體(ti)(ti)(ti)(ti)(ti)(ti)執(zhi)行(xing)再到結(jie)果交(jiao)(jiao)(jiao)付。 在(zai)(zai)(zai)(zai)這一新(xin)范(fan)(fan)式(shi)(shi)(shi)下,網(wang)(wang)(wang)(wang)(wang)頁不(bu)再僅(jin)是(shi)靜(jing)態(tai)(tai)(tai)內(nei)(nei)容(rong)的(de)(de)(de)(de)(de)(de)(de)(de)(de)(de)容(rong)器,而(er)(er)演化(hua)為(wei)(wei)具有功(gong)能(neng)(neng)(neng)(neng)(neng)(neng)能(neng)(neng)(neng)(neng)(neng)(neng)力、接(jie)口(kou)和任(ren)(ren)務角色(se)的(de)(de)(de)(de)(de)(de)(de)(de)(de)(de)主(zhu)(zhu)(zhu)(zhu)動(dong)(dong)(dong)軟(ruan)件智(zhi)(zhi)(zhi)(zhi)(zhi)(zhi)能(neng)(neng)(neng)(neng)(neng)(neng)體(ti)(ti)(ti)(ti)(ti)(ti)。超鏈(lian)接(jie)也從(cong)(cong)(cong)傳統的(de)(de)(de)(de)(de)(de)(de)(de)(de)(de)被(bei)動(dong)(dong)(dong)導航路徑轉(zhuan)(zhuan)變(bian)為(wei)(wei)智(zhi)(zhi)(zhi)(zhi)(zhi)(zhi)能(neng)(neng)(neng)(neng)(neng)(neng)體(ti)(ti)(ti)(ti)(ti)(ti)間(jian)通(tong)(tong)(tong)信(xin)(xin)(xin)(xin)、動(dong)(dong)(dong)態(tai)(tai)(tai)任(ren)(ren)務分解與(yu)(yu)(yu)協(xie)(xie)同執(zhi)行(xing)的(de)(de)(de)(de)(de)(de)(de)(de)(de)(de)協(xie)(xie)調(diao)通(tong)(tong)(tong)道。因此,智(zhi)(zhi)(zhi)(zhi)(zhi)(zhi)能(neng)(neng)(neng)(neng)(neng)(neng)體(ti)(ti)(ti)(ti)(ti)(ti)網(wang)(wang)(wang)(wang)(wang)絡(luo)(luo)(luo)將(jiang) Web 從(cong)(cong)(cong)一個(ge)(ge)文檔互鏈(lian)的(de)(de)(de)(de)(de)(de)(de)(de)(de)(de)網(wang)(wang)(wang)(wang)(wang)絡(luo)(luo)(luo),轉(zhuan)(zhuan)化(hua)為(wei)(wei)一個(ge)(ge)交(jiao)(jiao)(jiao)互式(shi)(shi)(shi)、智(zhi)(zhi)(zhi)(zhi)(zhi)(zhi)能(neng)(neng)(neng)(neng)(neng)(neng)化(hua)的(de)(de)(de)(de)(de)(de)(de)(de)(de)(de)智(zhi)(zhi)(zhi)(zhi)(zhi)(zhi)能(neng)(neng)(neng)(neng)(neng)(neng)體(ti)(ti)(ti)(ti)(ti)(ti)生(sheng)態(tai)(tai)(tai)系(xi)統。 除了交(jiao)(jiao)(jiao)互模型(xing)的(de)(de)(de)(de)(de)(de)(de)(de)(de)(de)變(bian)革,智(zhi)(zhi)(zhi)(zhi)(zhi)(zhi)能(neng)(neng)(neng)(neng)(neng)(neng)體(ti)(ti)(ti)(ti)(ti)(ti)網(wang)(wang)(wang)(wang)(wang)絡(luo)(luo)(luo)還(huan)重塑了信(xin)(xin)(xin)(xin)息(xi)的(de)(de)(de)(de)(de)(de)(de)(de)(de)(de)存(cun)儲(chu)、鏈(lian)接(jie)與(yu)(yu)(yu)傳輸方式(shi)(shi)(shi)。在(zai)(zai)(zai)(zai)早期(qi)的(de)(de)(de)(de)(de)(de)(de)(de)(de)(de)個(ge)(ge)人(ren)(ren)計算(suan)機(ji)(PC)時(shi)代,Web 內(nei)(nei)容(rong)主(zhu)(zhu)(zhu)(zhu)要由(you)機(ji)構(gou)生(sheng)成(cheng)(cheng),數據體(ti)(ti)(ti)(ti)(ti)(ti)量較(jiao)小,用(yong)(yong)(yong)戶(hu)(hu)(hu)(hu)主(zhu)(zhu)(zhu)(zhu)要通(tong)(tong)(tong)過(guo)關(guan)鍵(jian)詞(ci)搜索(suo)訪問(wen)(wen)(wen)信(xin)(xin)(xin)(xin)息(xi)。隨(sui)(sui)著(zhu)移(yi)動(dong)(dong)(dong)互聯網(wang)(wang)(wang)(wang)(wang)的(de)(de)(de)(de)(de)(de)(de)(de)(de)(de)興起,用(yong)(yong)(yong)戶(hu)(hu)(hu)(hu)生(sheng)成(cheng)(cheng)內(nei)(nei)容(rong)(UGC)呈現(xian)(xian)(xian)爆炸式(shi)(shi)(shi)增長,信(xin)(xin)(xin)(xin)息(xi)規(gui)模與(yu)(yu)(yu)多(duo)(duo)樣性(xing)隨(sui)(sui)之(zhi)擴大,搜索(suo)成(cheng)(cheng)本隨(sui)(sui)之(zhi)上升,推(tui)薦系(xi)統逐漸成(cheng)(cheng)為(wei)(wei)匹(pi)配(pei)供需的(de)(de)(de)(de)(de)(de)(de)(de)(de)(de)主(zhu)(zhu)(zhu)(zhu)流范(fan)(fan)式(shi)(shi)(shi)。 而(er)(er)隨(sui)(sui)著(zhu) LLMs 與(yu)(yu)(yu)智(zhi)(zhi)(zhi)(zhi)(zhi)(zhi)能(neng)(neng)(neng)(neng)(neng)(neng)體(ti)(ti)(ti)(ti)(ti)(ti)系(xi)統的(de)(de)(de)(de)(de)(de)(de)(de)(de)(de)出(chu)現(xian)(xian)(xian),信(xin)(xin)(xin)(xin)息(xi)流的(de)(de)(de)(de)(de)(de)(de)(de)(de)(de)底層(ceng)邏(luo)輯再次發(fa)生(sheng)重大轉(zhuan)(zhuan)變(bian)。如今,世界的(de)(de)(de)(de)(de)(de)(de)(de)(de)(de)知(zhi)識不(bu)僅(jin)存(cun)儲(chu)于靜(jing)態(tai)(tai)(tai)網(wang)(wang)(wang)(wang)(wang)頁中(zhong)(zhong),也嵌入在(zai)(zai)(zai)(zai) LLMs 的(de)(de)(de)(de)(de)(de)(de)(de)(de)(de)模型(xing)參數里。智(zhi)(zhi)(zhi)(zhi)(zhi)(zhi)能(neng)(neng)(neng)(neng)(neng)(neng)體(ti)(ti)(ti)(ti)(ti)(ti)可(ke)(ke)直接(jie)訪問(wen)(wen)(wen)這些(xie)學習到的(de)(de)(de)(de)(de)(de)(de)(de)(de)(de)知(zhi)識,結(jie)合實(shi)時(shi)檢索(suo),與(yu)(yu)(yu)其他智(zhi)(zhi)(zhi)(zhi)(zhi)(zhi)能(neng)(neng)(neng)(neng)(neng)(neng)體(ti)(ti)(ti)(ti)(ti)(ti)或在(zai)(zai)(zai)(zai)線資源(yuan)進行(xing)自(zi)主(zhu)(zhu)(zhu)(zhu)交(jiao)(jiao)(jiao)互。 這使得智(zhi)(zhi)(zhi)(zhi)(zhi)(zhi)能(neng)(neng)(neng)(neng)(neng)(neng)體(ti)(ti)(ti)(ti)(ti)(ti)能(neng)(neng)(neng)(neng)(neng)(neng)夠(gou)超越傳統搜索(suo)引(yin)擎,實(shi)現(xian)(xian)(xian)主(zhu)(zhu)(zhu)(zhu)動(dong)(dong)(dong)、個(ge)(ge)性(xing)化(hua)的(de)(de)(de)(de)(de)(de)(de)(de)(de)(de)內(nei)(nei)容(rong)推(tui)薦與(yu)(yu)(yu)信(xin)(xin)(xin)(xin)息(xi)獲取。此外,智(zhi)(zhi)(zhi)(zhi)(zhi)(zhi)能(neng)(neng)(neng)(neng)(neng)(neng)體(ti)(ti)(ti)(ti)(ti)(ti)還(huan)能(neng)(neng)(neng)(neng)(neng)(neng)代表用(yong)(yong)(yong)戶(hu)(hu)(hu)(hu)完成(cheng)(cheng)交(jiao)(jiao)(jiao)易與(yu)(yu)(yu)消(xiao)費(fei)(fei)(fei)流程,創造出(chu)一種新(xin)的(de)(de)(de)(de)(de)(de)(de)(de)(de)(de)生(sheng)產–消(xiao)費(fei)(fei)(fei)動(dong)(dong)(dong)態(tai)(tai)(tai)——其中(zhong)(zhong)信(xin)(xin)(xin)(xin)息(xi)與(yu)(yu)(yu)服(fu)(fu)(fu)務的(de)(de)(de)(de)(de)(de)(de)(de)(de)(de)生(sheng)產對象不(bu)再僅(jin)是(shi)人(ren)(ren)類(lei),也可(ke)(ke)能(neng)(neng)(neng)(neng)(neng)(neng)是(shi)智(zhi)(zhi)(zhi)(zhi)(zhi)(zhi)能(neng)(neng)(neng)(neng)(neng)(neng)體(ti)(ti)(ti)(ti)(ti)(ti)本身。在(zai)(zai)(zai)(zai)某些(xie)場(chang)景中(zhong)(zhong),Web 內(nei)(nei)容(rong)甚(shen)至可(ke)(ke)能(neng)(neng)(neng)(neng)(neng)(neng)完全(quan)由(you)智(zhi)(zhi)(zhi)(zhi)(zhi)(zhi)能(neng)(neng)(neng)(neng)(neng)(neng)體(ti)(ti)(ti)(ti)(ti)(ti)實(shi)時(shi)生(sheng)成(cheng)(cheng),而(er)(er)非人(ren)(ren)類(lei)直接(jie)創作,從(cong)(cong)(cong)而(er)(er)構(gou)建出(chu)一個(ge)(ge)由(you)智(zhi)(zhi)(zhi)(zhi)(zhi)(zhi)能(neng)(neng)(neng)(neng)(neng)(neng)體(ti)(ti)(ti)(ti)(ti)(ti)同時(shi)生(sheng)產與(yu)(yu)(yu)消(xiao)費(fei)(fei)(fei)知(zhi)識的(de)(de)(de)(de)(de)(de)(de)(de)(de)(de)生(sheng)態(tai)(tai)(tai)系(xi)統。
在(zai)傳統(tong)(tong) Web 中,例(li)如(ru)訂票(piao)這樣(yang)的(de)交易型(xing)任(ren)(ren)務(wu)通(tong)常由用(yong)戶手動(dong)(dong)完(wan)成(cheng)。整個(ge)流(liu)程包(bao)括訪問旅游(you)網站、輸(shu)入(ru)搜索(suo)條件、調(diao)整篩選(xuan)器(qi)、在(zai)多個(ge)頁(ye)面之間比對票(piao)價,并(bing)最終下單。雖(sui)然(ran) Web 提供了(le)如(ru)推薦(jian)引擎、用(yong)戶界(jie)面和(he)搜索(suo)算(suan)法(fa)等(deng)輔助工具,但任(ren)(ren)務(wu)執行(xing)仍以用(yong)戶主導、逐步操作(zuo)為(wei)核(he)心。 在(zai)智(zhi)(zhi)能(neng)體(ti)網絡中,同(tong)樣(yang)的(de)任(ren)(ren)務(wu)可(ke)以通(tong)過高層次意(yi)圖的(de)委(wei)托來(lai)發(fa)起。用(yong)戶只需提供一個(ge)目標導向(xiang)的(de)指令(如(ru)“幫(bang)我預(yu)訂下周末(mo)飛往紐約(yue)的(de)航班(ban),預(yu)算(suan)范圍內”),自(zi)主智(zhi)(zhi)能(neng)體(ti)即可(ke)代表用(yong)戶執行(xing)整個(ge)流(liu)程:包(bao)括訪問服(fu)務(wu)與 API、查詢并(bing)解析網頁(ye)、根據偏好篩選(xuan)選(xuan)項,直(zhi)到(dao)完(wan)成(cheng)預(yu)訂。智(zhi)(zhi)能(neng)體(ti)可(ke)能(neng)進(jin)行(xing)多輪迭(die)代、與其他智(zhi)(zhi)能(neng)體(ti)協(xie)調(diao),且無需用(yong)戶再參與操作(zuo)。 這個(ge)例(li)子凸顯出核(he)心差異:傳統(tong)(tong) Web 由人主導操作(zuo)靜態服(fu)務(wu),而智(zhi)(zhi)能(neng)體(ti)網絡支持跨(kua)多個(ge)服(fu)務(wu)與交互的(de)持續、智(zhi)(zhi)能(neng)、機器(qi)主導的(de)工作(zuo)流(liu)。圖 2 補(bu)充說(shuo)明(ming)了(le)用(yong)戶與系統(tong)(tong)交互如(ru)何從被動(dong)(dong)消費演進(jin)為(wei)主動(dong)(dong)智(zhi)(zhi)能(neng)體(ti)委(wei)托的(de)三(san)個(ge) Web 階段。
在(zai)傳統 Web 中(zhong)(zhong),執(zhi)行諸如(ru)(ru)(ru)了解(jie)不同(tong)(tong)大型語(yu)(yu)言模型如(ru)(ru)(ru)何(he)處理(li)多模態(tai)輸(shu)入的(de)(de)(de)(de)(de)(de)信(xin)息型任務(wu)(wu)(wu),用(yong)(yong)(yong)(yong)戶需(xu)(xu)手動(dong)(dong)(dong)查(cha)找白皮書(shu)、提(ti)取架構(gou)圖(tu)、搜(sou)索(suo)(suo)基(ji)(ji)準測(ce)試結(jie)果(guo)(guo),并(bing)(bing)將(jiang)(jiang)材料整(zheng)理(li)成報(bao)告。這通(tong)常涉及(ji)在(zai)學術(shu)搜(sou)索(suo)(suo)引(yin)擎、博客文(wen)(wen)(wen)章、PDF 閱讀器(qi)(qi)與(yu)(yu)(yu)表格工(gong)具間(jian)頻(pin)繁切換。 在(zai)智(zhi)(zhi)(zhi)(zhi)(zhi)能(neng)(neng)(neng)(neng)體(ti)(ti)(ti)(ti)(ti)(ti)網(wang)(wang)絡中(zhong)(zhong),同(tong)(tong)樣(yang)(yang)的(de)(de)(de)(de)(de)(de)任務(wu)(wu)(wu)可(ke)交(jiao)由 Deep Research 智(zhi)(zhi)(zhi)(zhi)(zhi)能(neng)(neng)(neng)(neng)體(ti)(ti)(ti)(ti)(ti)(ti)處理(li)(如(ru)(ru)(ru)“請撰寫一份報(bao)告,比較 GPT-4o、Gemini 與(yu)(yu)(yu) Claude 如(ru)(ru)(ru)何(he)處理(li)文(wen)(wen)(wen)本與(yu)(yu)(yu)圖(tu)像輸(shu)入,包(bao)(bao)(bao)括表格與(yu)(yu)(yu)流(liu)程圖(tu)”)。智(zhi)(zhi)(zhi)(zhi)(zhi)能(neng)(neng)(neng)(neng)體(ti)(ti)(ti)(ti)(ti)(ti)會解(jie)析(xi)查(cha)詢并(bing)(bing)規(gui)劃多階段工(gong)作流(liu):通(tong)過(guo) API、瀏覽器(qi)(qi)訪問和模型上下(xia)文(wen)(wen)(wen)協議(yi)(MCP)(Anthropic, 2024b)等(deng)(deng)(deng)手段,從在(zai)線來(lai)源與(yu)(yu)(yu)技術(shu)資源庫中(zhong)(zhong)檢索(suo)(suo)內容;解(jie)析(xi) PDF 與(yu)(yu)(yu) HTML 文(wen)(wen)(wen)檔(dang);調用(yong)(yong)(yong)(yong)專用(yong)(yong)(yong)(yong)模塊提(ti)取表格、生(sheng)成圖(tu)示(shi)并(bing)(bing)可(ke)視化(hua)結(jie)果(guo)(guo);最終通(tong)過(guo)多步推(tui)理(li)將(jiang)(jiang)輸(shu)出(chu)整(zheng)合(he)為(wei)(wei)結(jie)構(gou)化(hua)報(bao)告。 這個(ge)例子展示(shi)了智(zhi)(zhi)(zhi)(zhi)(zhi)能(neng)(neng)(neng)(neng)體(ti)(ti)(ti)(ti)(ti)(ti)網(wang)(wang)絡如(ru)(ru)(ru)何(he)超(chao)越靜(jing)態(tai)內容獲取,進入復(fu)雜、適應(ying)性(xing)強的(de)(de)(de)(de)(de)(de)信(xin)息處理(li)階段。 因(yin)此,PageRank(Page 等(deng)(deng)(deng), 1999)等(deng)(deng)(deng)傳統 Web 基(ji)(ji)石概念,以及(ji)如(ru)(ru)(ru) Web 搜(sou)索(suo)(suo)(Broder, 2002)、推(tui)薦系(xi)統(Resnick 和 Varian, 1997)和計算廣告模型(Nelson, 1974)等(deng)(deng)(deng)更廣泛系(xi)統,都需(xu)(xu)在(zai)智(zhi)(zhi)(zhi)(zhi)(zhi)能(neng)(neng)(neng)(neng)體(ti)(ti)(ti)(ti)(ti)(ti)網(wang)(wang)絡語(yu)(yu)境下(xia)重新解(jie)讀。未(wei)來(lai),它(ta)們(men)或(huo)(huo)(huo)將(jiang)(jiang)不再僅關(guan)(guan)注靜(jing)態(tai)鏈(lian)接的(de)(de)(de)(de)(de)(de)受歡(huan)迎程度(du)或(huo)(huo)(huo)用(yong)(yong)(yong)(yong)戶歷史(shi)交(jiao)互(hu),而(er)更多衡量(liang)智(zhi)(zhi)(zhi)(zhi)(zhi)能(neng)(neng)(neng)(neng)體(ti)(ti)(ti)(ti)(ti)(ti)在(zai)網(wang)(wang)絡中(zhong)(zhong)的(de)(de)(de)(de)(de)(de)動(dong)(dong)(dong)態(tai)效用(yong)(yong)(yong)(yong)、響應(ying)性(xing)與(yu)(yu)(yu)協作潛力。 類似(si)地,原(yuan)本用(yong)(yong)(yong)(yong)于(yu)(yu)索(suo)(suo)引(yin)靜(jing)態(tai)內容的(de)(de)(de)(de)(de)(de)網(wang)(wang)頁爬蟲(chong),也可(ke)能(neng)(neng)(neng)(neng)演(yan)化(hua)為(wei)(wei)“智(zhi)(zhi)(zhi)(zhi)(zhi)能(neng)(neng)(neng)(neng)體(ti)(ti)(ti)(ti)(ti)(ti)爬蟲(chong)”——這些(xie)(xie)自主探索(suo)(suo)者能(neng)(neng)(neng)(neng)夠發現(xian)、協商并(bing)(bing)與(yu)(yu)(yu)其他智(zhi)(zhi)(zhi)(zhi)(zhi)能(neng)(neng)(neng)(neng)體(ti)(ti)(ti)(ti)(ti)(ti)交(jiao)互(hu),索(suo)(suo)引(yin)的(de)(de)(de)(de)(de)(de)對(dui)象不僅包(bao)(bao)(bao)括數(shu)據,還包(bao)(bao)(bao)括服(fu)務(wu)(wu)(wu)能(neng)(neng)(neng)(neng)力、接口功能(neng)(neng)(neng)(neng)與(yu)(yu)(yu)合(he)作記(ji)錄(lu)(lu)。網(wang)(wang)頁的(de)(de)(de)(de)(de)(de)元數(shu)據將(jiang)(jiang)變得更加豐(feng)富與(yu)(yu)(yu)可(ke)操作:除了基(ji)(ji)礎(chu)(chu)(chu)標(biao)簽(qian)或(huo)(huo)(huo)描述(shu)外,智(zhi)(zhi)(zhi)(zhi)(zhi)能(neng)(neng)(neng)(neng)體(ti)(ti)(ti)(ti)(ti)(ti)元數(shu)據還可(ke)能(neng)(neng)(neng)(neng)包(bao)(bao)(bao)括描述(shu) API 的(de)(de)(de)(de)(de)(de)標(biao)準化(hua)模式、信(xin)任等(deng)(deng)(deng)級(ji)、性(xing)能(neng)(neng)(neng)(neng)基(ji)(ji)準或(huo)(huo)(huo)協商協議(yi)等(deng)(deng)(deng)。 過(guo)去人工(gong)維護、按主題分類的(de)(de)(de)(de)(de)(de)網(wang)(wang)站目錄(lu)(lu)或(huo)(huo)(huo)黃頁,也可(ke)被重構(gou)為(wei)(wei)動(dong)(dong)(dong)態(tai)智(zhi)(zhi)(zhi)(zhi)(zhi)能(neng)(neng)(neng)(neng)體(ti)(ti)(ti)(ti)(ti)(ti)注冊中(zhong)(zhong)心(xin)或(huo)(huo)(huo)市(shi)場,根據智(zhi)(zhi)(zhi)(zhi)(zhi)能(neng)(neng)(neng)(neng)體(ti)(ti)(ti)(ti)(ti)(ti)的(de)(de)(de)(de)(de)(de)領域專長、聲譽(yu)和協作兼(jian)容性(xing)進行索(suo)(suo)引(yin)。在(zai)這樣(yang)(yang)的(de)(de)(de)(de)(de)(de)智(zhi)(zhi)(zhi)(zhi)(zhi)能(neng)(neng)(neng)(neng)體(ti)(ti)(ti)(ti)(ti)(ti)環境中(zhong)(zhong),搜(sou)索(suo)(suo)引(yin)擎有望(wang)轉變為(wei)(wei)智(zhi)(zhi)(zhi)(zhi)(zhi)能(neng)(neng)(neng)(neng)編排(pai)器(qi)(qi),不僅負責(ze)檢索(suo)(suo)相關(guan)(guan)智(zhi)(zhi)(zhi)(zhi)(zhi)能(neng)(neng)(neng)(neng)體(ti)(ti)(ti)(ti)(ti)(ti),還能(neng)(neng)(neng)(neng)組(zu)合(he)、協調并(bing)(bing)管理(li)它(ta)們(men)之間(jian)的(de)(de)(de)(de)(de)(de)工(gong)作流(liu),以完成復(fu)雜的(de)(de)(de)(de)(de)(de)委托任務(wu)(wu)(wu)。正如(ru)(ru)(ru) PageRank 曾(ceng)用(yong)(yong)(yong)(yong)于(yu)(yu)評估頁面權威性(xing),未(wei)來(lai)的(de)(de)(de)(de)(de)(de)“智(zhi)(zhi)(zhi)(zhi)(zhi)能(neng)(neng)(neng)(neng)體(ti)(ti)(ti)(ti)(ti)(ti)排(pai)名”算法可(ke)能(neng)(neng)(neng)(neng)基(ji)(ji)于(yu)(yu)協作成功率、響應(ying)性(xing)以及(ji)智(zhi)(zhi)(zhi)(zhi)(zhi)能(neng)(neng)(neng)(neng)體(ti)(ti)(ti)(ti)(ti)(ti)在(zai)多智(zhi)(zhi)(zhi)(zhi)(zhi)能(neng)(neng)(neng)(neng)體(ti)(ti)(ti)(ti)(ti)(ti)工(gong)作流(liu)中(zhong)(zhong)的(de)(de)(de)(de)(de)(de)貢獻(xian)(xian)度(du)。 上述(shu)這些(xie)(xie)重構(gou)與(yu)(yu)(yu)轉變將(jiang)(jiang)為(wei)(wei)下(xia)一代智(zhi)(zhi)(zhi)(zhi)(zhi)能(neng)(neng)(neng)(neng)體(ti)(ti)(ti)(ti)(ti)(ti)發現(xian)、信(xin)任校準、激勵對(dui)齊與(yu)(yu)(yu)協同(tong)(tong)編排(pai)的(de)(de)(de)(de)(de)(de)算法與(yu)(yu)(yu)協議(yi)奠(dian)定基(ji)(ji)礎(chu)(chu)(chu)(Lin 等(deng)(deng)(deng), 2024b;Wang 等(deng)(deng)(deng), 2025a),從而(er)推(tui)動(dong)(dong)(dong) Web 成為(wei)(wei)一個(ge)開(kai)放、分布式、持續演(yan)化(hua)的(de)(de)(de)(de)(de)(de)協作智(zhi)(zhi)(zhi)(zhi)(zhi)能(neng)(neng)(neng)(neng)集合(he)體(ti)(ti)(ti)(ti)(ti)(ti)。 因(yin)此,我們(men)亟需(xu)(xu)重新審視 Web 的(de)(de)(de)(de)(de)(de)基(ji)(ji)礎(chu)(chu)(chu)技術(shu)與(yu)(yu)(yu)模塊,并(bing)(bing)從智(zhi)(zhi)(zhi)(zhi)(zhi)能(neng)(neng)(neng)(neng)體(ti)(ti)(ti)(ti)(ti)(ti)自主性(xing)與(yu)(yu)(yu)協同(tong)(tong)的(de)(de)(de)(de)(de)(de)視角重新定義這些(xie)(xie)組(zu)件。從 HTTP 協議(yi)、HTML 語(yu)(yu)義,到索(suo)(suo)引(yin)、搜(sou)索(suo)(suo)與(yu)(yu)(yu)推(tui)薦系(xi)統等(deng)(deng)(deng)核心(xin)構(gou)件,都必須在(zai)智(zhi)(zhi)(zhi)(zhi)(zhi)能(neng)(neng)(neng)(neng)體(ti)(ti)(ti)(ti)(ti)(ti)驅動(dong)(dong)(dong)的(de)(de)(de)(de)(de)(de)未(wei)來(lai)語(yu)(yu)境下(xia)重新思考(kao)。盡管“智(zhi)(zhi)(zhi)(zhi)(zhi)能(neng)(neng)(neng)(neng)體(ti)(ti)(ti)(ti)(ti)(ti) AI”迅速崛起(qi),目前的(de)(de)(de)(de)(de)(de)研究文(wen)(wen)(wen)獻(xian)(xian)中(zhong)(zhong)仍缺(que)乏對(dui)這些(xie)(xie) Web 基(ji)(ji)礎(chu)(chu)(chu)設施在(zai)智(zhi)(zhi)(zhi)(zhi)(zhi)能(neng)(neng)(neng)(neng)體(ti)(ti)(ti)(ti)(ti)(ti)范式下(xia)的(de)(de)(de)(de)(de)(de)系(xi)統性(xing)分析(xi)與(yu)(yu)(yu)重構(gou)。 填補(bu)這一空白對(dui)于(yu)(yu)理(li)解(jie)并(bing)(bing)塑造下(xia)一代互(hu)聯(lian)網(wang)(wang)至關(guan)(guan)重要,而(er)這正是本文(wen)(wen)(wen)的(de)(de)(de)(de)(de)(de)目標(biao)所在(zai)。
第(di)(di)(di) 2 節(jie)(jie)回(hui)顧(gu)了(le)(le) Web 的(de)(de)歷史演變,并結(jie)合預測(ce)性分析(xi)描繪(hui)了(le)(le)智(zhi)(zhi)能(neng)體(ti)(ti)網(wang)(wang)絡的(de)(de)未(wei)來(lai)發展(zhan)(zhan)軌跡。 * 第(di)(di)(di) 3 節(jie)(jie)提(ti)(ti)出并概念化了(le)(le)智(zhi)(zhi)能(neng)體(ti)(ti)網(wang)(wang)絡,作為一種全新(xin)的(de)(de) Web 形態,提(ti)(ti)出三(san)維模型(xing)并給出一系列研究(jiu)命題(ti)以(yi)刻畫其動態特(te)征。 * 第(di)(di)(di) 4 節(jie)(jie)深入探(tan)討(tao)了(le)(le)智(zhi)(zhi)能(neng)體(ti)(ti)網(wang)(wang)絡的(de)(de)核心任務與關鍵(jian)支撐技(ji)術,包(bao)括信(xin)息(xi)檢(jian)索、推(tui)薦系統、智(zhi)(zhi)能(neng)體(ti)(ti)規劃、多(duo)智(zhi)(zhi)能(neng)體(ti)(ti)學習與協同等內容。 * 第(di)(di)(di) 5 節(jie)(jie)分析(xi)了(le)(le)系統層面正在演化的(de)(de)技(ji)術生態,并提(ti)(ti)出構建智(zhi)(zhi)能(neng)體(ti)(ti)網(wang)(wang)絡基礎(chu)設施(shi)的(de)(de)核心設計原則。 * 第(di)(di)(di) 6 節(jie)(jie)展(zhan)(zhan)示了(le)(le)代表(biao)性應用(yong)場(chang)景(jing),如電商下單、旅(lv)行規劃與企業(ye)知識助手等。 * 第(di)(di)(di) 7 節(jie)(jie)探(tan)討(tao)了(le)(le)相關的(de)(de)技(ji)術風險、信(xin)息(xi)安全問(wen)題(ti)、監(jian)管挑戰(zhan)與潛在緩解策(ce)略。 * 最后,第(di)(di)(di) 8 與第(di)(di)(di) 9 節(jie)(jie)總(zong)結(jie)了(le)(le)本(ben)文的(de)(de)核心觀點,并展(zhan)(zhan)望了(le)(le)智(zhi)(zhi)能(neng)體(ti)(ti)網(wang)(wang)絡的(de)(de)未(wei)來(lai)發展(zhan)(zhan)路徑。
隨著大語言模型(LLMs)的最新進展,智能體人工智能(Agentic AI)在現實世界應用中變得愈發顯著,逐漸向基于多LLM的智能體發展,使其能夠感知、學習、推理并協同行動。這些基于LLM的多智能體系統(MASs)使得一組智能體能夠協調并大規模地共同解決復雜任務,從孤立的模型轉向以協作為核心的方法。本文對MASs的協作方面進行了廣泛綜述,并引入了一個可擴展的框架以指導未來研究。我們的框架基于關鍵維度對協作機制進行了分類:參與者(涉及的智能體)、類型(如合作、競爭或競合)、結構(如點對點、集中式或分布式)、策略(如基于角色或基于模型)以及協調協議。通過對現有方法的回顧,我們的研究結果為揭示和推進基于LLM的MASs提供了基礎,旨在為復雜的現實世界用例提供更智能和協作的解決方案。此外,本文還探討了MASs在多個領域的廣泛應用,包括5G/6G網絡、工業5.0、問答系統以及社會和文化場景,展示了其廣泛采用和深遠影響。最后,我們總結了關鍵經驗教訓、開放挑戰以及MASs在實現人工集體智能方面的潛在研究方向。 //arxiv.org/pdf/2501.06322
近年(nian)來,大語言模(mo)型(LLMs)的(de)(de)(de)(de)(de)(de)(de)(de)(de)進展徹底改變了(le)(le)(le)人(ren)(ren)工(gong)智(zhi)(zhi)能(neng)(neng)(neng)(neng)(neng)(AI)領(ling)域,使(shi)其(qi)(qi)能(neng)(neng)(neng)(neng)(neng)夠(gou)執行(xing)(xing)復(fu)雜的(de)(de)(de)(de)(de)(de)(de)(de)(de)任(ren)務(wu)(wu)(wu),如(ru)創(chuang)意(yi)寫(xie)作(zuo)、推理和(he)(he)(he)決(jue)(jue)(jue)策(ce),甚(shen)至在(zai)某(mou)些方(fang)面(mian)可與(yu)人(ren)(ren)類(lei)水平相(xiang)媲美 [156]。然而(er),盡管這(zhe)些模(mo)型在(zai)個(ge)(ge)(ge)(ge)(ge)(ge)體(ti)層面(mian)展現(xian)了(le)(le)(le)卓越的(de)(de)(de)(de)(de)(de)(de)(de)(de)能(neng)(neng)(neng)(neng)(neng)力(li)(li)(li),它們仍存在(zai)一(yi)些固有(you)(you)(you)(you)局(ju)限(xian)性(xing),例如(ru)幻覺問(wen)題 [57]、自(zi)(zi)回歸(gui)特性(xing)(如(ru)無法(fa)進行(xing)(xing)慢思考 [49])以及(ji)擴展規(gui)(gui)律 [55, 69]。為了(le)(le)(le)解(jie)(jie)決(jue)(jue)(jue)這(zhe)些挑戰,智(zhi)(zhi)能(neng)(neng)(neng)(neng)(neng)體(ti)人(ren)(ren)工(gong)智(zhi)(zhi)能(neng)(neng)(neng)(neng)(neng)(Agentic AI)將LLMs作(zuo)為“大腦”或“協(xie)(xie)調者(zhe)”,將其(qi)(qi)與(yu)外(wai)部工(gong)具(ju)和(he)(he)(he)議程(如(ru)規(gui)(gui)劃)相(xiang)結(jie)合,使(shi)基(ji)(ji)于(yu)(yu)LLM的(de)(de)(de)(de)(de)(de)(de)(de)(de)智(zhi)(zhi)能(neng)(neng)(neng)(neng)(neng)體(ti)能(neng)(neng)(neng)(neng)(neng)夠(gou)采取(qu)行(xing)(xing)動、解(jie)(jie)決(jue)(jue)(jue)復(fu)雜問(wen)題,并(bing)(bing)與(yu)外(wai)部環境進行(xing)(xing)學習和(he)(he)(he)交互 [1,2]。此外(wai),研究(jiu)人(ren)(ren)員(yuan)越來越多(duo)地探索水平擴展——利(li)用多(duo)個(ge)(ge)(ge)(ge)(ge)(ge)基(ji)(ji)于(yu)(yu)LLM的(de)(de)(de)(de)(de)(de)(de)(de)(de)智(zhi)(zhi)能(neng)(neng)(neng)(neng)(neng)體(ti)協(xie)(xie)同(tong)工(gong)作(zuo),以實(shi)(shi)(shi)現(xian)集(ji)(ji)(ji)體(ti)智(zhi)(zhi)能(neng)(neng)(neng)(neng)(neng)。這(zhe)種方(fang)法(fa)與(yu)多(duo)智(zhi)(zhi)能(neng)(neng)(neng)(neng)(neng)體(ti)系統(tong)(MASs)和(he)(he)(he)協(xie)(xie)作(zuo)AI的(de)(de)(de)(de)(de)(de)(de)(de)(de)研究(jiu)方(fang)向一(yi)致(zhi),后者(zhe)專注于(yu)(yu)使(shi)智(zhi)(zhi)能(neng)(neng)(neng)(neng)(neng)體(ti)群體(ti)能(neng)(neng)(neng)(neng)(neng)夠(gou)協(xie)(xie)調、共(gong)(gong)(gong)(gong)享知(zhi)識并(bing)(bing)共(gong)(gong)(gong)(gong)同(tong)解(jie)(jie)決(jue)(jue)(jue)問(wen)題。這(zhe)些領(ling)域的(de)(de)(de)(de)(de)(de)(de)(de)(de)融合催生了(le)(le)(le)基(ji)(ji)于(yu)(yu)LLM的(de)(de)(de)(de)(de)(de)(de)(de)(de)MASs,它們利(li)用多(duo)個(ge)(ge)(ge)(ge)(ge)(ge)LLM的(de)(de)(de)(de)(de)(de)(de)(de)(de)集(ji)(ji)(ji)體(ti)智(zhi)(zhi)能(neng)(neng)(neng)(neng)(neng)來應(ying)對復(fu)雜的(de)(de)(de)(de)(de)(de)(de)(de)(de)多(duo)步(bu)驟挑戰 [118]。MASs的(de)(de)(de)(de)(de)(de)(de)(de)(de)靈感不(bu)僅來自(zi)(zi)技術(shu)進步(bu),還(huan)源于(yu)(yu)人(ren)(ren)類(lei)集(ji)(ji)(ji)體(ti)智(zhi)(zhi)能(neng)(neng)(neng)(neng)(neng)(如(ru)“心(xin)智(zhi)(zhi)社(she)(she)會(hui)” [87]、“心(xin)智(zhi)(zhi)理論” [45])。人(ren)(ren)類(lei)社(she)(she)會(hui)擅(shan)長(chang)通過(guo)(guo)團隊(dui)合作(zuo)和(he)(he)(he)專業化實(shi)(shi)(shi)現(xian)共(gong)(gong)(gong)(gong)同(tong)目(mu)標,從日常任(ren)務(wu)(wu)(wu)到科學發現(xian)皆是如(ru)此。類(lei)似(si)地,MASs旨在(zai)模(mo)擬(ni)這(zhe)些原則(ze),使(shi)AI智(zhi)(zhi)能(neng)(neng)(neng)(neng)(neng)體(ti)能(neng)(neng)(neng)(neng)(neng)夠(gou)通過(guo)(guo)結(jie)合各自(zi)(zi)的(de)(de)(de)(de)(de)(de)(de)(de)(de)優勢和(he)(he)(he)視角進行(xing)(xing)有(you)(you)(you)(you)效(xiao)協(xie)(xie)作(zuo)。基(ji)(ji)于(yu)(yu)LLM的(de)(de)(de)(de)(de)(de)(de)(de)(de)MAS可以具(ju)有(you)(you)(you)(you)多(duo)種不(bu)同(tong)特性(xing)的(de)(de)(de)(de)(de)(de)(de)(de)(de)協(xie)(xie)作(zuo)渠道,如(ru)圖(tu)1所示。MASs在(zai)各個(ge)(ge)(ge)(ge)(ge)(ge)領(ling)域取(qu)得了(le)(le)(le)顯著成功,通過(guo)(guo)利(li)用專業智(zhi)(zhi)能(neng)(neng)(neng)(neng)(neng)體(ti)之(zhi)間的(de)(de)(de)(de)(de)(de)(de)(de)(de)協(xie)(xie)作(zuo)和(he)(he)(he)協(xie)(xie)調,增(zeng)強了(le)(le)(le)個(ge)(ge)(ge)(ge)(ge)(ge)體(ti)LLM的(de)(de)(de)(de)(de)(de)(de)(de)(de)能(neng)(neng)(neng)(neng)(neng)力(li)(li)(li)。這(zhe)些系統(tong)在(zai)智(zhi)(zhi)能(neng)(neng)(neng)(neng)(neng)體(ti)之(zhi)間分(fen)配任(ren)務(wu)(wu)(wu),使(shi)智(zhi)(zhi)能(neng)(neng)(neng)(neng)(neng)體(ti)能(neng)(neng)(neng)(neng)(neng)夠(gou)共(gong)(gong)(gong)(gong)享知(zhi)識、執行(xing)(xing)子任(ren)務(wu)(wu)(wu),并(bing)(bing)將其(qi)(qi)努力(li)(li)(li)與(yu)共(gong)(gong)(gong)(gong)同(tong)目(mu)標對齊。MASs的(de)(de)(de)(de)(de)(de)(de)(de)(de)潛(qian)在(zai)益處是變革性(xing)的(de)(de)(de)(de)(de)(de)(de)(de)(de)。它們在(zai)知(zhi)識記憶方(fang)面(mian)表(biao)現(xian)出色,使(shi)分(fen)布式(shi)智(zhi)(zhi)能(neng)(neng)(neng)(neng)(neng)體(ti)能(neng)(neng)(neng)(neng)(neng)夠(gou)保留和(he)(he)(he)共(gong)(gong)(gong)(gong)享多(duo)樣化的(de)(de)(de)(de)(de)(de)(de)(de)(de)知(zhi)識庫,而(er)不(bu)會(hui)使(shi)單個(ge)(ge)(ge)(ge)(ge)(ge)系統(tong)過(guo)(guo)載 [51, 154]。它們通過(guo)(guo)將任(ren)務(wu)(wu)(wu)分(fen)配給(gei)多(duo)個(ge)(ge)(ge)(ge)(ge)(ge)智(zhi)(zhi)能(neng)(neng)(neng)(neng)(neng)體(ti)來增(zeng)強長(chang)期規(gui)(gui)劃能(neng)(neng)(neng)(neng)(neng)力(li)(li)(li),支持在(zai)長(chang)期交互中(zhong)持續解(jie)(jie)決(jue)(jue)(jue)問(wen)題 [58]。此外(wai),MASs通過(guo)(guo)匯集(ji)(ji)(ji)具(ju)有(you)(you)(you)(you)專門提示/角色的(de)(de)(de)(de)(de)(de)(de)(de)(de)多(duo)個(ge)(ge)(ge)(ge)(ge)(ge)模(mo)型的(de)(de)(de)(de)(de)(de)(de)(de)(de)專業知(zhi)識,實(shi)(shi)(shi)現(xian)了(le)(le)(le)有(you)(you)(you)(you)效(xiao)的(de)(de)(de)(de)(de)(de)(de)(de)(de)泛(fan)化,使(shi)其(qi)(qi)能(neng)(neng)(neng)(neng)(neng)夠(gou)比獨立模(mo)型更有(you)(you)(you)(you)效(xiao)地解(jie)(jie)決(jue)(jue)(jue)多(duo)樣化問(wen)題。最后,MASs通過(guo)(guo)同(tong)時管理由專業智(zhi)(zhi)能(neng)(neng)(neng)(neng)(neng)體(ti)處理的(de)(de)(de)(de)(de)(de)(de)(de)(de)子任(ren)務(wu)(wu)(wu),提高(gao)了(le)(le)(le)交互效(xiao)率(lv),加速了(le)(le)(le)復(fu)雜多(duo)步(bu)驟任(ren)務(wu)(wu)(wu)的(de)(de)(de)(de)(de)(de)(de)(de)(de)解(jie)(jie)決(jue)(jue)(jue)。MAS致(zhi)力(li)(li)(li)于(yu)(yu)實(shi)(shi)(shi)現(xian)集(ji)(ji)(ji)體(ti)智(zhi)(zhi)能(neng)(neng)(neng)(neng)(neng),即多(duo)個(ge)(ge)(ge)(ge)(ge)(ge)智(zhi)(zhi)能(neng)(neng)(neng)(neng)(neng)體(ti)的(de)(de)(de)(de)(de)(de)(de)(de)(de)綜合能(neng)(neng)(neng)(neng)(neng)力(li)(li)(li)超越其(qi)(qi)個(ge)(ge)(ge)(ge)(ge)(ge)體(ti)貢獻的(de)(de)(de)(de)(de)(de)(de)(de)(de)總和(he)(he)(he) [24]。有(you)(you)(you)(you)效(xiao)MASs的(de)(de)(de)(de)(de)(de)(de)(de)(de)一(yi)個(ge)(ge)(ge)(ge)(ge)(ge)主要關注點是協(xie)(xie)作(zuo)機(ji)制(zhi) [33, 74, 75, 97, 132],這(zhe)些機(ji)制(zhi)推動了(le)(le)(le)從傳統(tong)的(de)(de)(de)(de)(de)(de)(de)(de)(de)孤立模(mo)型向強調交互的(de)(de)(de)(de)(de)(de)(de)(de)(de)方(fang)法(fa)的(de)(de)(de)(de)(de)(de)(de)(de)(de)轉變,使(shi)智(zhi)(zhi)能(neng)(neng)(neng)(neng)(neng)體(ti)能(neng)(neng)(neng)(neng)(neng)夠(gou)連接、協(xie)(xie)商、決(jue)(jue)(jue)策(ce)、規(gui)(gui)劃并(bing)(bing)共(gong)(gong)(gong)(gong)同(tong)行(xing)(xing)動,從而(er)在(zai)集(ji)(ji)(ji)體(ti)環境中(zhong)推動AI能(neng)(neng)(neng)(neng)(neng)力(li)(li)(li)的(de)(de)(de)(de)(de)(de)(de)(de)(de)提升。深入了(le)(le)(le)解(jie)(jie)協(xie)(xie)作(zuo)機(ji)制(zhi)在(zai)MASs中(zhong)的(de)(de)(de)(de)(de)(de)(de)(de)(de)運作(zuo)方(fang)式(shi),對于(yu)(yu)釋放其(qi)(qi)全部潛(qian)力(li)(li)(li)至關重要。
由于(yu)(yu)(yu)基(ji)于(yu)(yu)(yu)LLM的(de)(de)(de)(de)(de)(de)(de)多(duo)智(zhi)(zhi)(zhi)(zhi)(zhi)(zhi)能(neng)體(ti)協(xie)(xie)(xie)作(zuo)(zuo)(zuo)(zuo)(zuo)(zuo)(zuo)(zuo)系(xi)統的(de)(de)(de)(de)(de)(de)(de)重要(yao)(yao)性(xing)和(he)(he)(he)(he)(he)(he)(he)迫切需(xu)求(qiu),已有(you)(you)(you)一些(xie)(xie)關(guan)于(yu)(yu)(yu)該主題的(de)(de)(de)(de)(de)(de)(de)綜(zong)述(shu)。然(ran)而(er),這(zhe)些(xie)(xie)工(gong)作(zuo)(zuo)(zuo)(zuo)(zuo)(zuo)(zuo)(zuo)往往未能(neng)全面(mian)(mian)探(tan)(tan)(tan)討(tao)基(ji)于(yu)(yu)(yu)LLM的(de)(de)(de)(de)(de)(de)(de)MASs的(de)(de)(de)(de)(de)(de)(de)協(xie)(xie)(xie)作(zuo)(zuo)(zuo)(zuo)(zuo)(zuo)(zuo)(zuo)方面(mian)(mian)和(he)(he)(he)(he)(he)(he)(he)機制(zhi)(zhi),而(er)這(zhe)些(xie)(xie)對(dui)(dui)(dui)于(yu)(yu)(yu)使(shi)(shi)(shi)智(zhi)(zhi)(zhi)(zhi)(zhi)(zhi)能(neng)體(ti)能(neng)夠有(you)(you)(you)效實(shi)現(xian)共同目標至(zhi)關(guan)重要(yao)(yao),如(ru)(ru)(ru)表1所總結(jie)。例如(ru)(ru)(ru),[47, 107, 136] 主要(yao)(yao)關(guan)注(zhu)單智(zhi)(zhi)(zhi)(zhi)(zhi)(zhi)能(neng)體(ti)系(xi)統,僅淺(qian)顯地(di)涉(she)及多(duo)智(zhi)(zhi)(zhi)(zhi)(zhi)(zhi)能(neng)體(ti)協(xie)(xie)(xie)作(zuo)(zuo)(zuo)(zuo)(zuo)(zuo)(zuo)(zuo)。[136] 提出(chu)了(le)(le)一個(ge)(ge)(ge)基(ji)于(yu)(yu)(yu)LLM的(de)(de)(de)(de)(de)(de)(de)智(zhi)(zhi)(zhi)(zhi)(zhi)(zhi)能(neng)體(ti)框架,包括三個(ge)(ge)(ge)組件:大(da)腦、感知(zhi)和(he)(he)(he)(he)(he)(he)(he)行(xing)動(dong)。他(ta)們(men)的(de)(de)(de)(de)(de)(de)(de)工(gong)作(zuo)(zuo)(zuo)(zuo)(zuo)(zuo)(zuo)(zuo)強(qiang)(qiang)調(diao)(diao)了(le)(le)將(jiang)LLMs作(zuo)(zuo)(zuo)(zuo)(zuo)(zuo)(zuo)(zuo)為(wei)(wei)智(zhi)(zhi)(zhi)(zhi)(zhi)(zhi)能(neng)體(ti)的(de)(de)(de)(de)(de)(de)(de)“大(da)腦”,利用(yong)(yong)輸(shu)入(ru)模(mo)(mo)態集(ji)(ji)(ji)成(cheng)、提示、檢索和(he)(he)(he)(he)(he)(he)(he)工(gong)具使(shi)(shi)(shi)用(yong)(yong)等(deng)技術。然(ran)而(er),他(ta)們(men)對(dui)(dui)(dui)多(duo)智(zhi)(zhi)(zhi)(zhi)(zhi)(zhi)能(neng)體(ti)協(xie)(xie)(xie)作(zuo)(zuo)(zuo)(zuo)(zuo)(zuo)(zuo)(zuo)的(de)(de)(de)(de)(de)(de)(de)討(tao)論僅限(xian)于(yu)(yu)(yu)智(zhi)(zhi)(zhi)(zhi)(zhi)(zhi)能(neng)體(ti)行(xing)為(wei)(wei)和(he)(he)(he)(he)(he)(he)(he)個(ge)(ge)(ge)性(xing),缺乏對(dui)(dui)(dui)使(shi)(shi)(shi)智(zhi)(zhi)(zhi)(zhi)(zhi)(zhi)能(neng)體(ti)協(xie)(xie)(xie)同工(gong)作(zuo)(zuo)(zuo)(zuo)(zuo)(zuo)(zuo)(zuo)的(de)(de)(de)(de)(de)(de)(de)機制(zhi)(zhi)的(de)(de)(de)(de)(de)(de)(de)深(shen)入(ru)探(tan)(tan)(tan)討(tao)。[47] 調(diao)(diao)查(cha)了(le)(le)基(ji)于(yu)(yu)(yu)LLM的(de)(de)(de)(de)(de)(de)(de)MASs成(cheng)功應(ying)(ying)(ying)用(yong)(yong)的(de)(de)(de)(de)(de)(de)(de)領域(yu)和(he)(he)(he)(he)(he)(he)(he)場景,分析了(le)(le)這(zhe)些(xie)(xie)系(xi)統的(de)(de)(de)(de)(de)(de)(de)通(tong)(tong)信結(jie)構(gou)(gou)(分層、去中(zhong)心(xin)(xin)化(hua)(hua)、集(ji)(ji)(ji)中(zhong)式(shi)和(he)(he)(he)(he)(he)(he)(he)共享(xiang)消息池),但未涉(she)及協(xie)(xie)(xie)作(zuo)(zuo)(zuo)(zuo)(zuo)(zuo)(zuo)(zuo)的(de)(de)(de)(de)(de)(de)(de)其(qi)(qi)他(ta)特(te)征(zheng)(zheng),如(ru)(ru)(ru)類(lei)(lei)型(xing)、策(ce)略(lve)(lve)或協(xie)(xie)(xie)調(diao)(diao)架構(gou)(gou)。其(qi)(qi)他(ta)工(gong)作(zuo)(zuo)(zuo)(zuo)(zuo)(zuo)(zuo)(zuo),如(ru)(ru)(ru)[82],專(zhuan)(zhuan)注(zhu)于(yu)(yu)(yu)協(xie)(xie)(xie)作(zuo)(zuo)(zuo)(zuo)(zuo)(zuo)(zuo)(zuo)策(ce)略(lve)(lve),將(jiang)其(qi)(qi)分類(lei)(lei)為(wei)(wei)合并(bing)、集(ji)(ji)(ji)成(cheng)和(he)(he)(he)(he)(he)(he)(he)合作(zuo)(zuo)(zuo)(zuo)(zuo)(zuo)(zuo)(zuo)。盡管(guan)他(ta)們(men)的(de)(de)(de)(de)(de)(de)(de)綜(zong)述(shu)討(tao)論了(le)(le)這(zhe)些(xie)(xie)策(ce)略(lve)(lve)如(ru)(ru)(ru)何應(ying)(ying)(ying)用(yong)(yong)于(yu)(yu)(yu)LLMs,并(bing)將(jiang)合作(zuo)(zuo)(zuo)(zuo)(zuo)(zuo)(zuo)(zuo)擴展到傳統融(rong)合技術之外(wai),但忽略(lve)(lve)了(le)(le)其(qi)(qi)他(ta)關(guan)鍵的(de)(de)(de)(de)(de)(de)(de)協(xie)(xie)(xie)作(zuo)(zuo)(zuo)(zuo)(zuo)(zuo)(zuo)(zuo)機制(zhi)(zhi),如(ru)(ru)(ru)競爭和(he)(he)(he)(he)(he)(he)(he)競合,以及除流行(xing)協(xie)(xie)(xie)作(zuo)(zuo)(zuo)(zuo)(zuo)(zuo)(zuo)(zuo)類(lei)(lei)型(xing)之外(wai)的(de)(de)(de)(de)(de)(de)(de)維度(du)。相比(bi)之下(xia),[120] 提出(chu)了(le)(le)一個(ge)(ge)(ge)通(tong)(tong)過MASs增強(qiang)(qiang)LLM能(neng)力(li)的(de)(de)(de)(de)(de)(de)(de)通(tong)(tong)用(yong)(yong)框架,展示了(le)(le)Auto-GPT等(deng)工(gong)具如(ru)(ru)(ru)何與(yu)其(qi)(qi)框架對(dui)(dui)(dui)齊(qi)。然(ran)而(er),協(xie)(xie)(xie)作(zuo)(zuo)(zuo)(zuo)(zuo)(zuo)(zuo)(zuo)機制(zhi)(zhi)仍停留在(zai)(zai)概念層面(mian)(mian),缺乏詳細(xi)的(de)(de)(de)(de)(de)(de)(de)實(shi)現(xian)和(he)(he)(he)(he)(he)(he)(he)特(te)征(zheng)(zheng)描述(shu)。[50] 的(de)(de)(de)(de)(de)(de)(de)重點(dian)是配置LLMs以利用(yong)(yong)多(duo)樣化(hua)(hua)的(de)(de)(de)(de)(de)(de)(de)能(neng)力(li)和(he)(he)(he)(he)(he)(he)(he)角(jiao)色,例如(ru)(ru)(ru)集(ji)(ji)(ji)成(cheng)記憶和(he)(he)(he)(he)(he)(he)(he)信息檢索組件。他(ta)們(men)對(dui)(dui)(dui)多(duo)智(zhi)(zhi)(zhi)(zhi)(zhi)(zhi)能(neng)體(ti)協(xie)(xie)(xie)作(zuo)(zuo)(zuo)(zuo)(zuo)(zuo)(zuo)(zuo)的(de)(de)(de)(de)(de)(de)(de)探(tan)(tan)(tan)索主要(yao)(yao)集(ji)(ji)(ji)中(zhong)在(zai)(zai)規(gui)劃(hua)和(he)(he)(he)(he)(he)(he)(he)協(xie)(xie)(xie)調(diao)(diao)架構(gou)(gou)上(shang)(shang),強(qiang)(qiang)調(diao)(diao)基(ji)于(yu)(yu)(yu)智(zhi)(zhi)(zhi)(zhi)(zhi)(zhi)能(neng)體(ti)角(jiao)色和(he)(he)(he)(he)(he)(he)(he)專(zhuan)(zhuan)業化(hua)(hua)的(de)(de)(de)(de)(de)(de)(de)全局和(he)(he)(he)(he)(he)(he)(he)局部任(ren)務規(gui)劃(hua)。與(yu)此同時,[46] 將(jiang)其(qi)(qi)研(yan)究范圍縮小到基(ji)于(yu)(yu)(yu)LLM的(de)(de)(de)(de)(de)(de)(de)MASs在(zai)(zai)基(ji)于(yu)(yu)(yu)智(zhi)(zhi)(zhi)(zhi)(zhi)(zhi)能(neng)體(ti)的(de)(de)(de)(de)(de)(de)(de)建模(mo)(mo)和(he)(he)(he)(he)(he)(he)(he)模(mo)(mo)擬(ni)中(zhong)的(de)(de)(de)(de)(de)(de)(de)應(ying)(ying)(ying)用(yong)(yong),討(tao)論了(le)(le)環(huan)境感知(zhi)、人類(lei)(lei)對(dui)(dui)(dui)齊(qi)、行(xing)動(dong)生(sheng)成(cheng)和(he)(he)(he)(he)(he)(he)(he)評估等(deng)挑(tiao)戰(zhan)。盡管(guan)對(dui)(dui)(dui)模(mo)(mo)擬(ni)特(te)定應(ying)(ying)(ying)用(yong)(yong)具有(you)(you)(you)啟(qi)發(fa)(fa)性(xing),但它缺乏對(dui)(dui)(dui)深(shen)入(ru)協(xie)(xie)(xie)作(zuo)(zuo)(zuo)(zuo)(zuo)(zuo)(zuo)(zuo)機制(zhi)(zhi)的(de)(de)(de)(de)(de)(de)(de)更廣泛(fan)視(shi)角(jiao)。類(lei)(lei)似地(di),[68] 調(diao)(diao)查(cha)了(le)(le)這(zhe)些(xie)(xie)系(xi)統在(zai)(zai)數字孿生(sheng)中(zhong)的(de)(de)(de)(de)(de)(de)(de)應(ying)(ying)(ying)用(yong)(yong),而(er)[52, 70] 則(ze)專(zhuan)(zhuan)注(zhu)于(yu)(yu)(yu)軟件工(gong)程領域(yu)。從上(shang)(shang)述(shu)總結(jie)和(he)(he)(he)(he)(he)(he)(he)解釋中(zhong)可以看出(chu),現(xian)有(you)(you)(you)研(yan)究在(zai)(zai)全面(mian)(mian)探(tan)(tan)(tan)索基(ji)于(yu)(yu)(yu)LLM的(de)(de)(de)(de)(de)(de)(de)MASs的(de)(de)(de)(de)(de)(de)(de)協(xie)(xie)(xie)作(zuo)(zuo)(zuo)(zuo)(zuo)(zuo)(zuo)(zuo)方面(mian)(mian)和(he)(he)(he)(he)(he)(he)(he)機制(zhi)(zhi)方面(mian)(mian)存(cun)在(zai)(zai)明顯不足,而(er)這(zhe)些(xie)(xie)對(dui)(dui)(dui)于(yu)(yu)(yu)使(shi)(shi)(shi)智(zhi)(zhi)(zhi)(zhi)(zhi)(zhi)能(neng)體(ti)能(neng)夠共同實(shi)現(xian)目標至(zhi)關(guan)重要(yao)(yao)。本文旨在(zai)(zai)提供基(ji)于(yu)(yu)(yu)LLM的(de)(de)(de)(de)(de)(de)(de)智(zhi)(zhi)(zhi)(zhi)(zhi)(zhi)能(neng)體(ti)在(zai)(zai)多(duo)智(zhi)(zhi)(zhi)(zhi)(zhi)(zhi)能(neng)體(ti)協(xie)(xie)(xie)作(zuo)(zuo)(zuo)(zuo)(zuo)(zuo)(zuo)(zuo)系(xi)統中(zhong)協(xie)(xie)(xie)作(zuo)(zuo)(zuo)(zuo)(zuo)(zuo)(zuo)(zuo)基(ji)礎的(de)(de)(de)(de)(de)(de)(de)全面(mian)(mian)視(shi)角(jiao)。以協(xie)(xie)(xie)作(zuo)(zuo)(zuo)(zuo)(zuo)(zuo)(zuo)(zuo)為(wei)(wei)核心(xin)(xin),我們(men)的(de)(de)(de)(de)(de)(de)(de)研(yan)究基(ji)于(yu)(yu)(yu)參與(yu)者(zhe)(涉(she)及的(de)(de)(de)(de)(de)(de)(de)智(zhi)(zhi)(zhi)(zhi)(zhi)(zhi)能(neng)體(ti))、類(lei)(lei)型(xing)(如(ru)(ru)(ru)合作(zuo)(zuo)(zuo)(zuo)(zuo)(zuo)(zuo)(zuo)、競爭或競合)、結(jie)構(gou)(gou)(如(ru)(ru)(ru)點(dian)對(dui)(dui)(dui)點(dian)、集(ji)(ji)(ji)中(zhong)式(shi)或分布式(shi))、策(ce)略(lve)(lve)(如(ru)(ru)(ru)基(ji)于(yu)(yu)(yu)角(jiao)色、基(ji)于(yu)(yu)(yu)規(gui)則(ze)或基(ji)于(yu)(yu)(yu)模(mo)(mo)型(xing))以及協(xie)(xie)(xie)調(diao)(diao)層對(dui)(dui)(dui)智(zhi)(zhi)(zhi)(zhi)(zhi)(zhi)能(neng)體(ti)之間的(de)(de)(de)(de)(de)(de)(de)協(xie)(xie)(xie)作(zuo)(zuo)(zuo)(zuo)(zuo)(zuo)(zuo)(zuo)進(jin)行(xing)了(le)(le)特(te)征(zheng)(zheng)化(hua)(hua)。我們(men)強(qiang)(qiang)調(diao)(diao)了(le)(le)促進(jin)有(you)(you)(you)效協(xie)(xie)(xie)作(zuo)(zuo)(zuo)(zuo)(zuo)(zuo)(zuo)(zuo)的(de)(de)(de)(de)(de)(de)(de)機制(zhi)(zhi)和(he)(he)(he)(he)(he)(he)(he)關(guan)鍵技術,識(shi)(shi)別了(le)(le)MAS設計中(zhong)的(de)(de)(de)(de)(de)(de)(de)關(guan)鍵特(te)征(zheng)(zheng)和(he)(he)(he)(he)(he)(he)(he)趨(qu)勢。通(tong)(tong)過對(dui)(dui)(dui)現(xian)有(you)(you)(you)方法的(de)(de)(de)(de)(de)(de)(de)綜(zong)述(shu)和(he)(he)(he)(he)(he)(he)(he)開(kai)放挑(tiao)戰(zhan)的(de)(de)(de)(de)(de)(de)(de)識(shi)(shi)別,我們(men)將(jiang)這(zhe)些(xie)(xie)發(fa)(fa)現(xian)綜(zong)合為(wei)(wei)一個(ge)(ge)(ge)連貫的(de)(de)(de)(de)(de)(de)(de)框架。該框架為(wei)(wei)未來(lai)研(yan)究奠定了(le)(le)基(ji)礎,推動(dong)了(le)(le)LLMs在(zai)(zai)MASs中(zhong)的(de)(de)(de)(de)(de)(de)(de)集(ji)(ji)(ji)成(cheng),并(bing)為(wei)(wei)開(kai)發(fa)(fa)更具適應(ying)(ying)(ying)性(xing)、智(zhi)(zhi)(zhi)(zhi)(zhi)(zhi)能(neng)性(xing)和(he)(he)(he)(he)(he)(he)(he)協(xie)(xie)(xie)作(zuo)(zuo)(zuo)(zuo)(zuo)(zuo)(zuo)(zuo)性(xing)的(de)(de)(de)(de)(de)(de)(de)AI系(xi)統鋪平了(le)(le)道路,以應(ying)(ying)(ying)對(dui)(dui)(dui)復(fu)雜(za)的(de)(de)(de)(de)(de)(de)(de)現(xian)實(shi)世(shi)界應(ying)(ying)(ying)用(yong)(yong)。我們(men)的(de)(de)(de)(de)(de)(de)(de)主要(yao)(yao)貢獻如(ru)(ru)(ru)下(xia):
本文的結構如下:第2節提供了理解本工作所需的背景知識,包括LLMs、MASs和協作AI的概述。第3節通過數學符號介紹了基于LLM的多智能體協作系統的基礎概念,強調了協作的關鍵作用。接著,第4節對基于LLM的多智能體協作系統進行了廣泛綜述,按協作的關鍵特征(包括類型、策略、結構和協調與編排)分類。第5節回顧了基于LLM的多智能體協作系統在學術界和工業界的關鍵應用。第6節討論了這一新興研究領域的開放問題和未來研究方向。最后,第7節總結了這篇關于基于LLM的多智能體協作系統的綜述論文。
摘要—基(ji)(ji)于(yu)大規(gui)模(mo)(mo)預訓(xun)練(lian)基(ji)(ji)礎(chu)模(mo)(mo)型(xing)(xing)(PFMs)的(de)(de)(de)生(sheng)成性人(ren)工(gong)(gong)智能(neng)(neng)(AI)系統,如視覺-語(yu)(yu)言(yan)(yan)模(mo)(mo)型(xing)(xing)、大型(xing)(xing)語(yu)(yu)言(yan)(yan)模(mo)(mo)型(xing)(xing)(LLMs)、擴(kuo)散模(mo)(mo)型(xing)(xing)和(he)(he)(he)視覺-語(yu)(yu)言(yan)(yan)-行動(dong)(VLA)模(mo)(mo)型(xing)(xing),已經展示了在廣泛領域和(he)(he)(he)情境中(zhong)(zhong)解(jie)決(jue)復雜且(qie)真正非平(ping)凡(fan)的(de)(de)(de)AI問(wen)題的(de)(de)(de)能(neng)(neng)力(li)(li)。特(te)別(bie)是(shi),多(duo)模(mo)(mo)態大型(xing)(xing)語(yu)(yu)言(yan)(yan)模(mo)(mo)型(xing)(xing)(MLLMs)通(tong)(tong)過從(cong)(cong)大量(liang)且(qie)多(duo)樣的(de)(de)(de)數據源中(zhong)(zhong)學習(xi),能(neng)(neng)夠提供(gong)豐富且(qie)細致的(de)(de)(de)世界表示,從(cong)(cong)而具備廣泛的(de)(de)(de)能(neng)(neng)力(li)(li),包括(kuo)推理(li)(li)、進行有(you)(you)意義(yi)的(de)(de)(de)對話(hua)、與人(ren)類(lei)及其(qi)他代理(li)(li)共同協作解(jie)決(jue)復雜問(wen)題,并理(li)(li)解(jie)人(ren)類(lei)的(de)(de)(de)社會和(he)(he)(he)情感方面(mian)。盡管(guan)取得了這(zhe)一令人(ren)印(yin)象深刻的(de)(de)(de)成就,但(dan)基(ji)(ji)于(yu)大規(gui)模(mo)(mo)數據集訓(xun)練(lian)的(de)(de)(de)最先(xian)進LLMs的(de)(de)(de)認(ren)(ren)知(zhi)能(neng)(neng)力(li)(li)仍然表面(mian)化(hua)且(qie)脆弱。因(yin)此,通(tong)(tong)用(yong)LLMs在其(qi)通(tong)(tong)才(cai)能(neng)(neng)力(li)(li)方面(mian)存在嚴重限(xian)制。要(yao)使LLMs實(shi)現(xian)(xian)人(ren)類(lei)級別(bie)的(de)(de)(de)通(tong)(tong)用(yong)智能(neng)(neng),需要(yao)解(jie)決(jue)一些基(ji)(ji)礎(chu)性問(wen)題——具身性、符(fu)號基(ji)(ji)礎(chu)、因(yin)果性和(he)(he)(he)記憶機制。這(zhe)些概(gai)念更(geng)(geng)符(fu)合(he)人(ren)類(lei)認(ren)(ren)知(zhi),并為LLMs提供(gong)了固有(you)(you)的(de)(de)(de)人(ren)類(lei)認(ren)(ren)知(zhi)特(te)性,從(cong)(cong)而支持實(shi)現(xian)(xian)具有(you)(you)物(wu)理(li)(li)可行性、語(yu)(yu)義(yi)意義(yi)、靈活性和(he)(he)(he)更(geng)(geng)強泛化(hua)能(neng)(neng)力(li)(li)的(de)(de)(de)知(zhi)識和(he)(he)(he)智能(neng)(neng)。在本研究中(zhong)(zhong),我們討論了上(shang)述基(ji)(ji)礎(chu)性問(wen)題,并綜述了實(shi)現(xian)(xian)這(zhe)些概(gai)念的(de)(de)(de)最先(xian)進方法。具體(ti)而言(yan)(yan),我們討論了如何利用(yong)具身性、符(fu)號基(ji)(ji)礎(chu)、因(yin)果性和(he)(he)(he)記憶的(de)(de)(de)原則,以有(you)(you)機的(de)(de)(de)方式促進人(ren)工(gong)(gong)通(tong)(tong)用(yong)智能(neng)(neng)(AGI)的(de)(de)(de)實(shi)現(xian)(xian)。
關鍵詞—大型語言(yan)模型、具身性、符號(hao)基礎、因(yin)果推理、記憶(yi)機制、人工通用智(zhi)能。
智(zhi)(zhi)(zhi)能(neng)(neng)(neng)(neng)(neng)(neng)(neng)與一(yi)(yi)個(ge)(ge)系(xi)統(tong)(無論是生(sheng)物(wu)(wu)系(xi)統(tong)還是其(qi)他類(lei)型(xing)(xing)(xing)(xing)(xing)的(de)(de)(de)(de)系(xi)統(tong))在(zai)特(te)(te)定(ding)環境(jing)(或多(duo)個(ge)(ge)環境(jing))中實現(xian)(xian)一(yi)(yi)個(ge)(ge)或多(duo)個(ge)(ge)預(yu)期(qi)目(mu)(mu)標的(de)(de)(de)(de)能(neng)(neng)(neng)(neng)(neng)(neng)(neng)力相關。一(yi)(yi)個(ge)(ge)智(zhi)(zhi)(zhi)能(neng)(neng)(neng)(neng)(neng)(neng)(neng)系(xi)統(tong)能(neng)(neng)(neng)(neng)(neng)(neng)(neng)夠(gou)推(tui)斷(duan)自身的(de)(de)(de)(de)狀態(tai)以及環境(jing)的(de)(de)(de)(de)狀態(tai),并能(neng)(neng)(neng)(neng)(neng)(neng)(neng)夠(gou)將(jiang)這(zhe)些(xie)推(tui)斷(duan)轉化(hua)為(wei)(wei)適當的(de)(de)(de)(de)響應(ying)(ying),從而(er)實現(xian)(xian)預(yu)期(qi)目(mu)(mu)標。智(zhi)(zhi)(zhi)能(neng)(neng)(neng)(neng)(neng)(neng)(neng)是高(gao)級生(sheng)物(wu)(wu)體(ti)的(de)(de)(de)(de)獨特(te)(te)特(te)(te)征(zheng),在(zai)開發其(qi)人(ren)工對(dui)應(ying)(ying)物(wu)(wu)——人(ren)工智(zhi)(zhi)(zhi)能(neng)(neng)(neng)(neng)(neng)(neng)(neng)的(de)(de)(de)(de)過(guo)程中,研究人(ren)員常(chang)(chang)常(chang)(chang)借鑒生(sheng)物(wu)(wu)學的(de)(de)(de)(de)概(gai)念。生(sheng)物(wu)(wu)智(zhi)(zhi)(zhi)能(neng)(neng)(neng)(neng)(neng)(neng)(neng)的(de)(de)(de)(de)一(yi)(yi)個(ge)(ge)重要特(te)(te)征(zheng)是其(qi)普(pu)(pu)遍性(xing)(xing)(xing),即它能(neng)(neng)(neng)(neng)(neng)(neng)(neng)夠(gou)處(chu)理(li)廣泛不同(tong)的(de)(de)(de)(de)問題(ti),適應(ying)(ying)多(duo)種環境(jing)。尤其(qi)是人(ren)類(lei)的(de)(de)(de)(de)智(zhi)(zhi)(zhi)能(neng)(neng)(neng)(neng)(neng)(neng)(neng),其(qi)復(fu)雜性(xing)(xing)(xing)、豐富(fu)性(xing)(xing)(xing)和(he)(he)多(duo)樣性(xing)(xing)(xing)令人(ren)驚嘆(tan),能(neng)(neng)(neng)(neng)(neng)(neng)(neng)夠(gou)輕松處(chu)理(li)許多(duo)新穎的(de)(de)(de)(de)任務。人(ren)類(lei)智(zhi)(zhi)(zhi)能(neng)(neng)(neng)(neng)(neng)(neng)(neng)相較(jiao)于(yu)其(qi)他高(gao)級動物(wu)(wu)的(de)(de)(de)(de)普(pu)(pu)遍優越性(xing)(xing)(xing),主要源于(yu)人(ren)類(lei)通(tong)(tong)(tong)過(guo)社會(hui)和(he)(he)文化(hua)構建(如(ru)(ru)藝術、規(gui)(gui)范、儀式、信仰體(ti)系(xi)和(he)(he)習俗)來(lai)組(zu)織和(he)(he)傳(chuan)遞知識的(de)(de)(de)(de)能(neng)(neng)(neng)(neng)(neng)(neng)(neng)力 [1]。語(yu)(yu)(yu)言在(zai)這(zhe)些(xie)過(guo)程中起著至(zhi)關重要的(de)(de)(de)(de)作(zuo)用。 盡管創造這(zhe)種類(lei)型(xing)(xing)(xing)(xing)(xing)的(de)(de)(de)(de)通(tong)(tong)(tong)用智(zhi)(zhi)(zhi)能(neng)(neng)(neng)(neng)(neng)(neng)(neng)的(de)(de)(de)(de)想(xiang)法具有(you)(you)吸(xi)引(yin)力,但在(zai)機器中實現(xian)(xian)如(ru)(ru)此高(gao)度(du)的(de)(de)(de)(de)復(fu)雜性(xing)(xing)(xing)和(he)(he)普(pu)(pu)適性(xing)(xing)(xing)是極其(qi)具有(you)(you)挑(tiao)戰性(xing)(xing)(xing)的(de)(de)(de)(de)。直到最近(jin),取得顯著成(cheng)果的(de)(de)(de)(de)AI技(ji)術往往集中于(yu)特(te)(te)定(ding)領(ling)域(yu)(yu)(yu)或受限領(ling)域(yu)(yu)(yu),解決單(dan)一(yi)(yi)問題(ti)(如(ru)(ru)面部識別、醫(yi)學圖像分(fen)(fen)割、文本(ben)(ben)翻譯、股(gu)市預(yu)測、行(xing)人(ren)跟(gen)蹤等)。近(jin)來(lai),基于(yu)變(bian)分(fen)(fen)自編碼器(VAE) [2] 和(he)(he)生(sheng)成(cheng)對(dui)抗網絡(GAN) [3] 的(de)(de)(de)(de)生(sheng)成(cheng)式AI技(ji)術在(zai)革命化(hua)AI能(neng)(neng)(neng)(neng)(neng)(neng)(neng)力方面作(zuo)出(chu)了巨大(da)(da)貢獻(xian),使(shi)得單(dan)一(yi)(yi)模(mo)(mo)(mo)型(xing)(xing)(xing)(xing)(xing)能(neng)(neng)(neng)(neng)(neng)(neng)(neng)夠(gou)同(tong)時處(chu)理(li)多(duo)種復(fu)雜任務 [4]。更近(jin)期(qi)的(de)(de)(de)(de)進(jin)展是,大(da)(da)規(gui)(gui)模(mo)(mo)(mo)預(yu)訓(xun)(xun)練(lian)基礎模(mo)(mo)(mo)型(xing)(xing)(xing)(xing)(xing)的(de)(de)(de)(de)出(chu)現(xian)(xian),如(ru)(ru)大(da)(da)型(xing)(xing)(xing)(xing)(xing)語(yu)(yu)(yu)言模(mo)(mo)(mo)型(xing)(xing)(xing)(xing)(xing)(LLMs) [5]、擴散模(mo)(mo)(mo)型(xing)(xing)(xing)(xing)(xing)(DMs) [6]、視(shi)覺-語(yu)(yu)(yu)言模(mo)(mo)(mo)型(xing)(xing)(xing)(xing)(xing)(VLMs) [7] 和(he)(he)視(shi)覺-語(yu)(yu)(yu)言-行(xing)動(VLA)模(mo)(mo)(mo)型(xing)(xing)(xing)(xing)(xing) [8],為(wei)(wei)復(fu)制人(ren)工智(zhi)(zhi)(zhi)能(neng)(neng)(neng)(neng)(neng)(neng)(neng)中的(de)(de)(de)(de)通(tong)(tong)(tong)用性(xing)(xing)(xing)特(te)(te)征(zheng)帶(dai)來(lai)了現(xian)(xian)實的(de)(de)(de)(de)前景。由(you)于(yu)它們(men)能(neng)(neng)(neng)(neng)(neng)(neng)(neng)夠(gou)處(chu)理(li)廣泛的(de)(de)(de)(de)開放領(ling)域(yu)(yu)(yu)問題(ti) [9],[10],[11],[12],尤其(qi)是多(duo)模(mo)(mo)(mo)態(tai)大(da)(da)型(xing)(xing)(xing)(xing)(xing)語(yu)(yu)(yu)言模(mo)(mo)(mo)型(xing)(xing)(xing)(xing)(xing),大(da)(da)規(gui)(gui)模(mo)(mo)(mo)預(yu)訓(xun)(xun)練(lian)基礎模(mo)(mo)(mo)型(xing)(xing)(xing)(xing)(xing)重新激發了對(dui)發展人(ren)工通(tong)(tong)(tong)用智(zhi)(zhi)(zhi)能(neng)(neng)(neng)(neng)(neng)(neng)(neng)的(de)(de)(de)(de)興趣 [10]。本(ben)(ben)文的(de)(de)(de)(de)主要目(mu)(mu)的(de)(de)(de)(de)是介紹支撐人(ren)工通(tong)(tong)(tong)用智(zhi)(zhi)(zhi)能(neng)(neng)(neng)(neng)(neng)(neng)(neng)實現(xian)(xian)的(de)(de)(de)(de)認知基本(ben)(ben)原理(li),并綜述(shu)在(zai)大(da)(da)型(xing)(xing)(xing)(xing)(xing)語(yu)(yu)(yu)言模(mo)(mo)(mo)型(xing)(xing)(xing)(xing)(xing)中實現(xian)(xian)這(zhe)些(xie)概(gai)念的(de)(de)(de)(de)最先(xian)進(jin)技(ji)術。
1.2.1 語言作為知識獲取、表示和組織的媒介 研究表明,使用自然語言進行交流是學習現實世界通用知識最有效的方式之一 [13],雖然人類的感官和運動能力通常不優于其他高級動物(包括靈長類動物)(見 [14],[15],[16],[17],[18],[19],[20]),但人類的認知能力遠遠超越其他動物。人類認知能力優于其他動物王國成員,尤其是與人類最親近的靈長類動物,這主要歸因于人類使用語言的能力 [21],[22],[23]。 語言在人體內的抽象概念表示、解釋和推理中發揮著核心作用 [24]。在人的社會中,語言最重要的功能之一是促進新知識的獲取與共享。通過語言——無論是文學、演講還是藝術——人類能夠輕松從他人處學習,不僅通過觀察或與世界的互動,還能獲取其他人積累的知識。此外,語言為表示和內化知識提供了概念框架 [22]。研究表明,一個群體所使用的特定語言結構和詞匯會影響他們對世界的推理和解釋。實際上,語言差異(例如詞匯差異)已被證明影響不同語言群體成員如何記住和描述他們的經歷 [25],[26],[27],[28]。在這方面,語言可以塑造或重塑認知 [29],從而影響主體如何理解和與世界互動 [30],[31]。1.2.2 語言作為認知信息處理工具
除(chu)了(le)創建抽象(xiang)表示(shi)來組織感知(zhi)信(xin)息和知(zhi)識的表示(shi)外,語(yu)言(yan)(yan)在促進認知(zhi)計算操作中(zhong)起著根本(ben)作用(yong) [24]。Lupyan [31] 認為(wei),基(ji)本(ben)語(yu)言(yan)(yan)元素(如(ru)詞語(yu))為(wei)其(qi)他認知(zhi)成分(fen)提供了(le)構建意義的線索。因此(ci),語(yu)言(yan)(yan)不(bu)僅僅是(shi)一(yi)個(ge)用(yong)于(yu)(yu)(yu)指代現(xian)實世(shi)界物(wu)體、現(xian)象(xiang)和經驗的靜態符號(hao)(hao)集合,它還(huan)是(shi)一(yi)個(ge)操作這些符號(hao)(hao)的工(gong)具。Clark [24] 專門描(miao)述了(le)語(yu)言(yan)(yan)在促進人類認知(zhi)信(xin)息處理和推理中(zhong)的六種不(bu)同方式。研究(jiu)表明,語(yu)言(yan)(yan)不(bu)僅有(you)助于(yu)(yu)(yu)晶化(hua)智能(neng)(即(ji)與(yu)表示(shi)相關的認知(zhi)機制),如(ru)經驗/刺激的分(fen)類 [26] 和記憶 [25],[28],還(huan)促進流動智能(neng)(即(ji)分(fen)析性問題解決技(ji)能(neng)),如(ru)感知(zhi) [32],[33],[34] 和推理 [24],[31]。此(ci)外,接觸多(duo)種語(yu)言(yan)(yan)框架已被(bei)證明能(neng)夠拓寬個(ge)體的視(shi)野,并幫助他們以更細致(zhi)的方式理解概念。由(you)于(yu)(yu)(yu)其(qi)在生物(wu)學認知(zhi)能(neng)力中(zhong)的中(zhong)心地位,語(yu)言(yan)(yan)被(bei)多(duo)次描(miao)述為(wei)“認知(zhi)接口” [21]、“智能(neng)放大器” [35],并且人類認知(zhi)本(ben)身也被(bei)描(miao)述為(wei)“語(yu)言(yan)(yan)增(zeng)強的認知(zhi)” [31]。
雖然文獻(xian)中對(dui)人(ren)(ren)(ren)工(gong)通(tong)(tong)用(yong)智(zhi)(zhi)(zhi)(zhi)(zhi)能(neng)(neng)(neng)(neng)(neng)(neng)(neng)(neng)(neng)(neng)(AGI)有(you)不(bu)同(tong)的(de)(de)(de)(de)(de)(de)解(jie)(jie)(jie)釋 [9],[36],[37],[38],[39],[40],但(dan)(dan)這(zhe)(zhe)一(yi)概(gai)念通(tong)(tong)常(chang)理(li)(li)解(jie)(jie)(jie)為(wei)具(ju)有(you)廣(guang)泛(fan)智(zhi)(zhi)(zhi)(zhi)(zhi)力(li)(li)能(neng)(neng)(neng)(neng)(neng)(neng)(neng)(neng)(neng)(neng)力(li)(li)的(de)(de)(de)(de)(de)(de)AI系統(tong),能(neng)(neng)(neng)(neng)(neng)(neng)(neng)(neng)(neng)(neng)夠(gou)執(zhi)行(xing)高級(ji)(ji)認知(zhi)(zhi)(zhi)(zhi)(zhi)任務,如(ru)(ru)(ru)(ru)感知(zhi)(zhi)(zhi)(zhi)(zhi)——包(bao)括情境理(li)(li)解(jie)(jie)(jie)和(he)一(yi)定程度的(de)(de)(de)(de)(de)(de)自(zi)我(wo)意(yi)(yi)識(shi)(shi) [41],[42],推(tui)理(li)(li)、規劃,以(yi)及在(zai)(zai)新(xin)情境下應用(yong)學(xue)(xue)習(xi)(xi)(xi)到(dao)的(de)(de)(de)(de)(de)(de)知(zhi)(zhi)(zhi)(zhi)(zhi)識(shi)(shi)。AGI系統(tong)是能(neng)(neng)(neng)(neng)(neng)(neng)(neng)(neng)(neng)(neng)夠(gou)在(zai)(zai)多個領域成(cheng)功(gong)完成(cheng)復雜和(he)多樣(yang)化(hua)的(de)(de)(de)(de)(de)(de)認知(zhi)(zhi)(zhi)(zhi)(zhi)任務的(de)(de)(de)(de)(de)(de)強(qiang)(qiang)大模(mo)型,無需(xu)(xu)額外訓練。術語“人(ren)(ren)(ren)類水平的(de)(de)(de)(de)(de)(de)智(zhi)(zhi)(zhi)(zhi)(zhi)能(neng)(neng)(neng)(neng)(neng)(neng)(neng)(neng)(neng)(neng)” [37],[43],[44] 經常(chang)被松散地用(yong)來指代展(zhan)示通(tong)(tong)用(yong)智(zhi)(zhi)(zhi)(zhi)(zhi)能(neng)(neng)(neng)(neng)(neng)(neng)(neng)(neng)(neng)(neng)的(de)(de)(de)(de)(de)(de)AI系統(tong)。AGI不(bu)應理(li)(li)解(jie)(jie)(jie)為(wei)超級(ji)(ji)全(quan)知(zhi)(zhi)(zhi)(zhi)(zhi)和(he)全(quan)能(neng)(neng)(neng)(neng)(neng)(neng)(neng)(neng)(neng)(neng)的(de)(de)(de)(de)(de)(de)機器。這(zhe)(zhe)種(zhong)假設(she)級(ji)(ji)別的(de)(de)(de)(de)(de)(de)能(neng)(neng)(neng)(neng)(neng)(neng)(neng)(neng)(neng)(neng)力(li)(li)被稱為(wei)人(ren)(ren)(ren)工(gong)超智(zhi)(zhi)(zhi)(zhi)(zhi)能(neng)(neng)(neng)(neng)(neng)(neng)(neng)(neng)(neng)(neng) [45],[46]。實(shi)際的(de)(de)(de)(de)(de)(de)AGI系統(tong)是具(ju)備有(you)限(xian)但(dan)(dan)足夠(gou)強(qiang)(qiang)大且靈(ling)活(huo)(huo)的(de)(de)(de)(de)(de)(de)知(zhi)(zhi)(zhi)(zhi)(zhi)識(shi)(shi)系統(tong),能(neng)(neng)(neng)(neng)(neng)(neng)(neng)(neng)(neng)(neng)夠(gou)解(jie)(jie)(jie)決(jue)涉及傳感-運(yun)動(dong)控制、感知(zhi)(zhi)(zhi)(zhi)(zhi)、情境理(li)(li)解(jie)(jie)(jie)、常(chang)識(shi)(shi)和(he)分(fen)析推(tui)理(li)(li)能(neng)(neng)(neng)(neng)(neng)(neng)(neng)(neng)(neng)(neng)力(li)(li)的(de)(de)(de)(de)(de)(de)廣(guang)泛(fan)問(wen)題(ti)(ti)(ti)。對(dui)人(ren)(ren)(ren)工(gong)通(tong)(tong)用(yong)智(zhi)(zhi)(zhi)(zhi)(zhi)能(neng)(neng)(neng)(neng)(neng)(neng)(neng)(neng)(neng)(neng)的(de)(de)(de)(de)(de)(de)這(zhe)(zhe)種(zhong)理(li)(li)解(jie)(jie)(jie),實(shi)際上反映了(le)不(bu)僅(jin)在(zai)(zai)嵌入或學(xue)(xue)習(xi)(xi)(xi)所有(you)相(xiang)關(guan)知(zhi)(zhi)(zhi)(zhi)(zhi)識(shi)(shi)和(he)技能(neng)(neng)(neng)(neng)(neng)(neng)(neng)(neng)(neng)(neng)時(shi)的(de)(de)(de)(de)(de)(de)實(shi)際困難,也反映了(le)這(zhe)(zhe)種(zhong)方法的(de)(de)(de)(de)(de)(de)性能(neng)(neng)(neng)(neng)(neng)(neng)(neng)(neng)(neng)(neng)限(xian)制。此外,將人(ren)(ren)(ren)工(gong)通(tong)(tong)用(yong)智(zhi)(zhi)(zhi)(zhi)(zhi)能(neng)(neng)(neng)(neng)(neng)(neng)(neng)(neng)(neng)(neng)概(gai)念化(hua)為(wei)有(you)限(xian)范圍但(dan)(dan)適(shi)應性強(qiang)(qiang)、靈(ling)活(huo)(huo)且可擴展(zhan),與(yu)生物智(zhi)(zhi)(zhi)(zhi)(zhi)能(neng)(neng)(neng)(neng)(neng)(neng)(neng)(neng)(neng)(neng)在(zai)(zai)高級(ji)(ji)生物體(ti)(如(ru)(ru)(ru)(ru)人(ren)(ren)(ren)類)中的(de)(de)(de)(de)(de)(de)性質(zhi)和(he)特(te)性是一(yi)致的(de)(de)(de)(de)(de)(de)。盡(jin)管(guan)文獻(xian)中有(you)各(ge)種(zhong)定義(yi),但(dan)(dan)幾乎對(dui)AGI的(de)(de)(de)(de)(de)(de)一(yi)些定義(yi)特(te)征(zheng)達成(cheng)了(le)一(yi)致。具(ju)體(ti)而言,典型AGI系統(tong)的(de)(de)(de)(de)(de)(de)最(zui)重要特(te)征(zheng)是(參(can)(can)見例如(ru)(ru)(ru)(ru) [9],[36],[43],[47],[48]):它能(neng)(neng)(neng)(neng)(neng)(neng)(neng)(neng)(neng)(neng)夠(gou)學(xue)(xue)習(xi)(xi)(xi)并(bing)靈(ling)活(huo)(huo)應用(yong)有(you)限(xian)且不(bu)確定的(de)(de)(de)(de)(de)(de)知(zhi)(zhi)(zhi)(zhi)(zhi)識(shi)(shi),解(jie)(jie)(jie)決(jue)不(bu)同(tong)情境下的(de)(de)(de)(de)(de)(de)廣(guang)泛(fan)問(wen)題(ti)(ti)(ti);它的(de)(de)(de)(de)(de)(de)學(xue)(xue)習(xi)(xi)(xi)和(he)行(xing)動(dong)是自(zi)主且目標驅動(dong)的(de)(de)(de)(de)(de)(de);它能(neng)(neng)(neng)(neng)(neng)(neng)(neng)(neng)(neng)(neng)在(zai)(zai)記(ji)憶中保(bao)留并(bing)積累相(xiang)關(guan)信息,并(bing)在(zai)(zai)未來任務中重新(xin)使用(yong)這(zhe)(zhe)些知(zhi)(zhi)(zhi)(zhi)(zhi)識(shi)(shi);它能(neng)(neng)(neng)(neng)(neng)(neng)(neng)(neng)(neng)(neng)夠(gou)理(li)(li)解(jie)(jie)(jie)情境并(bing)執(zhi)行(xing)高級(ji)(ji)認知(zhi)(zhi)(zhi)(zhi)(zhi)任務,如(ru)(ru)(ru)(ru)抽象和(he)常(chang)識(shi)(shi)推(tui)理(li)(li)。 需(xu)(xu)要強(qiang)(qiang)調的(de)(de)(de)(de)(de)(de)是,AGI本質(zhi)上與(yu)強(qiang)(qiang)AI(參(can)(can)見 [49],[50],[51])不(bu)同(tong)。AGI的(de)(de)(de)(de)(de)(de)重點(dian)是開發具(ju)有(you)廣(guang)泛(fan)認知(zhi)(zhi)(zhi)(zhi)(zhi)能(neng)(neng)(neng)(neng)(neng)(neng)(neng)(neng)(neng)(neng)力(li)(li)、能(neng)(neng)(neng)(neng)(neng)(neng)(neng)(neng)(neng)(neng)夠(gou)解(jie)(jie)(jie)決(jue)真正非平凡問(wen)題(ti)(ti)(ti)的(de)(de)(de)(de)(de)(de)智(zhi)(zhi)(zhi)(zhi)(zhi)能(neng)(neng)(neng)(neng)(neng)(neng)(neng)(neng)(neng)(neng)系統(tong),而強(qiang)(qiang)AI旨在(zai)(zai)創造極其強(qiang)(qiang)大的(de)(de)(de)(de)(de)(de)智(zhi)(zhi)(zhi)(zhi)(zhi)能(neng)(neng)(neng)(neng)(neng)(neng)(neng)(neng)(neng)(neng),不(bu)僅(jin)在(zai)(zai)功(gong)能(neng)(neng)(neng)(neng)(neng)(neng)(neng)(neng)(neng)(neng)層面(mian)模(mo)仿人(ren)(ren)(ren)類的(de)(de)(de)(de)(de)(de)認知(zhi)(zhi)(zhi)(zhi)(zhi)能(neng)(neng)(neng)(neng)(neng)(neng)(neng)(neng)(neng)(neng)力(li)(li),還具(ju)有(you)如(ru)(ru)(ru)(ru)內在(zai)(zai)心理(li)(li)狀(zhuang)態和(he)主觀經驗(包(bao)括意(yi)(yi)圖(tu)性、道(dao)德、情感和(he)自(zi)我(wo)意(yi)(yi)識(shi)(shi)等) [52],[53],在(zai)(zai)意(yi)(yi)識(shi)(shi)和(he)感知(zhi)(zhi)(zhi)(zhi)(zhi)方面(mian)具(ju)有(you)真實(shi)的(de)(de)(de)(de)(de)(de)人(ren)(ren)(ren)類認知(zhi)(zhi)(zhi)(zhi)(zhi)特(te)征(zheng)。對(dui)此感興趣(qu)的(de)(de)(de)(de)(de)(de)讀者可以(yi)參(can)(can)考 [54],[55],[56],[57],[58],以(yi)獲得關(guan)于(yu)強(qiang)(qiang)AI概(gai)念的(de)(de)(de)(de)(de)(de)更詳細討論,包(bao)括意(yi)(yi)識(shi)(shi) [54],[56],[57],意(yi)(yi)識(shi)(shi) [55],[57],[59] 和(he)AI系統(tong)的(de)(de)(de)(de)(de)(de)道(dao)德問(wen)題(ti)(ti)(ti) [60],[61]。
在這項工作中,我們詳細討論了實現通用智能的核心原理。我們還討論了在人工智能和LLM系統中實現這些概念的各種方法。這里討論的概念不是實現AGI的算法解決方案,而是生物智能的一般原理和特性,這些原理和特性必須嵌入到基于大型語言模型的AI系統中 事實上,這些核心概念本質上是與算法無關的,即它們的實現并不局限于任何特定的技術或一組方法。然而,需要注意的是,特定的認知功能(如感知、推理、規劃、行動等)可以通過這些通用概念和原理得到增強。本文的其余部分安排如下: 在第2節,我們概述了大型語言模型(LLM)的關鍵要素,這些要素使其具有強大的能力,并能夠解決需要人類水平通用智能的復雜問題。 第3至第6節討論了實現通用智能所需的重要基礎性原則,包括具身性(第3節)、符號基礎(第4節)、因果性(第5節)和記憶機制(第6節)。 在第7節,我們探討了這些認知原則之間的相互關系和交互作用,并基于這些相互作用合成了一個整體的認知模型。 最后,在第8節中,我們對所討論的概念進行了總結,并在第9節給出了結論。
人(ren)(ren)工(gong)(gong)智(zhi)(zhi)能(AI)理論(lun)的(de)(de)持續發展(zhan)推(tui)動了(le)這(zhe)(zhe)(zhe)一(yi)領(ling)(ling)域(yu)(yu)的(de)(de)前所未(wei)有的(de)(de)高(gao)度,這(zhe)(zhe)(zhe)歸功(gong)于(yu)學(xue)(xue)者(zhe)和研(yan)究(jiu)(jiu)人(ren)(ren)員的(de)(de)不懈努(nu)力。在醫(yi)(yi)學(xue)(xue)領(ling)(ling)域(yu)(yu),人(ren)(ren)工(gong)(gong)智(zhi)(zhi)能發揮著(zhu)關鍵作(zuo)用,依托強大的(de)(de)機(ji)器學(xue)(xue)習(ML)算法。醫(yi)(yi)學(xue)(xue)影像中的(de)(de)人(ren)(ren)工(gong)(gong)智(zhi)(zhi)能技術幫助醫(yi)(yi)生進行X射線(xian)、計(ji)算機(ji)斷(duan)層掃描(CT)和磁共(gong)振成像(MRI)診斷(duan),基于(yu)聲學(xue)(xue)數據進行模(mo)(mo)式(shi)識別和疾病預測(ce),提供疾病類(lei)型及(ji)發展(zhan)趨勢(shi)的(de)(de)預后,利用智(zhi)(zhi)能健(jian)康管理可穿戴(dai)設備結合人(ren)(ren)機(ji)交互技術等。盡管這(zhe)(zhe)(zhe)些(xie)成熟的(de)(de)應用在醫(yi)(yi)學(xue)(xue)診斷(duan)、臨床決策和管理中起到了(le)重(zhong)要作(zuo)用,但醫(yi)(yi)學(xue)(xue)和人(ren)(ren)工(gong)(gong)智(zhi)(zhi)能領(ling)(ling)域(yu)(yu)的(de)(de)合作(zuo)面臨著(zhu)一(yi)個(ge)迫切(qie)的(de)(de)挑戰:如何驗證決策的(de)(de)可靠性(xing)?這(zhe)(zhe)(zhe)一(yi)問(wen)題(ti)的(de)(de)根源在于(yu)醫(yi)(yi)學(xue)(xue)場景中對問(wen)責制和結果透明度的(de)(de)需求與人(ren)(ren)工(gong)(gong)智(zhi)(zhi)能的(de)(de)“黑箱”模(mo)(mo)型特(te)性(xing)之(zhi)間(jian)的(de)(de)沖突。本文綜(zong)述了(le)近期基于(yu)可解釋人(ren)(ren)工(gong)(gong)智(zhi)(zhi)能(XAI)的(de)(de)研(yan)究(jiu)(jiu),重(zhong)點關注視(shi)覺、音(yin)頻及(ji)多模(mo)(mo)態視(shi)角下的(de)(de)醫(yi)(yi)學(xue)(xue)實踐。我們旨(zhi)在對這(zhe)(zhe)(zhe)些(xie)實踐進行分類(lei)和綜(zong)合,旨(zhi)在為未(wei)來的(de)(de)研(yan)究(jiu)(jiu)人(ren)(ren)員和醫(yi)(yi)療專業人(ren)(ren)士提供支持和指導。
1 引言
隨著許多技術瓶頸的突破,人工智能(AI)已經催生了多個重要分支,包括深度學習(DL)、計算機視覺(CV)、自然語言處理(NLP)和大語言模型(LLMs)[203]。這些子領域相互聯系,共同推動了人工智能的全面發展。隨著技術的不斷進步,人工智能已經逐步滲透到教育、交通和醫療等多個領域[123]。 近年來,基于人工智能的醫療領域迅速擴展,催生了許多針對不同臨床學科的新技術。深度學習的興起標志著數字技術范式的重大變化,顯著提升了醫療模型預測的精準度[120]。例如,基于卷積神經網絡(CNNs)的醫學影像模型在腫瘤識別、器官分割和異常檢測等任務中展現了卓越的準確性[199, 201]。另一方面,遞歸神經網絡(RNNs)顯著提高了語音識別的準確性,替代了傳統的GMM-HMM模型。RNN在音頻數據上的卓越表現得到了驗證[209]。因此,這些方法被廣泛應用于聲學病理檢測系統和遠程醫療中[63, 137]。此外,基于注意力機制的Transformer架構在研究界得到廣泛應用[186, 189]。例如,它被用來處理多模態醫學數據,將影像數據與其他醫療數據(如音頻或生理參數)結合,以獲得更全面的健康視圖[2, 178]。 然而,病例的復雜性和數據的龐大規模使得醫療領域充滿了巨大的挑戰。根據國際數據公司(IDC)的預測,全球數據量預計將從2018年的33澤字節增長到2025年的175澤字節,其中醫療數據預計將以最快的速度增長,這是由于醫療分析技術的進步和醫學影像頻率及分辨率的提升[150]。這些龐大的數據集不僅包含個體信息、生理參數和為患者量身定制的治療數據,還包括疾病特征、財務考慮和文化差異等[83, 195]。此外,突發流行病的發生,尤其是2019年底爆發的COVID-19大流行,顯著加重了醫療系統的壓力。截至2024年1月28日,全球政府機構已確認報告了774,469,939例COVID-19病例[113],且因該病及其并發癥導致的死亡人數不可估量。這場災難暴露了醫療系統中醫務人員短缺、醫療決策效率低下和醫療設施不足等問題[124]。因此,在如此復雜和不斷變化的環境中找到有效解決方案,成為醫療領域亟待解決的問題。 研究人員通常需要對復雜且往往不透明的機器學習(ML)算法進行大量訓練,經過成千上萬次迭代才能取得令人滿意的結果[40]。這些復雜的人工智能模型已被證明能夠有效推動創新和提高模型的準確性[70, 138]。然而,隨之而來的新問題是如何闡明人工智能模型的決策過程:人工智能模型的不透明性使得人們無法理解或解釋其決策過程[69]。這一問題的根本原因在于,許多復雜的機器學習模型,特別是深度學習模型,涉及數百萬個參數和層次結構,導致決策過程錯綜復雜,難以解釋[159]。然而,在醫療領域,醫療決策的透明性和可解釋性恰恰是醫生和患者最需要的[37, 70]。 目前,已經有多種可解釋人工智能(XAI)技術在醫療行業中得到了應用和擴展[107, 152, 211]。本文將介紹在醫學視覺、音頻和多模態解決方案中近期的可解釋性研究成果。這些成就包括成熟的XAI模型的演變以及提高可解釋性的創新努力。 許多顯著的綜述探討了XAI與醫療領域的交集。Loh等人[103]回顧了2011年至2022年間XAI在醫療中的應用,重點介紹了各種醫療環境下不同的XAI技術。然而,他們的綜述涵蓋的時間跨度較長,許多他們討論的傳統人工智能方法如今已經不再使用。此外,他們沒有深入探討與低維生物信號相關的XAI應用。Band等人[20]考察了XAI在醫療中的應用,提出了一些常見的XAI方法,并探討了這些方法如何應用于解釋特定疾病。他們還對實施方法進行了簡要評估。然而,文章缺乏對XAI分類框架的深入討論,也沒有分析更廣泛的醫療XAI研究。Singh等人[173]的綜述專注于可解釋的深度學習模型在醫學影像分析中的應用。他們的綜述主要集中在醫學影像領域,而沒有考慮其他數據模態。類似地,Chaddad等人[28]回顧了XAI在醫療中的應用,分類并總結了醫學影像中的XAI類型和算法。然而,他們僅涵蓋了有限的XAI技術,且未探討這些技術在更廣泛臨床應用中的表現。 與此不同,我們的綜述做出了不同的貢獻,提供了更全面和新穎的視角。我們首先探討了醫療領域中的具體可解釋性需求,突出了患者和臨床醫生對于可解釋性的共同需求。然后,我們介紹了XAI的定義、相關術語及分類標準。值得注意的是,我們在醫療層面上對可解釋性需求進行了分類,澄清了相關術語,并解釋了它們之間的關系。在分類標準方面,我們結合了[183]、[70]、[34]和[106]提出的框架,基于四個標準對19種在醫療中常用且具有前景的XAI技術進行了分類。此外,我們分析了過去五年內發表的100多篇聚焦于XAI在不同模態(視覺、音頻和多模態)應用的論文,批判性地評估了這些研究,識別了當前的挑戰,并提供了未來研究方向和XAI應用發展的展望。 基于這些貢獻,本文的組織框架如下:第二節闡明了在醫療領域中解釋的重要性以及XAI在醫療領域的獨特背景。第三節介紹了XAI的定義、相關術語、分類標準和詳細技術。第四節分別探討了視覺、音頻和多模態解決方案中醫學應用中可解釋性的最新進展。通過呈現和深入分析這些應用,第五節和第六節討論了XAI在醫學應用中的挑戰與展望。最后,第七節對本文進行全面總結。
最近在大型語言模型(LLMs)上的進展塑造了人工智能智能體的新范式,即基于LLM的智能體。與獨立的LLMs相比,基于LLM的智能體通過增強LLMs感知和利用外部資源和工具的能力,極大地擴展了LLMs的多功能性和專業性。到目前為止,基于LLM的智能體已經在軟件工程(SE)領域得到了應用,并顯示出顯著的效果。多個智能體之間的協同作用以及與人類互動相結合,為解決復雜的現實世界中的SE問題帶來了更大的希望。在此工作中,我們提出了一個關于用于SE的基于LLM智能體的全面系統的綜述。我們收集了106篇論文,并從兩個角度對它們進行了分類,即SE視角和智能體視角。此外,我們還討論了該關鍵領域中存在的開放性挑戰和未來的研究方向。本綜述的資料庫位于//github.com/FudanSELab/Agent4SE-Paper-List。 大型語(yu)言模型(LLMs)[1] 已經(jing)(jing)取得(de)了(le)(le)顯(xian)著的(de)(de)(de)(de)(de)(de)(de)(de)(de)(de)(de)進(jin)步,并展(zhan)(zhan)示(shi)了(le)(le)類似(si)人(ren)(ren)類智(zhi)能(neng)(neng)(neng)(neng)的(de)(de)(de)(de)(de)(de)(de)(de)(de)(de)(de)潛力。近(jin)年來(lai),LLMs 在軟(ruan)件(jian)(jian)工(gong)(gong)程(cheng)(SE)中(zhong)(zhong)得(de)到了(le)(le)廣(guang)泛(fan)的(de)(de)(de)(de)(de)(de)(de)(de)(de)(de)(de)應(ying)用。如最近(jin)的(de)(de)(de)(de)(de)(de)(de)(de)(de)(de)(de)綜(zong)述所(suo)示(shi)[2],[3],LLMs 已經(jing)(jing)被采用并在各種軟(ruan)件(jian)(jian)開發(fa)和(he)(he)維護任務(wu)(wu)中(zhong)(zhong)顯(xian)示(shi)出有(you)希望的(de)(de)(de)(de)(de)(de)(de)(de)(de)(de)(de)表現,例如程(cheng)序生成(cheng)[4]–[8],軟(ruan)件(jian)(jian)測試(shi)[9]–[11]和(he)(he)調試(shi)[12]–[17]以(yi)及(ji)程(cheng)序改(gai)(gai)進(jin)[18]–[20]。人(ren)(ren)工(gong)(gong)智(zhi)能(neng)(neng)(neng)(neng)智(zhi)能(neng)(neng)(neng)(neng)體(ti)(ti)(ti)(ti)是(shi)能(neng)(neng)(neng)(neng)夠自(zi)主感知(zhi)并對(dui)其周(zhou)圍環境(jing)采取行動以(yi)達成(cheng)特定目標(biao)的(de)(de)(de)(de)(de)(de)(de)(de)(de)(de)(de)人(ren)(ren)工(gong)(gong)實體(ti)(ti)(ti)(ti)[21]。智(zhi)能(neng)(neng)(neng)(neng)體(ti)(ti)(ti)(ti)的(de)(de)(de)(de)(de)(de)(de)(de)(de)(de)(de)概(gai)念(nian)已經(jing)(jing)發(fa)展(zhan)(zhan)了(le)(le)很長時間(jian)(jian)(例如,早期的(de)(de)(de)(de)(de)(de)(de)(de)(de)(de)(de)智(zhi)能(neng)(neng)(neng)(neng)體(ti)(ti)(ti)(ti)是(shi)基于(yu)符號邏輯(ji)或強化學習構(gou)建的(de)(de)(de)(de)(de)(de)(de)(de)(de)(de)(de)[22]–[25])。最近(jin),LLMs 的(de)(de)(de)(de)(de)(de)(de)(de)(de)(de)(de)顯(xian)著進(jin)步進(jin)一(yi)步形成(cheng)了(le)(le)一(yi)種新的(de)(de)(de)(de)(de)(de)(de)(de)(de)(de)(de)AI智(zhi)能(neng)(neng)(neng)(neng)體(ti)(ti)(ti)(ti)范式,即(ji)(ji)基于(yu)LLM的(de)(de)(de)(de)(de)(de)(de)(de)(de)(de)(de)智(zhi)能(neng)(neng)(neng)(neng)體(ti)(ti)(ti)(ti),這(zhe)(zhe)種智(zhi)能(neng)(neng)(neng)(neng)體(ti)(ti)(ti)(ti)利用LLMs作(zuo)為中(zhong)(zhong)心控制(zhi)單元(yuan)。不同(tong)于(yu)獨立(li)的(de)(de)(de)(de)(de)(de)(de)(de)(de)(de)(de)LLMs,基于(yu)LLM的(de)(de)(de)(de)(de)(de)(de)(de)(de)(de)(de)智(zhi)能(neng)(neng)(neng)(neng)體(ti)(ti)(ti)(ti)通過(guo)(guo)賦(fu)予LLMs感知(zhi)和(he)(he)利用外(wai)(wai)部(bu)資源和(he)(he)工(gong)(gong)具的(de)(de)(de)(de)(de)(de)(de)(de)(de)(de)(de)能(neng)(neng)(neng)(neng)力來(lai)擴展(zhan)(zhan)其多功能(neng)(neng)(neng)(neng)性和(he)(he)專(zhuan)業性,這(zhe)(zhe)使得(de)它(ta)們(men)(men)可以(yi)通過(guo)(guo)多個(ge)智(zhi)能(neng)(neng)(neng)(neng)體(ti)(ti)(ti)(ti)之(zhi)間(jian)(jian)的(de)(de)(de)(de)(de)(de)(de)(de)(de)(de)(de)協作(zuo)或涉(she)及(ji)人(ren)(ren)類互(hu)動來(lai)應(ying)對(dui)更(geng)復雜的(de)(de)(de)(de)(de)(de)(de)(de)(de)(de)(de)真實世(shi)界目標(biao)。在此工(gong)(gong)作(zuo)中(zhong)(zhong),我(wo)們(men)(men)提出了(le)(le)一(yi)個(ge)關(guan)于(yu)用于(yu)SE的(de)(de)(de)(de)(de)(de)(de)(de)(de)(de)(de)基于(yu)LLM智(zhi)能(neng)(neng)(neng)(neng)體(ti)(ti)(ti)(ti)的(de)(de)(de)(de)(de)(de)(de)(de)(de)(de)(de)全面(mian)系(xi)統(tong)的(de)(de)(de)(de)(de)(de)(de)(de)(de)(de)(de)綜(zong)述。我(wo)們(men)(men)收集了(le)(le)106篇(pian)論文,并從(cong)兩(liang)個(ge)角(jiao)(jiao)(jiao)度(du)(du)對(dui)它(ta)們(men)(men)進(jin)行了(le)(le)分類,即(ji)(ji)SE視角(jiao)(jiao)(jiao)和(he)(he)智(zhi)能(neng)(neng)(neng)(neng)體(ti)(ti)(ti)(ti)視角(jiao)(jiao)(jiao)。此外(wai)(wai),我(wo)們(men)(men)還討論了(le)(le)該領域(yu)中(zhong)(zhong)的(de)(de)(de)(de)(de)(de)(de)(de)(de)(de)(de)開放(fang)性挑戰和(he)(he)未來(lai)的(de)(de)(de)(de)(de)(de)(de)(de)(de)(de)(de)研究方向。從(cong)SE的(de)(de)(de)(de)(de)(de)(de)(de)(de)(de)(de)角(jiao)(jiao)(jiao)度(du)(du)來(lai)看(kan),我(wo)們(men)(men)分析(xi)了(le)(le)基于(yu)LLM的(de)(de)(de)(de)(de)(de)(de)(de)(de)(de)(de)智(zhi)能(neng)(neng)(neng)(neng)體(ti)(ti)(ti)(ti)如何(he)應(ying)用于(yu)不同(tong)的(de)(de)(de)(de)(de)(de)(de)(de)(de)(de)(de)軟(ruan)件(jian)(jian)開發(fa)和(he)(he)改(gai)(gai)進(jin)活動,包(bao)括單個(ge)任務(wu)(wu)(例如需求工(gong)(gong)程(cheng)、代(dai)碼生成(cheng)、靜態代(dai)碼檢查、測試(shi)和(he)(he)調試(shi))以(yi)及(ji)軟(ruan)件(jian)(jian)開發(fa)和(he)(he)改(gai)(gai)進(jin)的(de)(de)(de)(de)(de)(de)(de)(de)(de)(de)(de)端到端過(guo)(guo)程(cheng)。從(cong)這(zhe)(zhe)個(ge)角(jiao)(jiao)(jiao)度(du)(du)來(lai)看(kan),我(wo)們(men)(men)提供(gong)了(le)(le)基于(yu)LLM的(de)(de)(de)(de)(de)(de)(de)(de)(de)(de)(de)智(zhi)能(neng)(neng)(neng)(neng)體(ti)(ti)(ti)(ti)如何(he)處理SE任務(wu)(wu)的(de)(de)(de)(de)(de)(de)(de)(de)(de)(de)(de)整體(ti)(ti)(ti)(ti)概(gai)覽。從(cong)智(zhi)能(neng)(neng)(neng)(neng)體(ti)(ti)(ti)(ti)的(de)(de)(de)(de)(de)(de)(de)(de)(de)(de)(de)角(jiao)(jiao)(jiao)度(du)(du)來(lai)看(kan),我(wo)們(men)(men)專(zhuan)注于(yu)設計用于(yu)SE的(de)(de)(de)(de)(de)(de)(de)(de)(de)(de)(de)基于(yu)LLM智(zhi)能(neng)(neng)(neng)(neng)體(ti)(ti)(ti)(ti)的(de)(de)(de)(de)(de)(de)(de)(de)(de)(de)(de)組(zu)件(jian)(jian)。具體(ti)(ti)(ti)(ti)而言,我(wo)們(men)(men)分析(xi)了(le)(le)這(zhe)(zhe)些智(zhi)能(neng)(neng)(neng)(neng)體(ti)(ti)(ti)(ti)的(de)(de)(de)(de)(de)(de)(de)(de)(de)(de)(de)關(guan)鍵(jian)組(zu)件(jian)(jian),包(bao)括規劃、記憶(yi)、感知(zhi)和(he)(he)行動。除(chu)了(le)(le)基本的(de)(de)(de)(de)(de)(de)(de)(de)(de)(de)(de)智(zhi)能(neng)(neng)(neng)(neng)體(ti)(ti)(ti)(ti)構(gou)建外(wai)(wai),我(wo)們(men)(men)還分析(xi)了(le)(le)多智(zhi)能(neng)(neng)(neng)(neng)體(ti)(ti)(ti)(ti)系(xi)統(tong),包(bao)括它(ta)們(men)(men)的(de)(de)(de)(de)(de)(de)(de)(de)(de)(de)(de)角(jiao)(jiao)(jiao)色、協作(zuo)機制(zhi)以(yi)及(ji)人(ren)(ren)機協作(zuo)。從(cong)這(zhe)(zhe)個(ge)角(jiao)(jiao)(jiao)度(du)(du)來(lai)看(kan),我(wo)們(men)(men)總結了(le)(le)當應(ying)用于(yu)SE領域(yu)時,基于(yu)LLM智(zhi)能(neng)(neng)(neng)(neng)體(ti)(ti)(ti)(ti)的(de)(de)(de)(de)(de)(de)(de)(de)(de)(de)(de)不同(tong)組(zu)件(jian)(jian)的(de)(de)(de)(de)(de)(de)(de)(de)(de)(de)(de)特點。總之(zhi),本綜(zong)述做出了(le)(le)以(yi)下貢獻:
背景與初步介紹
2.1 基于LLM智能體的基本框架 基于LLM的智能體通常由四個關鍵組件組成:規劃、記憶、感知和行動[21]。規劃和記憶是LLM控制的大腦的關鍵部分,它們通過感知和行動組件與環境進行交互以實現特定目標。圖2展示了基于LLM的智能體的基本框架。 規劃:規劃組件將復雜任務分解為多個子任務,并安排這些子任務以達到最終目標。具體來說,智能體可以(i)通過不同的推理策略生成一個無需調整的計劃,或者(ii)根據外部反饋(如環境反饋或人工反饋)調整已生成的計劃。 記憶:記憶組件記錄智能體執行過程中產生的歷史思想、動作和環境觀察[21][26][27]。基于累積的記憶,智能體可以回顧和利用之前的記錄和經驗,從而更有效地處理復雜任務。記憶管理(即如何表示記憶)和利用(即如何讀寫或檢索記憶)至關重要,這直接影響到智能體系統的效率和效果。 感知:感知組件接收來自環境的信息,這有助于更好的規劃。具體來說,智能體可以感知多模態輸入,例如文本輸入、視覺輸入和聽覺輸入。 行動:基于大腦做出的規劃和決策,行動組件執行具體的行動以與環境互動并影響環境。行動的一個重要機制是控制和利用外部工具,這可以通過訪問更多的外部資源來擴展LLMs的固有能力,并將行動空間擴展到不僅僅是文本交互之外。 2.2 高級的基于LLM的智能體系統 多智能體系統:雖然單個智能體系統可以專門解決某一特定任務,但使多個智能體之間進行協作(即多智能體系統)可以進一步解決與不同知識領域相關的更復雜任務。特別地,在一個多智能體系統中,每個智能體都有一個獨特的角色和相關專業知識,使其負責不同的任務;此外,智能體之間可以相互溝通,并隨著任務的推進共享進度/信息。通常情況下,智能體可以協作(即通過處理不同的子任務來實現最終目標)或競爭(即在同一任務上工作同時進行對抗性的辯論)的方式工作。 人機協調:智能體系統可以進一步結合人類的指令,并在人類指導下繼續執行任務。這種人機協調范式有助于更好地與人類偏好對齊并使用人類的專業知識。具體來說,在人機交互期間,人類不僅可以向智能體提供任務要求和對當前任務狀態的反饋,還可以與智能體合作共同實現目標。 2.3 相關綜述 一般領域的基于LLM的智能體已經被廣泛討論和綜述過[21][26][28]–[32]。與這些綜述不同,本文綜述側重于專門為軟件工程領域設計和應用的基于LLM的智能體。在軟件工程領域,已有幾項關于LLMs在軟件工程中的通用應用的綜述或文獻回顧[2][3][10][32][33]。與這些綜述不同的是,本文綜述特別關注智能體的視角,并且對于基于LLM的智能體在軟件工程中的應用更加全面。此外,He等人[34]提出了一篇關于多智能體系統在軟件工程中潛在應用和新興挑戰的展望文章。不同于這份展望文章,本文的工作重點是對現有智能體系統(包括單個智能體和多智能體系統)進行全面綜述。總的來說,據我們所知,這是第一篇專門針對軟件工程領域基于LLM智能體文獻的綜述。 綜述方法論
3.1 綜(zong)述(shu)(shu)(shu)(shu)范(fan)圍 我(wo)(wo)(wo)(wo)(wo)(wo)(wo)(wo)們(men)(men)(men)(men)將注(zhu)意力集(ji)(ji)(ji)中(zhong)(zhong)在(zai)(zai)(zai)(zai)那些(xie)(xie)(xie)應(ying)用(yong)(yong)(yong)(yong)基(ji)(ji)(ji)(ji)于(yu)(yu)LLM的(de)(de)(de)(de)(de)(de)(de)(de)(de)(de)(de)智(zhi)能(neng)(neng)體(ti)(ti)來(lai)處(chu)(chu)理(li)SE任(ren)(ren)(ren)(ren)務(wu)(wu)的(de)(de)(de)(de)(de)(de)(de)(de)(de)(de)(de)論(lun)(lun)(lun)(lun)(lun)文(wen)(wen)(wen)(wen)(wen)(wen)(wen)(wen)(wen)上。以(yi)(yi)下(xia)是(shi)(shi)術語(yu)的(de)(de)(de)(de)(de)(de)(de)(de)(de)(de)(de)具(ju)(ju)體(ti)(ti)定義: SE任(ren)(ren)(ren)(ren)務(wu)(wu):遵循之(zhi)前(qian)(qian)(qian)關(guan)(guan)(guan)(guan)(guan)(guan)于(yu)(yu)LLMs在(zai)(zai)(zai)(zai)SE中(zhong)(zhong)的(de)(de)(de)(de)(de)(de)(de)(de)(de)(de)(de)應(ying)用(yong)(yong)(yong)(yong)綜(zong)述(shu)(shu)(shu)(shu)[2][3],我(wo)(wo)(wo)(wo)(wo)(wo)(wo)(wo)們(men)(men)(men)(men)關(guan)(guan)(guan)(guan)(guan)(guan)注(zhu)整個(ge)軟(ruan)件生(sheng)(sheng)命周期(qi)中(zhong)(zhong)的(de)(de)(de)(de)(de)(de)(de)(de)(de)(de)(de)所有(you)SE任(ren)(ren)(ren)(ren)務(wu)(wu),包(bao)(bao)括(kuo)需(xu)求工(gong)(gong)(gong)程(cheng)、軟(ruan)件設(she)計、代碼生(sheng)(sheng)成、軟(ruan)件質量保(bao)證(zheng)(即靜態(tai)檢(jian)查(cha)和(he)(he)(he)測試(shi))以(yi)(yi)及(ji)軟(ruan)件改進(jin)(jin)(jin)(jin)。 基(ji)(ji)(ji)(ji)于(yu)(yu)LLM的(de)(de)(de)(de)(de)(de)(de)(de)(de)(de)(de)智(zhi)能(neng)(neng)體(ti)(ti):一(yi)(yi)(yi)個(ge)獨(du)立的(de)(de)(de)(de)(de)(de)(de)(de)(de)(de)(de)LLM可(ke)以(yi)(yi)作(zuo)(zuo)(zuo)為(wei)一(yi)(yi)(yi)個(ge)簡單的(de)(de)(de)(de)(de)(de)(de)(de)(de)(de)(de)“智(zhi)能(neng)(neng)體(ti)(ti)”工(gong)(gong)(gong)作(zuo)(zuo)(zuo),因(yin)為(wei)它(ta)可(ke)以(yi)(yi)接(jie)受文(wen)(wen)(wen)(wen)(wen)(wen)(wen)(wen)(wen)本(ben)輸入(ru)(ru)并(bing)(bing)(bing)產生(sheng)(sheng)文(wen)(wen)(wen)(wen)(wen)(wen)(wen)(wen)(wen)本(ben)輸出(chu),這(zhe)(zhe)(zhe)使得LLMs和(he)(he)(he)基(ji)(ji)(ji)(ji)于(yu)(yu)LLM的(de)(de)(de)(de)(de)(de)(de)(de)(de)(de)(de)智(zhi)能(neng)(neng)體(ti)(ti)之(zhi)間沒(mei)有(you)明確界限。然(ran)(ran)而,這(zhe)(zhe)(zhe)可(ke)能(neng)(neng)會(hui)(hui)導致(zhi)過(guo)(guo)(guo)于(yu)(yu)寬泛(fan)的(de)(de)(de)(de)(de)(de)(de)(de)(de)(de)(de)范(fan)圍,并(bing)(bing)(bing)與(yu)現有(you)的(de)(de)(de)(de)(de)(de)(de)(de)(de)(de)(de)關(guan)(guan)(guan)(guan)(guan)(guan)于(yu)(yu)LLMs在(zai)(zai)(zai)(zai)SE中(zhong)(zhong)的(de)(de)(de)(de)(de)(de)(de)(de)(de)(de)(de)應(ying)用(yong)(yong)(yong)(yong)綜(zong)述(shu)(shu)(shu)(shu)[2][3]有(you)大量重疊。基(ji)(ji)(ji)(ji)于(yu)(yu)廣泛(fan)接(jie)受的(de)(de)(de)(de)(de)(de)(de)(de)(de)(de)(de)關(guan)(guan)(guan)(guan)(guan)(guan)于(yu)(yu)AI智(zhi)能(neng)(neng)體(ti)(ti)的(de)(de)(de)(de)(de)(de)(de)(de)(de)(de)(de)共(gong)識(shi)(shi),智(zhi)能(neng)(neng)體(ti)(ti)的(de)(de)(de)(de)(de)(de)(de)(de)(de)(de)(de)關(guan)(guan)(guan)(guan)(guan)(guan)鍵(jian)(jian)(jian)特征在(zai)(zai)(zai)(zai)于(yu)(yu)它(ta)們(men)(men)(men)(men)能(neng)(neng)夠(gou)自(zi)主(zhu)且(qie)迭代地(di)從動態(tai)環(huan)(huan)境中(zhong)(zhong)感知反(fan)饋并(bing)(bing)(bing)對其采(cai)取行(xing)(xing)(xing)動[21]。為(wei)了(le)(le)(le)確保(bao)從智(zhi)能(neng)(neng)體(ti)(ti)的(de)(de)(de)(de)(de)(de)(de)(de)(de)(de)(de)角(jiao)度進(jin)(jin)(jin)(jin)行(xing)(xing)(xing)更集(ji)(ji)(ji)中(zhong)(zhong)的(de)(de)(de)(de)(de)(de)(de)(de)(de)(de)(de)討論(lun)(lun)(lun)(lun)(lun),此綜(zong)述(shu)(shu)(shu)(shu)重點關(guan)(guan)(guan)(guan)(guan)(guan)注(zhu)不(bu)僅將LLMs作(zuo)(zuo)(zuo)為(wei)其“大腦”的(de)(de)(de)(de)(de)(de)(de)(de)(de)(de)(de)核心(xin)部分(fen)(fen),而且(qie)還(huan)具(ju)(ju)有(you)迭代與(yu)環(huan)(huan)境互動、實(shi)時接(jie)收反(fan)饋并(bing)(bing)(bing)采(cai)取行(xing)(xing)(xing)動能(neng)(neng)力的(de)(de)(de)(de)(de)(de)(de)(de)(de)(de)(de)基(ji)(ji)(ji)(ji)于(yu)(yu)LLM的(de)(de)(de)(de)(de)(de)(de)(de)(de)(de)(de)智(zhi)能(neng)(neng)體(ti)(ti)。 更具(ju)(ju)體(ti)(ti)地(di)說(shuo),我(wo)(wo)(wo)(wo)(wo)(wo)(wo)(wo)們(men)(men)(men)(men)在(zai)(zai)(zai)(zai)論(lun)(lun)(lun)(lun)(lun)文(wen)(wen)(wen)(wen)(wen)(wen)(wen)(wen)(wen)收集(ji)(ji)(ji)過(guo)(guo)(guo)程(cheng)中(zhong)(zhong)應(ying)用(yong)(yong)(yong)(yong)了(le)(le)(le)以(yi)(yi)下(xia)納入(ru)(ru)和(he)(he)(he)排除(chu)(chu)標(biao)準(zhun): 納入(ru)(ru)標(biao)準(zhun):如果一(yi)(yi)(yi)篇(pian)(pian)(pian)論(lun)(lun)(lun)(lun)(lun)文(wen)(wen)(wen)(wen)(wen)(wen)(wen)(wen)(wen)滿足(zu)以(yi)(yi)下(xia)任(ren)(ren)(ren)(ren)何(he)一(yi)(yi)(yi)項(xiang)(xiang)標(biao)準(zhun),則(ze)將其納入(ru)(ru)我(wo)(wo)(wo)(wo)(wo)(wo)(wo)(wo)們(men)(men)(men)(men)的(de)(de)(de)(de)(de)(de)(de)(de)(de)(de)(de)綜(zong)述(shu)(shu)(shu)(shu):(i) 論(lun)(lun)(lun)(lun)(lun)文(wen)(wen)(wen)(wen)(wen)(wen)(wen)(wen)(wen)提(ti)(ti)出(chu)了(le)(le)(le)一(yi)(yi)(yi)種(zhong)技(ji)術、框(kuang)架(jia)或工(gong)(gong)(gong)具(ju)(ju),用(yong)(yong)(yong)(yong)于(yu)(yu)使用(yong)(yong)(yong)(yong)基(ji)(ji)(ji)(ji)于(yu)(yu)LLM的(de)(de)(de)(de)(de)(de)(de)(de)(de)(de)(de)智(zhi)能(neng)(neng)體(ti)(ti)解決(jue)特定的(de)(de)(de)(de)(de)(de)(de)(de)(de)(de)(de)SE任(ren)(ren)(ren)(ren)務(wu)(wu);(ii) 論(lun)(lun)(lun)(lun)(lun)文(wen)(wen)(wen)(wen)(wen)(wen)(wen)(wen)(wen)展(zhan)(zhan)示了(le)(le)(le)一(yi)(yi)(yi)種(zhong)一(yi)(yi)(yi)般的(de)(de)(de)(de)(de)(de)(de)(de)(de)(de)(de)技(ji)術、框(kuang)架(jia)或工(gong)(gong)(gong)具(ju)(ju),前(qian)(qian)(qian)提(ti)(ti)是(shi)(shi)其評(ping)估至少包(bao)(bao)括(kuo)一(yi)(yi)(yi)個(ge)SE任(ren)(ren)(ren)(ren)務(wu)(wu);(iii) 論(lun)(lun)(lun)(lun)(lun)文(wen)(wen)(wen)(wen)(wen)(wen)(wen)(wen)(wen)展(zhan)(zhan)示了(le)(le)(le)一(yi)(yi)(yi)項(xiang)(xiang)對特定SE任(ren)(ren)(ren)(ren)務(wu)(wu)上基(ji)(ji)(ji)(ji)于(yu)(yu)LLM的(de)(de)(de)(de)(de)(de)(de)(de)(de)(de)(de)智(zhi)能(neng)(neng)體(ti)(ti)進(jin)(jin)(jin)(jin)行(xing)(xing)(xing)評(ping)估的(de)(de)(de)(de)(de)(de)(de)(de)(de)(de)(de)經驗研(yan)究。 排除(chu)(chu)標(biao)準(zhun):如果一(yi)(yi)(yi)篇(pian)(pian)(pian)論(lun)(lun)(lun)(lun)(lun)文(wen)(wen)(wen)(wen)(wen)(wen)(wen)(wen)(wen)滿足(zu)以(yi)(yi)下(xia)任(ren)(ren)(ren)(ren)何(he)一(yi)(yi)(yi)項(xiang)(xiang)標(biao)準(zhun),則(ze)將其排除(chu)(chu)在(zai)(zai)(zai)(zai)我(wo)(wo)(wo)(wo)(wo)(wo)(wo)(wo)們(men)(men)(men)(men)的(de)(de)(de)(de)(de)(de)(de)(de)(de)(de)(de)綜(zong)述(shu)(shu)(shu)(shu)之(zhi)外(wai):(i) 論(lun)(lun)(lun)(lun)(lun)文(wen)(wen)(wen)(wen)(wen)(wen)(wen)(wen)(wen)不(bu)涉及(ji)任(ren)(ren)(ren)(ren)何(he)SE任(ren)(ren)(ren)(ren)務(wu)(wu);(ii) 論(lun)(lun)(lun)(lun)(lun)文(wen)(wen)(wen)(wen)(wen)(wen)(wen)(wen)(wen)僅在(zai)(zai)(zai)(zai)討論(lun)(lun)(lun)(lun)(lun)或未來(lai)工(gong)(gong)(gong)作(zuo)(zuo)(zuo)的(de)(de)(de)(de)(de)(de)(de)(de)(de)(de)(de)上下(xia)文(wen)(wen)(wen)(wen)(wen)(wen)(wen)(wen)(wen)中(zhong)(zhong)討論(lun)(lun)(lun)(lun)(lun)基(ji)(ji)(ji)(ji)于(yu)(yu)LLM的(de)(de)(de)(de)(de)(de)(de)(de)(de)(de)(de)智(zhi)能(neng)(neng)體(ti)(ti),而未將其整合為(wei)主(zhu)要(yao)方(fang)法(fa)的(de)(de)(de)(de)(de)(de)(de)(de)(de)(de)(de)一(yi)(yi)(yi)部分(fen)(fen);(iii) 論(lun)(lun)(lun)(lun)(lun)文(wen)(wen)(wen)(wen)(wen)(wen)(wen)(wen)(wen)僅使用(yong)(yong)(yong)(yong)獨(du)立的(de)(de)(de)(de)(de)(de)(de)(de)(de)(de)(de)LLM來(lai)處(chu)(chu)理(li)文(wen)(wen)(wen)(wen)(wen)(wen)(wen)(wen)(wen)本(ben)輸入(ru)(ru)并(bing)(bing)(bing)生(sheng)(sheng)成文(wen)(wen)(wen)(wen)(wen)(wen)(wen)(wen)(wen)本(ben)輸出(chu),而沒(mei)有(you)任(ren)(ren)(ren)(ren)何(he)與(yu)環(huan)(huan)境的(de)(de)(de)(de)(de)(de)(de)(de)(de)(de)(de)迭代互動。 3.2 論(lun)(lun)(lun)(lun)(lun)文(wen)(wen)(wen)(wen)(wen)(wen)(wen)(wen)(wen)收集(ji)(ji)(ji) 我(wo)(wo)(wo)(wo)(wo)(wo)(wo)(wo)們(men)(men)(men)(men)的(de)(de)(de)(de)(de)(de)(de)(de)(de)(de)(de)論(lun)(lun)(lun)(lun)(lun)文(wen)(wen)(wen)(wen)(wen)(wen)(wen)(wen)(wen)收集(ji)(ji)(ji)過(guo)(guo)(guo)程(cheng)包(bao)(bao)含兩(liang)個(ge)步驟:關(guan)(guan)(guan)(guan)(guan)(guan)鍵(jian)(jian)(jian)詞(ci)搜索(suo)和(he)(he)(he)滾(gun)雪球法(fa)。 3.2.1 關(guan)(guan)(guan)(guan)(guan)(guan)鍵(jian)(jian)(jian)詞(ci)搜索(suo) 我(wo)(wo)(wo)(wo)(wo)(wo)(wo)(wo)們(men)(men)(men)(men)遵循軟(ruan)件工(gong)(gong)(gong)程(cheng)綜(zong)述(shu)(shu)(shu)(shu)中(zhong)(zhong)的(de)(de)(de)(de)(de)(de)(de)(de)(de)(de)(de)既定實(shi)踐[35]-[39],使用(yong)(yong)(yong)(yong)DBLP數據庫(ku)[40]進(jin)(jin)(jin)(jin)行(xing)(xing)(xing)論(lun)(lun)(lun)(lun)(lun)文(wen)(wen)(wen)(wen)(wen)(wen)(wen)(wen)(wen)收集(ji)(ji)(ji)。近期(qi)的(de)(de)(de)(de)(de)(de)(de)(de)(de)(de)(de)研(yan)究[39]表(biao)明,從其他主(zhu)要(yao)出(chu)版(ban)物(wu)(wu)數據庫(ku)收集(ji)(ji)(ji)的(de)(de)(de)(de)(de)(de)(de)(de)(de)(de)(de)論(lun)(lun)(lun)(lun)(lun)文(wen)(wen)(wen)(wen)(wen)(wen)(wen)(wen)(wen)通常是(shi)(shi)DBLP中(zhong)(zhong)論(lun)(lun)(lun)(lun)(lun)文(wen)(wen)(wen)(wen)(wen)(wen)(wen)(wen)(wen)的(de)(de)(de)(de)(de)(de)(de)(de)(de)(de)(de)子集(ji)(ji)(ji),DBLP涵蓋了(le)(le)(le)超過(guo)(guo)(guo)7百萬份計算(suan)機科學(xue)領(ling)域(yu)的(de)(de)(de)(de)(de)(de)(de)(de)(de)(de)(de)學(xue)術會(hui)(hui)議(超過(guo)(guo)(guo)6,500個(ge))和(he)(he)(he)期(qi)刊(1,850個(ge))的(de)(de)(de)(de)(de)(de)(de)(de)(de)(de)(de)出(chu)版(ban)物(wu)(wu)[41]。DBLP還(huan)包(bao)(bao)括(kuo)arXiv[42],這(zhe)(zhe)(zhe)是(shi)(shi)一(yi)(yi)(yi)個(ge)廣泛(fan)采(cai)用(yong)(yong)(yong)(yong)的(de)(de)(de)(de)(de)(de)(de)(de)(de)(de)(de)開(kai)放獲取存儲庫(ku)。我(wo)(wo)(wo)(wo)(wo)(wo)(wo)(wo)們(men)(men)(men)(men)采(cai)用(yong)(yong)(yong)(yong)一(yi)(yi)(yi)種(zhong)在(zai)(zai)(zai)(zai)軟(ruan)件工(gong)(gong)(gong)程(cheng)綜(zong)述(shu)(shu)(shu)(shu)中(zhong)(zhong)廣泛(fan)采(cai)用(yong)(yong)(yong)(yong)的(de)(de)(de)(de)(de)(de)(de)(de)(de)(de)(de)試(shi)錯(cuo)法(fa)來(lai)確定搜索(suo)關(guan)(guan)(guan)(guan)(guan)(guan)鍵(jian)(jian)(jian)詞(ci)。最初,所有(you)作(zuo)(zuo)(zuo)者,特別(bie)是(shi)(shi)那些(xie)(xie)(xie)在(zai)(zai)(zai)(zai)LLM和(he)(he)(he)SE領(ling)域(yu)有(you)相(xiang)(xiang)關(guan)(guan)(guan)(guan)(guan)(guan)研(yan)究經驗和(he)(he)(he)出(chu)版(ban)物(wu)(wu)的(de)(de)(de)(de)(de)(de)(de)(de)(de)(de)(de)作(zuo)(zuo)(zuo)者,聚在(zai)(zai)(zai)(zai)一(yi)(yi)(yi)起建議與(yu)我(wo)(wo)(wo)(wo)(wo)(wo)(wo)(wo)們(men)(men)(men)(men)的(de)(de)(de)(de)(de)(de)(de)(de)(de)(de)(de)范(fan)圍相(xiang)(xiang)關(guan)(guan)(guan)(guan)(guan)(guan)的(de)(de)(de)(de)(de)(de)(de)(de)(de)(de)(de)論(lun)(lun)(lun)(lun)(lun)文(wen)(wen)(wen)(wen)(wen)(wen)(wen)(wen)(wen),從而得到(dao)一(yi)(yi)(yi)個(ge)初步的(de)(de)(de)(de)(de)(de)(de)(de)(de)(de)(de)相(xiang)(xiang)關(guan)(guan)(guan)(guan)(guan)(guan)論(lun)(lun)(lun)(lun)(lun)文(wen)(wen)(wen)(wen)(wen)(wen)(wen)(wen)(wen)集(ji)(ji)(ji)合。隨(sui)后(hou),前(qian)(qian)(qian)兩(liang)位(wei)作(zuo)(zuo)(zuo)者審閱這(zhe)(zhe)(zhe)些(xie)(xie)(xie)論(lun)(lun)(lun)(lun)(lun)文(wen)(wen)(wen)(wen)(wen)(wen)(wen)(wen)(wen)的(de)(de)(de)(de)(de)(de)(de)(de)(de)(de)(de)標(biao)題、摘要(yao)和(he)(he)(he)引言以(yi)(yi)識(shi)(shi)別(bie)額外(wai)的(de)(de)(de)(de)(de)(de)(de)(de)(de)(de)(de)關(guan)(guan)(guan)(guan)(guan)(guan)鍵(jian)(jian)(jian)詞(ci)。然(ran)(ran)后(hou),我(wo)(wo)(wo)(wo)(wo)(wo)(wo)(wo)們(men)(men)(men)(men)進(jin)(jin)(jin)(jin)行(xing)(xing)(xing)頭腦風暴(bao)會(hui)(hui)議以(yi)(yi)擴展(zhan)(zhan)和(he)(he)(he)細化我(wo)(wo)(wo)(wo)(wo)(wo)(wo)(wo)們(men)(men)(men)(men)的(de)(de)(de)(de)(de)(de)(de)(de)(de)(de)(de)搜索(suo)字符串,納入(ru)(ru)相(xiang)(xiang)關(guan)(guan)(guan)(guan)(guan)(guan)術語(yu)、同義詞(ci)和(he)(he)(he)變體(ti)(ti)。這(zhe)(zhe)(zhe)一(yi)(yi)(yi)過(guo)(guo)(guo)程(cheng)使我(wo)(wo)(wo)(wo)(wo)(wo)(wo)(wo)們(men)(men)(men)(men)能(neng)(neng)夠(gou)迭代地(di)改進(jin)(jin)(jin)(jin)我(wo)(wo)(wo)(wo)(wo)(wo)(wo)(wo)們(men)(men)(men)(men)的(de)(de)(de)(de)(de)(de)(de)(de)(de)(de)(de)搜索(suo)關(guan)(guan)(guan)(guan)(guan)(guan)鍵(jian)(jian)(jian)詞(ci)列表(biao)。 最終的(de)(de)(de)(de)(de)(de)(de)(de)(de)(de)(de)關(guan)(guan)(guan)(guan)(guan)(guan)鍵(jian)(jian)(jian)詞(ci)包(bao)(bao)括(kuo) ("agent" OR "llm" OR "language model") AND ("api" OR "bug" OR "code" OR "coding" OR "debug" OR "defect" OR "deploy" OR "evolution" OR "fault" OR "fix" OR "maintenance" OR "program" OR "refactor" OR "repair" OR "requirement" OR "software" OR "test" OR "verification" OR "vulnerab")。 基(ji)(ji)(ji)(ji)于(yu)(yu)這(zhe)(zhe)(zhe)些(xie)(xie)(xie)關(guan)(guan)(guan)(guan)(guan)(guan)鍵(jian)(jian)(jian)詞(ci),我(wo)(wo)(wo)(wo)(wo)(wo)(wo)(wo)們(men)(men)(men)(men)在(zai)(zai)(zai)(zai)2024年7月(yue)(yue)1日(ri)(ri)在(zai)(zai)(zai)(zai)DBLP上進(jin)(jin)(jin)(jin)行(xing)(xing)(xing)了(le)(le)(le)57次(ci)搜索(suo),并(bing)(bing)(bing)獲得了(le)(le)(le)10,362條結果。表(biao)1顯(xian)示了(le)(le)(le)通過(guo)(guo)(guo)關(guan)(guan)(guan)(guan)(guan)(guan)鍵(jian)(jian)(jian)詞(ci)搜索(suo)收集(ji)(ji)(ji)的(de)(de)(de)(de)(de)(de)(de)(de)(de)(de)(de)論(lun)(lun)(lun)(lun)(lun)文(wen)(wen)(wen)(wen)(wen)(wen)(wen)(wen)(wen)統(tong)計數據。前(qian)(qian)(qian)兩(liang)位(wei)作(zuo)(zuo)(zuo)者手動審查(cha)每篇(pian)(pian)(pian)論(lun)(lun)(lun)(lun)(lun)文(wen)(wen)(wen)(wen)(wen)(wen)(wen)(wen)(wen),以(yi)(yi)過(guo)(guo)(guo)濾掉不(bu)在(zai)(zai)(zai)(zai)本(ben)次(ci)綜(zong)述(shu)(shu)(shu)(shu)范(fan)圍內(nei)的(de)(de)(de)(de)(de)(de)(de)(de)(de)(de)(de)論(lun)(lun)(lun)(lun)(lun)文(wen)(wen)(wen)(wen)(wen)(wen)(wen)(wen)(wen)。結果,我(wo)(wo)(wo)(wo)(wo)(wo)(wo)(wo)們(men)(men)(men)(men)通過(guo)(guo)(guo)這(zhe)(zhe)(zhe)一(yi)(yi)(yi)過(guo)(guo)(guo)程(cheng)確定了(le)(le)(le)67篇(pian)(pian)(pian)相(xiang)(xiang)關(guan)(guan)(guan)(guan)(guan)(guan)的(de)(de)(de)(de)(de)(de)(de)(de)(de)(de)(de)論(lun)(lun)(lun)(lun)(lun)文(wen)(wen)(wen)(wen)(wen)(wen)(wen)(wen)(wen)。 3.2.2 滾(gun)雪球法(fa) 為(wei)了(le)(le)(le)提(ti)(ti)高我(wo)(wo)(wo)(wo)(wo)(wo)(wo)(wo)們(men)(men)(men)(men)綜(zong)述(shu)(shu)(shu)(shu)的(de)(de)(de)(de)(de)(de)(de)(de)(de)(de)(de)全面性(xing),我(wo)(wo)(wo)(wo)(wo)(wo)(wo)(wo)們(men)(men)(men)(men)采(cai)用(yong)(yong)(yong)(yong)了(le)(le)(le)滾(gun)雪球法(fa)來(lai)識(shi)(shi)別(bie)那些(xie)(xie)(xie)過(guo)(guo)(guo)渡相(xiang)(xiang)關(guan)(guan)(guan)(guan)(guan)(guan)的(de)(de)(de)(de)(de)(de)(de)(de)(de)(de)(de)論(lun)(lun)(lun)(lun)(lun)文(wen)(wen)(wen)(wen)(wen)(wen)(wen)(wen)(wen)并(bing)(bing)(bing)擴展(zhan)(zhan)我(wo)(wo)(wo)(wo)(wo)(wo)(wo)(wo)們(men)(men)(men)(men)的(de)(de)(de)(de)(de)(de)(de)(de)(de)(de)(de)論(lun)(lun)(lun)(lun)(lun)文(wen)(wen)(wen)(wen)(wen)(wen)(wen)(wen)(wen)收集(ji)(ji)(ji)[35]。具(ju)(ju)體(ti)(ti)來(lai)說(shuo),在(zai)(zai)(zai)(zai)2024年7月(yue)(yue)1日(ri)(ri)至7月(yue)(yue)10日(ri)(ri)期(qi)間,我(wo)(wo)(wo)(wo)(wo)(wo)(wo)(wo)們(men)(men)(men)(men)進(jin)(jin)(jin)(jin)行(xing)(xing)(xing)了(le)(le)(le)前(qian)(qian)(qian)后(hou)滾(gun)雪球法(fa)。后(hou)向滾(gun)雪球法(fa)涉及(ji)檢(jian)查(cha)每篇(pian)(pian)(pian)收集(ji)(ji)(ji)論(lun)(lun)(lun)(lun)(lun)文(wen)(wen)(wen)(wen)(wen)(wen)(wen)(wen)(wen)中(zhong)(zhong)的(de)(de)(de)(de)(de)(de)(de)(de)(de)(de)(de)參考文(wen)(wen)(wen)(wen)(wen)(wen)(wen)(wen)(wen)獻(xian),以(yi)(yi)識(shi)(shi)別(bie)我(wo)(wo)(wo)(wo)(wo)(wo)(wo)(wo)們(men)(men)(men)(men)范(fan)圍內(nei)的(de)(de)(de)(de)(de)(de)(de)(de)(de)(de)(de)相(xiang)(xiang)關(guan)(guan)(guan)(guan)(guan)(guan)論(lun)(lun)(lun)(lun)(lun)文(wen)(wen)(wen)(wen)(wen)(wen)(wen)(wen)(wen);而前(qian)(qian)(qian)向滾(gun)雪球法(fa)則(ze)使用(yong)(yong)(yong)(yong)谷(gu)歌學(xue)術來(lai)查(cha)找引用(yong)(yong)(yong)(yong)這(zhe)(zhe)(zhe)些(xie)(xie)(xie)收集(ji)(ji)(ji)論(lun)(lun)(lun)(lun)(lun)文(wen)(wen)(wen)(wen)(wen)(wen)(wen)(wen)(wen)的(de)(de)(de)(de)(de)(de)(de)(de)(de)(de)(de)相(xiang)(xiang)關(guan)(guan)(guan)(guan)(guan)(guan)論(lun)(lun)(lun)(lun)(lun)文(wen)(wen)(wen)(wen)(wen)(wen)(wen)(wen)(wen)。這(zhe)(zhe)(zhe)一(yi)(yi)(yi)迭代過(guo)(guo)(guo)程(cheng)一(yi)(yi)(yi)直(zhi)持續(xu)到(dao)不(bu)再發(fa)現新的(de)(de)(de)(de)(de)(de)(de)(de)(de)(de)(de)相(xiang)(xiang)關(guan)(guan)(guan)(guan)(guan)(guan)論(lun)(lun)(lun)(lun)(lun)文(wen)(wen)(wen)(wen)(wen)(wen)(wen)(wen)(wen)為(wei)止。在(zai)(zai)(zai)(zai)這(zhe)(zhe)(zhe)個(ge)過(guo)(guo)(guo)程(cheng)中(zhong)(zhong),我(wo)(wo)(wo)(wo)(wo)(wo)(wo)(wo)們(men)(men)(men)(men)又檢(jian)索(suo)到(dao)了(le)(le)(le)另外(wai)39篇(pian)(pian)(pian)論(lun)(lun)(lun)(lun)(lun)文(wen)(wen)(wen)(wen)(wen)(wen)(wen)(wen)(wen)。 3.3 收集(ji)(ji)(ji)論(lun)(lun)(lun)(lun)(lun)文(wen)(wen)(wen)(wen)(wen)(wen)(wen)(wen)(wen)的(de)(de)(de)(de)(de)(de)(de)(de)(de)(de)(de)統(tong)計 如表(biao)1所示,我(wo)(wo)(wo)(wo)(wo)(wo)(wo)(wo)們(men)(men)(men)(men)總共(gong)收集(ji)(ji)(ji)了(le)(le)(le)106篇(pian)(pian)(pian)論(lun)(lun)(lun)(lun)(lun)文(wen)(wen)(wen)(wen)(wen)(wen)(wen)(wen)(wen)用(yong)(yong)(yong)(yong)于(yu)(yu)這(zhe)(zhe)(zhe)次(ci)綜(zong)述(shu)(shu)(shu)(shu)。圖(tu)3展(zhan)(zhan)示了(le)(le)(le)截至2024年7月(yue)(yue)10日(ri)(ri)隨(sui)時間累積發(fa)表(biao)的(de)(de)(de)(de)(de)(de)(de)(de)(de)(de)(de)論(lun)(lun)(lun)(lun)(lun)文(wen)(wen)(wen)(wen)(wen)(wen)(wen)(wen)(wen)數量。我(wo)(wo)(wo)(wo)(wo)(wo)(wo)(wo)們(men)(men)(men)(men)觀(guan)察到(dao)該領(ling)域(yu)研(yan)究興趣的(de)(de)(de)(de)(de)(de)(de)(de)(de)(de)(de)持續(xu)增(zeng)長,突顯(xian)了(le)(le)(le)此次(ci)綜(zong)述(shu)(shu)(shu)(shu)的(de)(de)(de)(de)(de)(de)(de)(de)(de)(de)(de)必要(yao)性(xing)和(he)(he)(he)相(xiang)(xiang)關(guan)(guan)(guan)(guan)(guan)(guan)性(xing)。此外(wai),圖(tu)4顯(xian)示了(le)(le)(le)論(lun)(lun)(lun)(lun)(lun)文(wen)(wen)(wen)(wen)(wen)(wen)(wen)(wen)(wen)發(fa)表(biao)場所的(de)(de)(de)(de)(de)(de)(de)(de)(de)(de)(de)分(fen)(fen)布情況,涵蓋了(le)(le)(le)諸如軟(ruan)件工(gong)(gong)(gong)程(cheng)、人工(gong)(gong)(gong)智(zhi)能(neng)(neng)和(he)(he)(he)人機交互等不(bu)同的(de)(de)(de)(de)(de)(de)(de)(de)(de)(de)(de)研(yan)究社區。特別(bie)是(shi)(shi),大多(duo)數論(lun)(lun)(lun)(lun)(lun)文(wen)(wen)(wen)(wen)(wen)(wen)(wen)(wen)(wen)來(lai)自(zi)arXiv且(qie)尚未經過(guo)(guo)(guo)同行(xing)(xing)(xing)評(ping)審。這(zhe)(zhe)(zhe)種(zhong)情況是(shi)(shi)可(ke)以(yi)(yi)預期(qi)的(de)(de)(de)(de)(de)(de)(de)(de)(de)(de)(de),因(yin)為(wei)該領(ling)域(yu)正在(zai)(zai)(zai)(zai)興起并(bing)(bing)(bing)且(qie)仍處(chu)(chu)于(yu)(yu)快速(su)發(fa)展(zhan)(zhan)之(zhi)中(zhong)(zhong)。
強化學習(RL)是一種強大的序列決策工具,在許多具有挑戰性的現實任務中取得了超越人類能力的表現。作為RL在多智能體系統領域的擴展,多智能體強化學習(MARL)不僅需要學習控制策略,還需要考慮與環境中其他所有智能體的交互、不同系統組件之間的相互影響以及計算資源的分配。這增加了算法設計的復雜性,并對計算資源提出了更高的要求。同時,模擬器對于獲取現實數據至關重要,這是RL的基礎。在本文中,我們首先提出了一系列模擬器的指標,并總結了現有基準測試的特征。其次,為了便于理解,我們回顧了基礎知識,并綜合了最近與MARL相關的自動駕駛和智能交通系統的研究進展。具體而言,我們考察了它們的環境建模、狀態表示、感知單元和算法設計。最后,我們討論了當前面臨的挑戰以及未來的前景和機會。我們希望本文能夠幫助研究人員整合MARL技術,并激發更多關于智能和自動駕駛的深刻見解。 關鍵詞——多智能體強化學習、自動駕駛、人工智能
大規模自動駕駛系統近年來吸引了大量關注,并獲得了來自工業界、學術界和政府的數百萬資金支持【1】【2】。開發此類系統的動機在于用自動化控制器取代人類駕駛員,這可以顯著減少駕駛時間和工作負擔,提升交通系統的效率與安全性,促進經濟發展。一般來說,為了檢測車輛狀態并生成可靠的控制策略,自動駕駛車輛(AVs)需要配備大量電子單元,如視覺傳感器,包括雷達、激光雷達(LiDAR)、RGB-深度(RGB-D)攝像頭、事件攝像頭、慣性測量單元(IMU)、全球定位系統(GPS)等【3】–【5】。該領域的一個突出挑戰是構建一個能夠處理海量信息并將其轉化為實時操作的穩健且高效的算法。早期的工作將這一大問題分為感知、規劃和控制問題,并獨立解決,這被稱為模塊化自動駕駛。 另一方面,作為一種強大的序列決策工具,強化學習(RL)可以通過獎勵信號優化智能體行為模型。隨著其(qi)發(fa)展,深(shen)度RL結合了RL和(he)深(shen)度神經網絡的(de)(de)優勢(shi),能夠抽象復雜的(de)(de)觀測并(bing)(bing)學習(xi)高效(xiao)的(de)(de)特征表示(shi)【6】。在過去(qu)的(de)(de)代表性研究中(zhong),它(ta)在棋(qi)類游戲【7】【8】、電子游戲【9】【10】以(yi)及機器人(ren)控制【11】–【13】等領域表現出色(se),甚至(zhi)在某些情況下超越了人(ren)類表現。對于自(zi)動駕(jia)(jia)駛(shi)(shi)(shi)而言,RL使端到端控制成為(wei)現實,即(ji)從(cong)車輛感(gan)知到車輛應該(gai)做什么的(de)(de)直接轉換,就(jiu)像人(ren)類駕(jia)(jia)駛(shi)(shi)(shi)員一(yi)樣(yang)。盡管RL在自(zi)動駕(jia)(jia)駛(shi)(shi)(shi)車輛方面取得(de)了許(xu)多顯著成就(jiu),大多數相關工(gong)作仍是(shi)從(cong)單個車輛的(de)(de)角度出發(fa),這(zhe)導致了以(yi)自(zi)我為(wei)中(zhong)心并(bing)(bing)可能具有(you)攻擊性的(de)(de)駕(jia)(jia)駛(shi)(shi)(shi)策略,可能會(hui)引發(fa)安全事故并(bing)(bing)降低交通系統(tong)的(de)(de)效(xiao)率。
對于現實世界的交通系統,我們通常將其定義為多智能體系統(MAS),并旨在優化整個系統的效率,而不僅僅是最大化個體利益。在MAS中,所有智能(neng)(neng)(neng)體(ti)(ti)在共享的(de)環(huan)境(jing)中做出決(jue)策(ce)并(bing)進(jin)行(xing)(xing)交(jiao)互(hu)。這(zhe)(zhe)意味(wei)著每個(ge)智能(neng)(neng)(neng)體(ti)(ti)的(de)狀態不(bu)僅取決(jue)于(yu)(yu)其(qi)自(zi)身的(de)行(xing)(xing)為,還取決(jue)于(yu)(yu)其(qi)他智能(neng)(neng)(neng)體(ti)(ti)的(de)行(xing)(xing)為,使(shi)得環(huan)境(jing)動(dong)(dong)態呈現非(fei)靜態和(he)時(shi)間變化(hua)性。此(ci)外,根據任務(wu)設置,智能(neng)(neng)(neng)體(ti)(ti)可能(neng)(neng)(neng)相互(hu)合作或競爭。在如此(ci)復雜的(de)場景中,手動(dong)(dong)編程預(yu)先行(xing)(xing)動(dong)(dong)幾乎是不(bu)可能(neng)(neng)(neng)的(de)【15】。得益于(yu)(yu)多(duo)智能(neng)(neng)(neng)體(ti)(ti)強化(hua)學習(xi)(MARL)的(de)重(zhong)大進(jin)展,交(jiao)通控(kong)制【16】【17】、能(neng)(neng)(neng)源分配【18】【19】、大規模機器人控(kong)制【20】【21】以(yi)及經濟建模與預(yu)測【22】【23】領域(yu)均取得了實質性突破。圖1展示(shi)了這(zhe)(zhe)些相關(guan)研(yan)究(jiu)(jiu)主(zhu)題的(de)出版物(wu)(wu)數量(liang)。使(shi)用Dimensions數據庫進(jin)行(xing)(xing)AI搜(sou)索【14】,我們(men)搜(sou)索了包括多(duo)智能(neng)(neng)(neng)體(ti)(ti)強化(hua)學習(xi)、自(zi)動(dong)(dong)駕駛和(he)智能(neng)(neng)(neng)交(jiao)通在內的(de)關(guan)鍵(jian)詞。統計(ji)結果表明(ming),學術界對這(zhe)(zhe)些問(wen)題高度(du)關(guan)注,相關(guan)研(yan)究(jiu)(jiu)領域(yu)正處于(yu)(yu)快速增(zeng)長階(jie)段。為了加速進(jin)一步研(yan)究(jiu)(jiu)并(bing)幫助新(xin)研(yan)究(jiu)(jiu)人員快速入門,我們(men)審閱了200多(duo)篇出版物(wu)(wu)、開源軟(ruan)件(jian)和(he)代(dai)碼庫,然后系(xi)統地(di)總結了現有成就和(he)最新(xin)進(jin)展。
在此,我們提及其他近期的綜述。在里程碑系列【25】–【27】中,作者簡要總結了從歷史到未來的藍圖,并簡要介紹了自動駕駛中具有影響力的算法。還有(you)許(xu)多綜(zong)述【28】–【30】介紹(shao)了(le)(le)(le)(le)RL的(de)(de)(de)基本理論(lun)和(he)應(ying)用(yong),并(bing)分(fen)析(xi)了(le)(le)(le)(le)其發表時最先進(jin)(jin)的(de)(de)(de)(SoTA)自(zi)動(dong)(dong)駕(jia)駛(shi)算法(fa)(fa),但它們主要(yao)關(guan)注單(dan)智能體學(xue)(xue)習(xi)。綜(zong)述【31】的(de)(de)(de)作者首次定(ding)義了(le)(le)(le)(le)分(fen)層結(jie)構的(de)(de)(de)自(zi)動(dong)(dong)駕(jia)駛(shi)系統,并(bing)將其研(yan)究(jiu)(jiu)范圍限定(ding)在局(ju)部(bu)運(yun)動(dong)(dong)規劃。他(ta)們說明了(le)(le)(le)(le)車輛(liang)的(de)(de)(de)動(dong)(dong)力(li)學(xue)(xue),并(bing)展(zhan)示了(le)(le)(le)(le)采樣和(he)基于搜(sou)索的(de)(de)(de)方法(fa)(fa)如(ru)何(he)在數(shu)學(xue)(xue)上工作。然而,他(ta)們忽略了(le)(le)(le)(le)基于學(xue)(xue)習(xi)的(de)(de)(de)方法(fa)(fa)的(de)(de)(de)貢獻(xian)。在最近的(de)(de)(de)運(yun)動(dong)(dong)規劃綜(zong)述【2】中,研(yan)究(jiu)(jiu)人(ren)員全面(mian)調(diao)查了(le)(le)(le)(le)管道和(he)學(xue)(xue)習(xi)方法(fa)(fa),包括(kuo)深度學(xue)(xue)習(xi)、逆(ni)向(xiang)RL和(he)模(mo)仿學(xue)(xue)習(xi)以及MARL。同樣,詳細的(de)(de)(de)概(gai)述涵蓋(gai)了(le)(le)(le)(le)軌(gui)跡預(yu)測中最新的(de)(de)(de)分(fen)類法(fa)(fa)和(he)方法(fa)(fa)論(lun)【32】。還有(you)一(yi)些優秀(xiu)的(de)(de)(de)綜(zong)述總結(jie)了(le)(le)(le)(le)AVs的(de)(de)(de)MARL方法(fa)(fa)【1】【33】【34】。盡(jin)管如(ru)此(ci),近年(nian)來研(yan)究(jiu)(jiu)人(ren)員在理論(lun)和(he)應(ying)用(yong)方面(mian)取得了(le)(le)(le)(le)顯著進(jin)(jin)展(zhan),并(bing)且在高級機器(qi)人(ren)模(mo)擬(ni)(ni)器(qi)中也取得了(le)(le)(le)(le)進(jin)(jin)展(zhan)。作為(wei)在線RL訓練的(de)(de)(de)關(guan)鍵(jian)組成部(bu)分(fen),模(mo)擬(ni)(ni)器(qi)決定(ding)了(le)(le)(le)(le)從(cong)模(mo)擬(ni)(ni)到現實的(de)(de)(de)差距,即智能體學(xue)(xue)習(xi)的(de)(de)(de)策(ce)略是否可以輕(qing)松地轉(zhuan)移到物理機器(qi)人(ren)上。因此(ci),為(wei)了(le)(le)(le)(le)使工程(cheng)師(shi)和(he)研(yan)究(jiu)(jiu)人(ren)員能夠捕捉最新的(de)(de)(de)進(jin)(jin)展(zhan)并(bing)加(jia)速技術進(jin)(jin)步,我們全面(mian)總結(jie)了(le)(le)(le)(le)該領域的(de)(de)(de)技術、挑戰(zhan)和(he)前景。
總體而言,本文的主要貢獻可總結如下:
在圖2中,我們可視化了MARL的發展歷程、數據集、模擬器、硬件和軟件在自動駕駛及其他相關領域的發展。總(zong)體來(lai)說,隨(sui)著大(da)規模數據集和(he)(he)(he)深度(du)學(xue)習的(de)(de)(de)發展,自(zi)動(dong)駕(jia)駛已(yi)從分層控制(zhi)邁向數據驅動(dong)時(shi)代。隨(sui)著先(xian)進模擬器的(de)(de)(de)出現(xian),基于(yu)RL的(de)(de)(de)方法(fa)(fa)登(deng)上了(le)(le)(le)(le)舞臺,隨(sui)后新(xin)技(ji)術如大(da)語言(yan)模型帶來(lai)了(le)(le)(le)(le)更多的(de)(de)(de)機遇。我們(men)(men)將在后文詳細分析,本(ben)文的(de)(de)(de)其余部分組織如下:在第(di)(di)二(er)節(jie)(jie)中,我們(men)(men)首先(xian)描述了(le)(le)(le)(le)基準的(de)(de)(de)指(zhi)標。我們(men)(men)還分析了(le)(le)(le)(le)最(zui)先(xian)進的(de)(de)(de)自(zi)動(dong)駕(jia)駛模擬器和(he)(he)(he)數據集的(de)(de)(de)特征。在第(di)(di)三節(jie)(jie)中,我們(men)(men)回顧了(le)(le)(le)(le)RL和(he)(he)(he)MARL的(de)(de)(de)基本(ben)概念、定(ding)義和(he)(he)(he)開放問題。在第(di)(di)四節(jie)(jie)中,我們(men)(men)詳盡介紹了(le)(le)(le)(le)自(zi)動(dong)駕(jia)駛領域最(zui)先(xian)進的(de)(de)(de)MARL算法(fa)(fa)。具體而言(yan),我們(men)(men)分析了(le)(le)(le)(le)它們(men)(men)的(de)(de)(de)狀態和(he)(he)(he)動(dong)作設置、方法(fa)(fa)論見(jian)解和(he)(he)(he)應用。在第(di)(di)五節(jie)(jie)中,我們(men)(men)指(zhi)出了(le)(le)(le)(le)現(xian)有挑戰并給(gei)出了(le)(le)(le)(le)可能的(de)(de)(de)解決(jue)方案。在第(di)(di)六節(jie)(jie)中,我們(men)(men)捕(bu)捉了(le)(le)(le)(le)最(zui)新(xin)的(de)(de)(de)進展,并提出了(le)(le)(le)(le)朝(chao)向更安全和(he)(he)(he)智能的(de)(de)(de)自(zi)動(dong)駕(jia)駛的(de)(de)(de)有前途的(de)(de)(de)方向。
II. 自動駕駛基準
強化學習(RL)通常需要大量的數據。一般來說,它需要與環境進行持續交互,以獲得行為軌跡,從而幫助深度神經網絡進行更準確的價值估計【35】【36】。然而,由于不確定的探索過程可能造成的經濟損失,我們通常不會將RL策略直接部署在真實的機器人上。因此,在RL范式中,來自真實駕駛和高保真模擬器的數據被廣泛用于基于RL的自動駕駛開發。在本節中,我們將介紹用于自動駕駛和交通系統中的大規模多智能體強化學習(MARL)的各種數據源。
最先進的方法論
本節將介紹用于多車輛系統運動規劃和控制的最新多智能體強化學習(MARL)方法。我們無法涵蓋所有相關研究,但本綜述中選取的代表性技術均來源于發表在最具影響力的會議和期刊的報告。此外,我們鼓勵研究人員在我們的網站上報告更多相關工作。 A. 集中式多智能體強化學習
在集中式訓練與分散執行(CTDE)方案中,每輛車都有一個獨立的策略網絡,并設有一個核心計算機來合并和處理來自所有車輛的信息。首先,我們從所有車輛獲取合并的觀測,通過預定義的全局獎勵函數評估系統狀態,然后在完成信用分配后訓練獨立的策略。PRIMAL [154] 是路徑規劃集中式訓練的里程碑式工作,它為每個智能體分配了一個獨立且精心設計的參數共享的actor-critic網絡,并使用A3C [155]算法進行訓練。在這項工作中,研究人員說明了獨立策略可能導致自私行為,而帶有安全懲罰的手工設計獎勵函數是一個不錯的解決方案。此外,系統還提供了一個開關,使智能體可以從交互或專家示范中學習。強化學習與模仿學習的結合有助于快速學習,并緩解自私行為對整個系統的負面影響。在本文中,定義了一個離散網格世界,每個智能體的局部狀態設為10×10方塊的信息,并使用指向目標的單位向量來表示方向。為了驗證在現實世界中的可行性,作者還在工廠模型中實現了PRIMAL系統。 在MADDPG [24]中,作者提出了基于深度確定性策略梯度(DDPG)[156]的首個可泛化CTDE算法,并使用玩具多粒子環境作為測試平臺。它提供了一個基本平臺,具有簡單的車輛動力學,用于在設計無關的場景下學習連續觀測和動作空間中的連續駕駛策略,并吸引了許多杰出的后續研究者【21】【157】。同時,價值函數分解方法與CTDE方案的結合在智能體數量上的可擴展性方面表現更好,并減輕了策略訓練中的非靜態性影響,從而在大規模多智能體系統中提高了性能【116】【158】。這些方法已在Highway-Env [84][159]中無信號交叉路口等復雜場景中得到了驗證。此外,專家示范有助于降低收斂到次優策略的風險【159】。為了驗證在無地圖導航任務中部署CTDE方法的可行性,Global Dueling Q-learning (GDQ) [160] 在MPE [24] 中為每個turtlebot3設置了一個獨立的DDQN [161] 來訓練策略并估計價值。此外,他們引入了一個全局價值網絡,將每個智能體的價值網絡輸出組合起來以估計聯合狀態價值。事實證明,該方法比常規的價值分解方法更為有效。同時,研究人員還嘗試將單智能體RL中的基本算法(如PPO [65]或SAC [66])擴展到多智能體任務,并提供了許多重要的基線,如MAAC [162]和MAPPO [163]。特別是,MAPPO在大量基準測試中得到了全面驗證,并提供了系統的超參數選擇和訓練指南。為了克服從模擬到現實的差距并將MAPPO部署到實際機器人上,開發人員在Duckietown-Gym模擬器中訓練了一個用于跟隨地面航點的策略網絡。MAPPO策略網絡采用了循環神經網絡(RNN)[164],用于回憶前一狀態的知識,并為每輛車輸出高層次的目標線速度和角速度。與大多數室內導航任務類似,光學跟蹤系統捕獲車輛的位置和姿態。通過線性化逆動力學,可以在域適應后獲得車輛的低級執行命令。這項工作揭示了如何在實際機器人上部署CTDE方案,其工程經驗對于未來的研究具有重要價值。 B. 獨立策略優化
考慮到實際部署中的通信、帶寬和系統復雜性等挑戰,完全去中心化系統通過允許智能體獨立操作而無需持續協調,減少了通信開銷和帶寬需求。此外,它更容易在通信基礎設施有限或不可靠的環境中部署,降低了決策延遲,并簡化了每個智能體的本地計算。這些因素使得去中心化的MARL成為現實世界多智能體應用中更實用且更具適應性的方法。近年來,獨立策略優化(IPO)[165]獲得了越來越多的關注,并提出了大量相關方法。同時,這些研究中所涉及場景的復雜性和智能體的規模也同步增加,反映出去中心化學習更符合現實世界中大規模自動駕駛的需求。 為了在集中式方案中解決可擴展性問題,MAPPER [166]采用了基于A2C [155]算法的去中心化actor-critic方法。首先,占用地圖的局部觀測表示為包含靜態場景、動態障礙物和A規劃器[167]規劃軌跡信息的三通道圖像。這些三通道觀測通過卷積神經網絡(CNN)抽象為潛在向量,并與通過多層感知機(MLP)抽象的航點信息一起輸入共享的全連接層。隨后,兩個獨立的MLP分別輸出動作概率和價值估計。此外,MAPPER在優化過程中使用了額外的進化算法來消除不良策略。與PRIMAL [154]相比,MAPPER在大規模場景中可以更快地學習并更有效地處理動態障礙物。另一種提高可擴展性的方法是G2RL [168],這是一種適用于任意數量智能體的網格地圖導航方法。同樣,它利用A為每個智能體提供全局引導路徑。同時,本地占用地圖輸入到本地DDQN [161]規劃器中,以捕捉本地觀測并生成糾正指令以避免動態障礙物。由于智能體之間無需通信,該方法無需考慮通信延遲,可擴展至任何規模。 作為PRIMAL的繼任者,PRIMAL2 [169]保留了相同的分層結構,即由A規劃器生成全局路徑,并由A3C和模仿學習指導的智能體訓練。關鍵區別在于PRIMAL2采用了完全去中心化的訓練方法,增強了其處理結構化和高密度復雜場景的靈活性。與MAPPER類似,它采用了11×11的觀測范圍,并將觀測分為多通道圖像輸入。前四個通道包括靜態障礙物、智能體自身的目標點、其他智能體的位置和其他智能體的目標點。第五到第八通道提供了A規劃的本地路徑,以及在觀測范圍內其他智能體在未來三個時間步長的位置。最后三個通道提供了走廊出口的X和Y坐標偏移,以及一個布爾狀態,指示是否有其他智能體阻擋路徑。更細致的觀測輸入使PRIMAL2能夠有效解決高密度復雜占用網格中的智能體死鎖問題,并生成比前代方法更短的路徑。 上述方法是為具有離散動作空間的結構化占用網格開發的,適用于結構化倉庫和貨運終端中的自動地面車輛。盡管與真實交通系統存在差異,這些方法仍然為后續工作提供了靈感。其他去中心化學習研究在更先進的連續基準測試上進行【24】【63】【70】。例如,在PIPO [21]中,研究人員利用圖神經網絡的置換不變性開發了一種端到端的運動規劃方案。他們在MPE中定義了一個逐步擴大的連續場景,場景中有各種靜態障礙物。在訓練過程中,觀察到的其他智能體狀態的隨機置換增強了actor-critic網絡的特征表示。我們注意到還有許多優秀且具有代表性的去中心化訓練方案,但我們將在其他子主題中對它們進行分類,并在后續章節中詳細介紹。 C. 帶有社會偏好的學習
盡管獨立策略學習在許多任務中是可行的,但當多個智能體的利益發生沖突時,純粹的自我中心的獨立策略學習可能會失敗,導致每個智能體都以自我為中心【20】。因此,一個重要的問題是如何平衡智能體的自私與利他行為。在圖4中,我們給出了一個玩具示例,以說明社會偏好如何影響智能體的行為。如果智能體無法平衡其利他和自私行為,這兩個智能體可能會發生碰撞或互相阻礙。因此,在策略學習中應該考慮社會行為和偏好【170】。為了找到社會偏好的數學表示,在早期工作中,研究人員首先提出使用三角函數來表示這種偏好。 D. 安全性和可信學習
安全性是部署自動駕駛系統的核心要素,也是首要任務,因為它直接關系到自動駕駛車輛(AVs)的可靠性和人們的生命安全。近年來,強化學習(RL)研究人員投入了大量精力,確保所學策略在探索過程中以及部署后不會引發安全問題。具體來說,受【172】啟發,我們將現有的多智能體強化學習(MARL)安全標準和方法分為三類。 首先,軟安全保障涉及設計安全懲罰項,以減少危險行為的發生概率。通過精細調整的獎勵,學習算法可以在其他性能指標的同時優先考慮安全性。然而,盡管軟安全保障已被證明可以有效提高多智能體系統中的安全性能,但其局限性在于它依賴于獎勵函數能夠準確捕捉所有安全方面的假設,而這在復雜環境中往往具有挑戰性。 第二類是優化過程中發生的概率性保障。例如,一些最新的MARL算法在策略優化過程中利用拉格朗日約束【21】或安全閾值【173】【174】。本質上,這種方法改善了策略梯度,有助于避免危險的探索行為。然而,由于策略仍然表示為概率分布,因此我們無法為這種方法獲得明確、可解釋和穩定的安全邊界。同時,現實世界駕駛中的關鍵安全約束是瞬時的和確定性的【175】。例如,避碰是一個依賴于系統當前狀態的瞬時約束,而不是依賴于歷史軌跡或隨機變量。 E. 方法總結
如表II所示,我們收集了過去五年中關于戶外自動駕駛、交通系統控制和結構化場景運輸中多智能體強化學習(MARL)的代表性工作。同時,我們列出了它們的分類、最大智能體數量、使用的模擬器以及是否進行了現實世界的實驗。在此需要注意的是,即使使用相同的模擬類型,動作設置也可能完全不同。例如,在PRIMAL和PRIMAL2中,智能體的動作設置為(↑, →, ↓, ←, ?),代表二維網格地圖中在水平和垂直方向上的四種移動以及停留在原地。相比之下,MAPPER為智能體增加了四個額外的對角移動(↗, ↘, ↙, ↖)。 此外,我們發現許多研究采用預定義的高層次動作指令來簡化任務。策略網絡輸出離散值,這些值映射到相應的預設動作,然后低級控制器執行這些動作,生成命令并將其發送到執行器。兩個具體的例子是MFPG【182】和CPO-AD【183】。它們預設了低級單向控制映射,僅考慮自動駕駛車輛在一個方向上的移動。 我們從該領域過去的研究中總結出三大趨勢。首先,早期的研究由于算法多樣性和模擬器性能的限制,更側重于網格地圖中的集中式MARL。然而,近期研究探討了去中心化方法在更復雜的連續觀測中的潛力。其次,只有少數研究進行了現實世界的實驗,并且僅使用離散模擬器和少量智能體,這是未來工作可以改進的方面。第三,最新的研究采用了更復雜的設計,并整合了來自其他領域的更多方法,如數據壓縮和機器視覺。 在本節中,我們將介紹多智能體強化學習(MARL)中的主要挑戰。需要注意的是,集中式訓練與分散執行(CTDE)和分散式訓練與分散執行(DTDE)方案所面臨的問題是不同的。盡管已經提出了一些可行的解決方案來解決這些問題,但這些方案仍然不是唯一的,也不完美。我們希望讀者能夠提前認識到這些問題的存在及其特性,從而更好地理解后續先進方法的動機和技術創新。
隨著大語言模型(LLM)在各個領域的應用不斷擴大,它們適應數據、任務和用戶偏好的持續變化的能力變得至關重要。使用靜態數據集的傳統訓練方法不足以應對現實世界信息的動態特性。終身學習或持續學習通過使LLM能夠在其運行生命周期內持續學習和適應,整合新知識,同時保留先前學習的信息并防止災難性遺忘來解決這一問題。我們的綜述探討了終身學習的現狀,根據新知識的整合方式將策略分為兩類:內在知識,LLM通過完全或部分訓練將新知識吸收到其參數中;外部知識,通過將新知識作為外部資源(如維基百科或API)引入而不更新模型參數。我們的綜述的主要貢獻包括:(1)引入了一種新穎的分類法,將終身學習的大量文獻劃分為12種情景;(2)識別了所有終身學習情景中的常見技術,并將現有文獻分類到不同的技術組中;(3)強調了在LLM之前時代較少探索的模型擴展和數據選擇等新興技術。資源可在//github.com/qianlima-lab/awesome-lifelong-learningmethods-for-llm找到。
隨著大語言模型(LLM)在各個領域的應用不斷擴大,這些模型適應數據、任務和用戶偏好持續變化的能力變得至關重要。傳統的訓練方法依賴靜態數據集來訓練LLM,越來越無法應對現實世界信息的動態特性。終身學習(也稱為持續學習、增量學習),或LLM在其運行生命周期內持續和自適應學習的能力,解決了這一挑戰,通過整合新知識,同時保留先前學習的信息,從而防止災難性遺忘。圖1提供了終身學習的示意圖。 本綜述深入探討了終身學習的復雜領域,根據新知識的整合方式將策略分為兩大類:內在知識和外部知識。每個類(lei)別(bie)包(bao)含不同的(de)(de)(de)(de)方(fang)法,旨在增強(qiang)LLM在各種(zhong)情境下(xia)(xia)的(de)(de)(de)(de)適(shi)應(ying)性(xing)和(he)(he)有效性(xing)。圖2展示(shi)了(le)LLM終身學習方(fang)法的(de)(de)(de)(de)分類(lei)。 內在知(zhi)(zhi)識(shi)(shi)類(lei)通過(guo)完全或部(bu)分訓練(lian)將新知(zhi)(zhi)識(shi)(shi)吸收(shou)到(dao)LLM的(de)(de)(de)(de)參數中(zhong),包(bao)括持(chi)續(xu)預(yu)訓練(lian)和(he)(he)持(chi)續(xu)微調(diao)等策(ce)略。例如,在工業(ye)應(ying)用(yong)中(zhong),常采用(yong)持(chi)續(xu)垂直領(ling)域預(yu)訓練(lian),公司經常使用(yong)金(jin)融等領(ling)域的(de)(de)(de)(de)特(te)定數據重新訓練(lian)其(qi)LLM。盡管這提高了(le)特(te)定領(ling)域的(de)(de)(de)(de)性(xing)能(neng),但也有可能(neng)削(xue)弱模型的(de)(de)(de)(de)廣(guang)泛知(zhi)(zhi)識(shi)(shi)基(ji)礎(chu),說明(ming)了(le)在專業(ye)適(shi)應(ying)性(xing)和(he)(he)通用(yong)知(zhi)(zhi)識(shi)(shi)保(bao)留(liu)之(zhi)間(jian)保(bao)持(chi)平衡的(de)(de)(de)(de)挑戰。持(chi)續(xu)微調(diao)涵蓋了(le)特(te)定情境的(de)(de)(de)(de)方(fang)法,如文本分類(lei)、命名實體識(shi)(shi)別(bie)、關(guan)系抽(chou)取和(he)(he)機(ji)器翻譯等,以及任務(wu)無關(guan)的(de)(de)(de)(de)方(fang)法,如指(zhi)令微調(diao)、對(dui)齊(qi)和(he)(he)知(zhi)(zhi)識(shi)(shi)編輯。此外,在持(chi)續(xu)對(dui)齊(qi)中(zhong)使用(yong)了(le)人(ren)類(lei)反(fan)饋的(de)(de)(de)(de)強(qiang)化學習,以確保(bao)LLM遵守人(ren)類(lei)價值(zhi)觀,如安全和(he)(he)禮貌,突顯了(le)所謂的(de)(de)(de)(de)“對(dui)齊(qi)稅”,即過(guo)于(yu)專注于(yu)特(te)定價值(zhi)觀可能(neng)會導致模型的(de)(de)(de)(de)通用(yong)能(neng)力(li)下(xia)(xia)降。
外(wai)部(bu)(bu)知識(shi)(shi)類(lei)通(tong)過(guo)將新知識(shi)(shi)作為外(wai)部(bu)(bu)資源(yuan)(如維基(ji)百科或API)引入,而不更新模型參數,包括基(ji)于檢索和工(gong)(gong)具(ju)的終身學(xue)(xue)(xue)習,利(li)用外(wai)部(bu)(bu)數據源(yuan)和計(ji)算工(gong)(gong)具(ju)來擴展模型的能(neng)(neng)力。基(ji)于檢索的策略,如檢索增強生成,通(tong)過(guo)提供上下文相關(guan)、準確和最(zui)新的外(wai)部(bu)(bu)數據庫(如維基(ji)百科)信息來增強文本生成,確保模型輸出隨(sui)時間保持(chi)相關(guan)性。同時,工(gong)(gong)具(ju)學(xue)(xue)(xue)習類(lei)借(jie)鑒(jian)人類(lei)工(gong)(gong)具(ju)使用的類(lei)比,模型學(xue)(xue)(xue)習使用外(wai)部(bu)(bu)計(ji)算工(gong)(gong)具(ju),從而無需直接修改(gai)其核心知識(shi)(shi)庫,拓寬(kuan)了(le)其問題解決能(neng)(neng)力。
通過對這些(xie)組及其各(ge)自類別的詳(xiang)細檢(jian)查,本(ben)文旨(zhi)在強調將終身(shen)(shen)學習能(neng)力整(zheng)(zheng)合到LLM中,從而增強其在實際應用中的適應性(xing)、可靠性(xing)和(he)整(zheng)(zheng)體性(xing)能(neng)。通過解(jie)決與終身(shen)(shen)學習相(xiang)關的挑戰并探索該領(ling)域的創新,本(ben)綜述旨(zhi)在為(wei)開發(fa)更強大和(he)多(duo)功(gong)能(neng)的LLM做出貢獻,使其能(neng)夠在不斷變(bian)化的數字環境(jing)中蓬勃發(fa)展(zhan)。
本綜述與現有綜述的差異。近年來(lai),終(zhong)(zhong)身(shen)學(xue)(xue)(xue)(xue)習(xi)(xi)(xi)(xi)(xi)(xi)已成(cheng)為(wei)一(yi)(yi)(yi)個(ge)越(yue)來(lai)越(yue)受歡迎的(de)研究(jiu)主題。大量綜述探(tan)討了(le)(le)神(shen)經(jing)網(wang)絡(luo)(luo)的(de)終(zhong)(zhong)身(shen)學(xue)(xue)(xue)(xue)習(xi)(xi)(xi)(xi)(xi)(xi)。大多數現有(you)綜述主要(yao)集中在卷積神(shen)經(jing)網(wang)絡(luo)(luo)(CNN)的(de)終(zhong)(zhong)身(shen)學(xue)(xue)(xue)(xue)習(xi)(xi)(xi)(xi)(xi)(xi),探(tan)討了(le)(le)CNN的(de)各種(zhong)(zhong)終(zhong)(zhong)身(shen)學(xue)(xue)(xue)(xue)習(xi)(xi)(xi)(xi)(xi)(xi)情(qing)(qing)景,包(bao)括圖像分類(lei)、分割、目(mu)標檢測(ce)、自(zi)動系(xi)統(tong)、機器人(ren)和(he)(he)(he)智慧城市。此外,一(yi)(yi)(yi)些綜述探(tan)討了(le)(le)圖神(shen)經(jing)網(wang)絡(luo)(luo)的(de)終(zhong)(zhong)身(shen)學(xue)(xue)(xue)(xue)習(xi)(xi)(xi)(xi)(xi)(xi)。然(ran)而,只有(you)少(shao)(shao)量文獻關(guan)(guan)注語言(yan)模型的(de)終(zhong)(zhong)身(shen)學(xue)(xue)(xue)(xue)習(xi)(xi)(xi)(xi)(xi)(xi)。Biesialska等(deng)是關(guan)(guan)于(yu)自(zi)然(ran)語言(yan)處理(NLP)中終(zhong)(zhong)身(shen)學(xue)(xue)(xue)(xue)習(xi)(xi)(xi)(xi)(xi)(xi)的(de)早期綜述,但他(ta)們只關(guan)(guan)注詞和(he)(he)(he)句子表(biao)示、語言(yan)建模、問答、文本分類(lei)和(he)(he)(he)機器翻譯(yi)。Ke等(deng)關(guan)(guan)注終(zhong)(zhong)身(shen)學(xue)(xue)(xue)(xue)習(xi)(xi)(xi)(xi)(xi)(xi)情(qing)(qing)景,包(bao)括情(qing)(qing)感分類(lei)、命名實體(ti)識別和(he)(he)(he)摘要(yao)。他(ta)們還討論了(le)(le)知(zhi)識轉移和(he)(he)(he)任務間(jian)類(lei)分離的(de)技(ji)術。Zhang等(deng)提供了(le)(le)關(guan)(guan)于(yu)將LLM與不斷變化的(de)世界(jie)知(zhi)識對(dui)(dui)(dui)齊的(de)技(ji)術的(de)全面(mian)回顧,包(bao)括持(chi)續(xu)(xu)(xu)預(yu)訓練、知(zhi)識編輯(ji)和(he)(he)(he)檢索增強(qiang)生成(cheng)。Wu等(deng)從持(chi)續(xu)(xu)(xu)預(yu)訓練、持(chi)續(xu)(xu)(xu)指(zhi)令微調和(he)(he)(he)持(chi)續(xu)(xu)(xu)對(dui)(dui)(dui)齊三個(ge)方(fang)面(mian)重新(xin)審視了(le)(le)終(zhong)(zhong)身(shen)學(xue)(xue)(xue)(xue)習(xi)(xi)(xi)(xi)(xi)(xi)。Shi等(deng)從垂直方(fang)向(xiang)(或垂直持(chi)續(xu)(xu)(xu)學(xue)(xue)(xue)(xue)習(xi)(xi)(xi)(xi)(xi)(xi))和(he)(he)(he)水平(ping)(ping)方(fang)向(xiang)(或水平(ping)(ping)持(chi)續(xu)(xu)(xu)學(xue)(xue)(xue)(xue)習(xi)(xi)(xi)(xi)(xi)(xi))兩個(ge)方(fang)向(xiang)研究(jiu)了(le)(le)LLM的(de)終(zhong)(zhong)身(shen)學(xue)(xue)(xue)(xue)習(xi)(xi)(xi)(xi)(xi)(xi)。Jovanovic等(deng)回顧了(le)(le)幾種(zhong)(zhong)實時(shi)學(xue)(xue)(xue)(xue)習(xi)(xi)(xi)(xi)(xi)(xi)范式(shi),包(bao)括持(chi)續(xu)(xu)(xu)學(xue)(xue)(xue)(xue)習(xi)(xi)(xi)(xi)(xi)(xi)、元學(xue)(xue)(xue)(xue)習(xi)(xi)(xi)(xi)(xi)(xi)、參數高效學(xue)(xue)(xue)(xue)習(xi)(xi)(xi)(xi)(xi)(xi)和(he)(he)(he)專家混合學(xue)(xue)(xue)(xue)習(xi)(xi)(xi)(xi)(xi)(xi)。雖然(ran)最(zui)近的(de)綜述收集了(le)(le)終(zhong)(zhong)身(shen)學(xue)(xue)(xue)(xue)習(xi)(xi)(xi)(xi)(xi)(xi)的(de)最(zui)新(xin)文獻,但它們沒(mei)有(you)涵蓋持(chi)續(xu)(xu)(xu)文本分類(lei)、持(chi)續(xu)(xu)(xu)命名實體(ti)識別、持(chi)續(xu)(xu)(xu)關(guan)(guan)系(xi)抽取和(he)(he)(he)持(chi)續(xu)(xu)(xu)機器翻譯(yi)等(deng)情(qing)(qing)景,并且對(dui)(dui)(dui)持(chi)續(xu)(xu)(xu)對(dui)(dui)(dui)齊、持(chi)續(xu)(xu)(xu)知(zhi)識編輯(ji)、基于(yu)工具的(de)終(zhong)(zhong)身(shen)學(xue)(xue)(xue)(xue)習(xi)(xi)(xi)(xi)(xi)(xi)和(he)(he)(he)基于(yu)檢索的(de)終(zhong)(zhong)身(shen)學(xue)(xue)(xue)(xue)習(xi)(xi)(xi)(xi)(xi)(xi)的(de)討論較少(shao)(shao)。據我們所知(zhi),我們是第一(yi)(yi)(yi)個(ge)提供對(dui)(dui)(dui)LLM終(zhong)(zhong)身(shen)學(xue)(xue)(xue)(xue)習(xi)(xi)(xi)(xi)(xi)(xi)方(fang)法(fa)從12種(zhong)(zhong)情(qing)(qing)景進行徹底和(he)(he)(he)系(xi)統(tong)檢查的(de)綜述。
本綜述的貢獻。我們的綜述的主要貢獻包括:
-** 常見技術**:我們在所有(you)(you)終身學習情(qing)景中(zhong)識別(bie)了常見技術,并(bing)將現有(you)(you)文(wen)獻分類到每個情(qing)景內的(de)各種技術組(zu)中(zhong)。
本綜述的組織結構如下。第(di)二節(jie)介(jie)紹問題的(de)形成、評價指標、常見技(ji)術、基(ji)(ji)準和數據集。第(di)三節(jie)、第(di)四(si)節(jie)和第(di)五節(jie)檢查了持(chi)續預訓練、持(chi)續微調和基(ji)(ji)于外(wai)部知識的(de)終(zhong)身學習(xi)的(de)現有技(ji)術。第(di)六節(jie)討論了LLM終(zhong)身學習(xi)的(de)現有挑戰、當前趨勢和未來(lai)方向,并總結(jie)了本綜述。
大型語言模型(LLMs)在廣泛的任務中取得了顯著的成功。由于LLMs令人印象深刻的規劃和推理能力,它們被用作自動執行許多任務的自主智能體。最近,基于將一個LLM作為單一規劃或決策智能體的發展,基于LLM的多智能體系統在復雜問題解決和世界模擬方面取得了相當的進展。為了向社區提供這一動態領域的概覽,我們呈現這篇綜述,以提供關于基于LLM的多智能體系統的基本方面及挑戰的深入討論。我們的目標是讓讀者對以下問題獲得實質性的見解:基于LLM的多智能體模擬哪些領域和環境?這些智能體如何被描述,它們如何通信?什么機制有助于智能體能力的增長?對于那些有興趣深入研究這一領域的人,我們還總結了常用的數據集或基準,以便他們方便地訪問。為了讓(rang)研(yan)(yan)究(jiu)人員(yuan)了解最新(xin)的(de)(de)研(yan)(yan)究(jiu),我(wo)們維護一(yi)個開源的(de)(de)GitHub倉(cang)庫,致力(li)于概述基于LLM的(de)(de)多智能體(ti)系統的(de)(de)研(yan)(yan)究(jiu)。
1 引言
最近,大型語言模型(LLMs)展現出了達到與人類相當的推理和規劃能力的顯著潛力。這種能(neng)力完全符合人類對能(neng)夠(gou)感知周(zhou)圍環境、做出決策并(bing)作出響應的(de)(de)自主智能(neng)體(ti)的(de)(de)期待[Xi等,2023;Wooldridge和(he)Jennings,1995;Russell和(he)Norvig,2009;Guo等,2023;Liang等,2023]。因此,基于LLM的(de)(de)智能(neng)體(ti)已被研究(jiu)和(he)快速(su)發展,以(yi)理(li)解和(he)生成類似人類的(de)(de)指令,促(cu)進在(zai)廣泛(fan)的(de)(de)上下文中(zhong)進行復(fu)雜的(de)(de)互動(dong)和(he)決策[Yao等,2023;Shinn等,2023;Li等,2023d]。及(ji)時的(de)(de)綜述文章系統地(di)總結了基于LLM的(de)(de)智能(neng)體(ti)的(de)(de)進展,如在(zai)文獻[Xi等,2023;Wang等,2023b]中(zhong)所見(jian)。
基于單個LLM智能體的啟發性能力,已提出基于LLM的多智能體,以利用多個智能體的集體智能和專業化輪廓及技能。與使用單一LLM驅動的(de)(de)(de)(de)(de)智(zhi)能體(ti)的(de)(de)(de)(de)(de)系(xi)(xi)統(tong)(tong)相比,多(duo)(duo)(duo)智(zhi)能體(ti)系(xi)(xi)統(tong)(tong)通(tong)過1) 將LLMs專業化(hua)為具(ju)有(you)不同能力(li)(li)的(de)(de)(de)(de)(de)各種不同智(zhi)能體(ti),以(yi)及(ji)2) 使這(zhe)(zhe)(zhe)些多(duo)(duo)(duo)樣化(hua)的(de)(de)(de)(de)(de)智(zhi)能體(ti)之間進行(xing)互動,有(you)效地模擬(ni)復雜(za)的(de)(de)(de)(de)(de)現實世界環(huan)境(jing),提供(gong)了(le)(le)(le)先進的(de)(de)(de)(de)(de)能力(li)(li)。在(zai)這(zhe)(zhe)(zhe)一背景(jing)(jing)下,多(duo)(duo)(duo)個(ge)自主智(zhi)能體(ti)協作(zuo)參與規劃、討(tao)論(lun)和(he)(he)決策,反映了(le)(le)(le)人(ren)(ren)類團隊(dui)工(gong)作(zuo)在(zai)解決問題任務(wu)中的(de)(de)(de)(de)(de)合作(zuo)本質。這(zhe)(zhe)(zhe)種方法(fa)利(li)用了(le)(le)(le)LLMs的(de)(de)(de)(de)(de)溝(gou)通(tong)能力(li)(li),借助它(ta)們生(sheng)成(cheng)文本進行(xing)交流和(he)(he)對文本輸(shu)入(ru)的(de)(de)(de)(de)(de)響應能力(li)(li)。此(ci)外,它(ta)利(li)用了(le)(le)(le)LLMs在(zai)各個(ge)領(ling)(ling)域的(de)(de)(de)(de)(de)廣泛知識和(he)(he)專門化(hua)特定任務(wu)的(de)(de)(de)(de)(de)潛(qian)力(li)(li)。最近(jin)的(de)(de)(de)(de)(de)研(yan)究已經展示了(le)(le)(le)使用基(ji)于(yu)LLM的(de)(de)(de)(de)(de)多(duo)(duo)(duo)智(zhi)能體(ti)解決各種任務(wu)的(de)(de)(de)(de)(de)有(you)希望的(de)(de)(de)(de)(de)結果,如(ru)軟件開發[Hong等(deng)(deng),2023; Qian等(deng)(deng),2023]、多(duo)(duo)(duo)機(ji)(ji)器人(ren)(ren)系(xi)(xi)統(tong)(tong)[Mandi等(deng)(deng),2023; Zhang等(deng)(deng),2023c]、社會模擬(ni)[Park等(deng)(deng),2023; Park等(deng)(deng),2022]、政策模擬(ni)[Xiao等(deng)(deng),2023; Hua等(deng)(deng),2023]以(yi)及(ji)游戲(xi)模擬(ni)[Xu等(deng)(deng),2023c; Wang等(deng)(deng),2023c]。由(you)于(yu)這(zhe)(zhe)(zhe)個(ge)領(ling)(ling)域的(de)(de)(de)(de)(de)跨學科研(yan)究性質,它(ta)吸引了(le)(le)(le)來(lai)自社會科學、心理學和(he)(he)政策研(yan)究等(deng)(deng)不同背景(jing)(jing)的(de)(de)(de)(de)(de)研(yan)究者(zhe),研(yan)究論(lun)文的(de)(de)(de)(de)(de)數量正(zheng)在(zai)迅速增加,如(ru)圖1所示(受(shou)[Gao等(deng)(deng),2023b]設(she)計的(de)(de)(de)(de)(de)啟發),從而擴大了(le)(le)(le)基(ji)于(yu)LLM的(de)(de)(de)(de)(de)多(duo)(duo)(duo)智(zhi)能體(ti)研(yan)究的(de)(de)(de)(de)(de)影響。盡管如(ru)此(ci),早期(qi)的(de)(de)(de)(de)(de)工(gong)作(zuo)是獨(du)立(li)進行(xing)的(de)(de)(de)(de)(de),導致(zhi)缺乏(fa)系(xi)(xi)統(tong)(tong)回(hui)顧以(yi)總結它(ta)們,建立(li)這(zhe)(zhe)(zhe)個(ge)領(ling)(ling)域的(de)(de)(de)(de)(de)全面(mian)藍圖,并檢查(cha)未來(lai)的(de)(de)(de)(de)(de)研(yan)究挑(tiao)戰。這(zhe)(zhe)(zhe)強(qiang)調了(le)(le)(le)我(wo)們工(gong)作(zuo)的(de)(de)(de)(de)(de)重要性,并作(zuo)為呈現這(zhe)(zhe)(zhe)篇綜述論(lun)文的(de)(de)(de)(de)(de)動機(ji)(ji),致(zhi)力(li)(li)于(yu)基(ji)于(yu)LLM的(de)(de)(de)(de)(de)多(duo)(duo)(duo)智(zhi)能體(ti)系(xi)(xi)統(tong)(tong)的(de)(de)(de)(de)(de)研(yan)究。
我們期望我們的綜述能對LLMs的研究和開發以及利用LLMs進行的更廣泛的跨學科研究做出重大貢獻。讀者將獲得(de)關于(yu)基(ji)于(yu)LLM的(de)(de)(de)(de)多智(zhi)能體(LLM-MA)系統的(de)(de)(de)(de)全面概覽,把握(wo)基(ji)于(yu)LLMs建立多智(zhi)能體系統所涉(she)及的(de)(de)(de)(de)基(ji)本概念,并捕捉(zhuo)到這一(yi)動態領域(yu)中(zhong)(zhong)最新(xin)的(de)(de)(de)(de)研(yan)究趨勢和(he)應(ying)用。我們(men)認(ren)識到這個領域(yu)正處于(yu)初級階段(duan),并且隨著新(xin)方法和(he)應(ying)用的(de)(de)(de)(de)迅速發展(zhan)。為了提(ti)供一(yi)種(zhong)持續的(de)(de)(de)(de)資(zi)源(yuan)來補充我們(men)的(de)(de)(de)(de)綜(zong)述(shu)論文,我們(men)維(wei)護了一(yi)個開源(yuan)的(de)(de)(de)(de)GitHub倉庫。我們(men)希(xi)望我們(men)的(de)(de)(de)(de)綜(zong)述(shu)能激發進一(yi)步的(de)(de)(de)(de)探(tan)索和(he)創(chuang)新(xin),以及在廣泛的(de)(de)(de)(de)研(yan)究領域(yu)中(zhong)(zhong)的(de)(de)(de)(de)應(ying)用。
為了幫助來自不同背景的個人理解LLM-MA技術,并補充現有的綜述通過解決未解決的問題,我們以以下方式組織了我們的綜述論文。在第2節中(zhong)闡(chan)述背(bei)景知識后,我(wo)們(men)提出了一個(ge)(ge)關鍵問(wen)題:LLM-MA系統如何(he)與(yu)協作(zuo)任(ren)務解(jie)決環(huan)境(jing)對(dui)齊?為了回答這個(ge)(ge)問(wen)題,我(wo)們(men)在第3節提出了一個(ge)(ge)全面(mian)的(de)框架,用于定(ding)位(wei)、區分和連接(jie)LLM-MA系統的(de)各個(ge)(ge)方面(mian)。我(wo)們(men)通過(guo)討論: 1)智(zhi)能(neng)體(ti)(ti)(ti)(ti)(ti)-環(huan)境(jing)界面(mian),詳細說明智(zhi)能(neng)體(ti)(ti)(ti)(ti)(ti)如何(he)與(yu)任(ren)務環(huan)境(jing)互動; 2)智(zhi)能(neng)體(ti)(ti)(ti)(ti)(ti)輪廓,解(jie)釋一個(ge)(ge)智(zhi)能(neng)體(ti)(ti)(ti)(ti)(ti)如何(he)被LLM描(miao)述以(yi)(yi)以(yi)(yi)特定(ding)方式行為; 3)智(zhi)能(neng)體(ti)(ti)(ti)(ti)(ti)通信,考(kao)察智(zhi)能(neng)體(ti)(ti)(ti)(ti)(ti)如何(he)交(jiao)換信息和協作(zuo);以(yi)(yi)及 4)智(zhi)能(neng)體(ti)(ti)(ti)(ti)(ti)能(neng)力獲取(qu),探索(suo)智(zhi)能(neng)體(ti)(ti)(ti)(ti)(ti)如何(he)發展其解(jie)決問(wen)題的(de)能(neng)力。
關于LLM-MA研究的(de)另一(yi)個視(shi)角是它們(men)(men)的(de)應用(yong)。在(zai)第4節(jie),我(wo)(wo)們(men)(men)將當前(qian)應用(yong)分為(wei)兩個主要流(liu):用(yong)于問題解決的(de)多智能體和(he)用(yong)于世(shi)界模擬的(de)多智能體。為(wei)了(le)(le)指導個人(ren)識(shi)別合(he)適的(de)工具和(he)資(zi)源,我(wo)(wo)們(men)(men)在(zai)第5節(jie)提出了(le)(le)用(yong)于研究LLM-MA的(de)開源實現框架(jia),以及(ji)可用(yong)的(de)數據集(ji)和(he)基準。基于前(qian)面的(de)總結,我(wo)(wo)們(men)(men)在(zai)第6節(jie)開放(fang)了(le)(le)對(dui)未來研究挑(tiao)戰和(he)機會的(de)討論。結論在(zai)第7節(jie)中總結。
解析LLM-MA系統:界面、輪廓、通信和能力
在本節中,我們深入探討LLM-MA系統的復雜性,其中多個自主智能體參與類似于人類群體動力學的協作活動,應對問題解決場景。我們要解決的一個關鍵問題是,這些LLM-MA系統如何與它們的操作環境以及它們旨在實現的集體目標對齊。為了闡明這一點,我們在圖2中展示了這些系統的通用架構。我們的分析解剖了這些系統的操作框架,重點關注四個關鍵方面:智能體-環境界面、智能體輪廓、智能體通信和智能體能力獲取。
應用
LLM-MA系統已在廣泛的應用中被使用。我們在表1中總結了兩類應用:問題解決和世界模擬。我們(men)將在下面詳細闡述這些應用。請注意(yi),這是一個快速(su)發展的研究(jiu)領域,幾(ji)乎每天都有新應用出現。我們(men)維護(hu)一個開源倉庫來報告最新的工(gong)作(zuo)。
使用(yong)(yong)LLM-MA進(jin)行(xing)問(wen)(wen)題解(jie)決(jue)(jue)的(de)(de)(de)主(zhu)要動機是利用(yong)(yong)具(ju)有專(zhuan)(zhuan)門專(zhuan)(zhuan)業知識的(de)(de)(de)智能(neng)(neng)體(ti)(ti)的(de)(de)(de)集體(ti)(ti)能(neng)(neng)力。這(zhe)(zhe)些智能(neng)(neng)體(ti)(ti),每個(ge)都作為個(ge)體(ti)(ti)行(xing)動,協作以(yi)有效地解(jie)決(jue)(jue)復雜(za)問(wen)(wen)題,例如(ru)軟件開發、具(ju)體(ti)(ti)化(hua)智能(neng)(neng)體(ti)(ti)、科(ke)學實驗和科(ke)學辯論(lun)。 LLM-MA的(de)(de)(de)另一(yi)個(ge)主(zhu)流應用(yong)(yong)場(chang)景是世(shi)界(jie)模(mo)擬。這(zhe)(zhe)一(yi)領域的(de)(de)(de)研究(jiu)正在(zai)迅速增長,涵蓋了包括社會科(ke)學、游戲(xi)、心理(li)學、經濟學、政策制(zhi)定等在(zai)內的(de)(de)(de)多(duo)種(zhong)(zhong)領域。在(zai)世(shi)界(jie)模(mo)擬中使用(yong)(yong)LLM-MA的(de)(de)(de)關(guan)(guan)鍵原(yuan)因在(zai)于它們出色(se)(se)的(de)(de)(de)角色(se)(se)扮(ban)演能(neng)(neng)力,這(zhe)(zhe)對于現實地描繪模(mo)擬世(shi)界(jie)中的(de)(de)(de)各種(zhong)(zhong)角色(se)(se)和觀點(dian)至關(guan)(guan)重要。世(shi)界(jie)模(mo)擬項目的(de)(de)(de)環境(jing)通(tong)常被(bei)設(she)(she)計(ji)來反映(ying)被(bei)模(mo)擬的(de)(de)(de)特定場(chang)景,智能(neng)(neng)體(ti)(ti)以(yi)各種(zhong)(zhong)輪廓(kuo)設(she)(she)計(ji)以(yi)匹(pi)配(pei)這(zhe)(zhe)一(yi)背(bei)景。與(yu)專(zhuan)(zhuan)注于智能(neng)(neng)體(ti)(ti)合作的(de)(de)(de)問(wen)(wen)題解(jie)決(jue)(jue)系統(tong)不同,世(shi)界(jie)模(mo)擬系統(tong)涉及多(duo)種(zhong)(zhong)智能(neng)(neng)體(ti)(ti)管(guan)理(li)和通(tong)信方法,反映(ying)了現實世(shi)界(jie)交互(hu)的(de)(de)(de)復雜(za)性(xing)和多(duo)樣(yang)性(xing)。
結論
基于(yu)LLM的(de)(de)(de)(de)(de)(de)(de)(de)多(duo)(duo)智(zhi)(zhi)能(neng)(neng)體(ti)(ti)(ti)展(zhan)(zhan)現了(le)激勵人(ren)心的(de)(de)(de)(de)(de)(de)(de)(de)集體(ti)(ti)(ti)智(zhi)(zhi)能(neng)(neng),并迅(xun)速在(zai)研(yan)究者中(zhong)獲(huo)得(de)了(le)越來(lai)越多(duo)(duo)的(de)(de)(de)(de)(de)(de)(de)(de)興趣。在(zai)這篇(pian)綜述(shu)(shu)(shu)中(zhong),我(wo)們首先系統(tong)回顧了(le)LLM-MA系統(tong)的(de)(de)(de)(de)(de)(de)(de)(de)發展(zhan)(zhan),通過從不(bu)同方面(mian)定位(wei)、區(qu)分和連接它們,涉及(ji)(ji)智(zhi)(zhi)能(neng)(neng)體(ti)(ti)(ti)-環境界面(mian)、LLMs對智(zhi)(zhi)能(neng)(neng)體(ti)(ti)(ti)的(de)(de)(de)(de)(de)(de)(de)(de)描(miao)述(shu)(shu)(shu)、管理智(zhi)(zhi)能(neng)(neng)體(ti)(ti)(ti)通信(xin)的(de)(de)(de)(de)(de)(de)(de)(de)策略以(yi)及(ji)(ji)能(neng)(neng)力獲(huo)取的(de)(de)(de)(de)(de)(de)(de)(de)范(fan)式。我(wo)們還總結了(le)LLM-MA在(zai)問題解(jie)決(jue)和世界模擬(ni)中(zhong)的(de)(de)(de)(de)(de)(de)(de)(de)應用(yong)。通過突出常用(yong)的(de)(de)(de)(de)(de)(de)(de)(de)數據集和基準(zhun),并討論挑戰和未(wei)來(lai)機會,我(wo)們希望這篇(pian)綜述(shu)(shu)(shu)能(neng)(neng)成(cheng)為(wei)各個(ge)研(yan)究領域的(de)(de)(de)(de)(de)(de)(de)(de)研(yan)究者們的(de)(de)(de)(de)(de)(de)(de)(de)有用(yong)資源,激發未(wei)來(lai)的(de)(de)(de)(de)(de)(de)(de)(de)研(yan)究去探索基于(yu)LLM的(de)(de)(de)(de)(de)(de)(de)(de)多(duo)(duo)智(zhi)(zhi)能(neng)(neng)體(ti)(ti)(ti)的(de)(de)(de)(de)(de)(de)(de)(de)潛力。
隨(sui)著(zhu)大(da)(da)型(xing)(xing)語言(yan)模型(xing)(xing)(LLMs)在編寫(xie)類(lei)似人類(lei)的(de)(de)(de)(de)文(wen)本方面不(bu)(bu)斷進(jin)步(bu),它(ta)們(men)(men)(men)傾(qing)向(xiang)于(yu)(yu)“幻(huan)(huan)覺(jue)(jue)”——生(sheng)成(cheng)(cheng)看似事(shi)實(shi)卻(que)無(wu)根(gen)據的(de)(de)(de)(de)內(nei)容的(de)(de)(de)(de)傾(qing)向(xiang)仍然是一(yi)個關鍵挑(tiao)戰(zhan)。幻(huan)(huan)覺(jue)(jue)問題可以說是將這(zhe)些(xie)強大(da)(da)的(de)(de)(de)(de)LLMs安(an)全部(bu)署到影(ying)響人們(men)(men)(men)生(sheng)活的(de)(de)(de)(de)實(shi)際(ji)生(sheng)產系(xi)(xi)統中(zhong)的(de)(de)(de)(de)最大(da)(da)障(zhang)礙。向(xiang)LLMs在實(shi)際(ji)設置中(zhong)廣泛采(cai)用(yong)(yong)的(de)(de)(de)(de)旅程嚴重依(yi)賴于(yu)(yu)解(jie)(jie)(jie)決和(he)緩解(jie)(jie)(jie)幻(huan)(huan)覺(jue)(jue)。與(yu)專(zhuan)注于(yu)(yu)有(you)限任(ren)務(wu)(wu)的(de)(de)(de)(de)傳統AI系(xi)(xi)統不(bu)(bu)同,LLMs在訓練期間已經(jing)接觸了(le)大(da)(da)量的(de)(de)(de)(de)在線文(wen)本數(shu)(shu)據。雖然這(zhe)使它(ta)們(men)(men)(men)能(neng)夠(gou)展現(xian)出(chu)(chu)令人印象(xiang)深刻的(de)(de)(de)(de)語言(yan)流利度,但(dan)這(zhe)也意味著(zhu)它(ta)們(men)(men)(men)能(neng)夠(gou)從訓練數(shu)(shu)據中(zhong)的(de)(de)(de)(de)偏(pian)見中(zhong)推斷出(chu)(chu)信息(xi),誤(wu)(wu)解(jie)(jie)(jie)模糊(hu)的(de)(de)(de)(de)提(ti)示(shi)(shi),或修改信息(xi)以表(biao)面上與(yu)輸入對(dui)(dui)(dui)齊。當我們(men)(men)(men)依(yi)賴語言(yan)生(sheng)成(cheng)(cheng)能(neng)力進(jin)行(xing)(xing)敏感應用(yong)(yong)時,這(zhe)變得極其(qi)令人擔憂,例如(ru)總結醫療記錄、客戶(hu)支持對(dui)(dui)(dui)話(hua)、財(cai)務(wu)(wu)分(fen)析報告和(he)提(ti)供(gong)錯誤(wu)(wu)的(de)(de)(de)(de)法(fa)律建議。小錯誤(wu)(wu)可能(neng)導致傷害(hai),揭示(shi)(shi)了(le)LLMs盡管在自我學習方面取得了(le)進(jin)步(bu),但(dan)實(shi)際(ji)上缺乏(fa)真正的(de)(de)(de)(de)理解(jie)(jie)(jie)。本文(wen)提(ti)出(chu)(chu)了(le)一(yi)項(xiang)對(dui)(dui)(dui)超過三(san)十二(er)種旨在緩解(jie)(jie)(jie)LLMs中(zhong)幻(huan)(huan)覺(jue)(jue)的(de)(de)(de)(de)技術(shu)的(de)(de)(de)(de)全面綜述(shu)。其(qi)中(zhong)值得注意的(de)(de)(de)(de)是檢(jian)索增強生(sheng)成(cheng)(cheng)(RAG)(Lewis et al., 2021)、知識檢(jian)索(Varshney et al., 2023)、CoNLI(Lei et al., 2023)和(he)CoVe(Dhuliawala et al., 2023)。此外,我們(men)(men)(men)引入了(le)一(yi)種詳細的(de)(de)(de)(de)分(fen)類(lei)法(fa),根(gen)據各種參(can)數(shu)(shu)對(dui)(dui)(dui)這(zhe)些(xie)方法(fa)進(jin)行(xing)(xing)分(fen)類(lei),如(ru)數(shu)(shu)據集利用(yong)(yong)、常見任(ren)務(wu)(wu)、反(fan)饋(kui)機制和(he)檢(jian)索器類(lei)型(xing)(xing)。這(zhe)種分(fen)類(lei)有(you)助于(yu)(yu)區分(fen)專(zhuan)門設計用(yong)(yong)于(yu)(yu)解(jie)(jie)(jie)決LLMs中(zhong)幻(huan)(huan)覺(jue)(jue)問題的(de)(de)(de)(de)多種方法(fa)。此外,我們(men)(men)(men)分(fen)析了(le)這(zhe)些(xie)技術(shu)固有(you)的(de)(de)(de)(de)挑(tiao)戰(zhan)和(he)限制,為未來在LLMs領域解(jie)(jie)(jie)決幻(huan)(huan)覺(jue)(jue)和(he)相關現(xian)象(xiang)的(de)(de)(de)(de)研究(jiu)提(ti)供(gong)了(le)堅實(shi)的(de)(de)(de)(de)基(ji)礎。
1 引言(yan) 大(da)型(xing)語(yu)言(yan)模(mo)(mo)型(xing)(LLMs)中(zhong)(zhong)的(de)(de)(de)幻覺(jue)涉及(ji)到在多個主(zhu)題(ti)上創造事實(shi)上錯誤(wu)的(de)(de)(de)信(xin)(xin)(xin)息(xi)。鑒于(yu)(yu)(yu)LLMs的(de)(de)(de)廣泛領(ling)域覆蓋,它(ta)們(men)的(de)(de)(de)應用橫跨眾多學(xue)(xue)術(shu)和(he)專業(ye)領(ling)域。這(zhe)些包(bao)括但(dan)不限于(yu)(yu)(yu)學(xue)(xue)術(shu)研究(jiu)、編程、創意(yi)寫(xie)作、技術(shu)咨(zi)詢以(yi)及(ji)技能獲取的(de)(de)(de)促進(jin)。因此,LLMs已成(cheng)為我們(men)日(ri)常生(sheng)活(huo)中(zhong)(zhong)不可(ke)或缺(que)的(de)(de)(de)組成(cheng)部分(fen),在提(ti)供準確可(ke)靠信(xin)(xin)(xin)息(xi)方面扮演(yan)著(zhu)關鍵角色。然(ran)而,LLMs的(de)(de)(de)一(yi)個根(gen)本問題(ti)是它(ta)們(men)傾(qing)(qing)向于(yu)(yu)(yu)產生(sheng)關于(yu)(yu)(yu)現實(shi)世界主(zhu)題(ti)的(de)(de)(de)錯誤(wu)或捏造細節(jie)。這(zhe)種提(ti)供錯誤(wu)數據的(de)(de)(de)傾(qing)(qing)向,通(tong)(tong)常被稱(cheng)為幻覺(jue),為該領(ling)域的(de)(de)(de)研究(jiu)人員(yuan)提(ti)出(chu)(chu)了(le)重大(da)挑戰(zhan)(zhan)。這(zhe)導致(zhi)了(le)像GPT-4等先進(jin)模(mo)(mo)型(xing)可(ke)能生(sheng)成(cheng)不準確或完全(quan)沒有(you)(you)根(gen)據的(de)(de)(de)引用(Rawte et al., 2023)的(de)(de)(de)情況。這(zhe)一(yi)問題(ti)是由于(yu)(yu)(yu)訓練階(jie)段(duan)的(de)(de)(de)模(mo)(mo)式(shi)生(sheng)成(cheng)技術(shu)和(he)缺(que)乏實(shi)時互聯網更新,從而導致(zhi)信(xin)(xin)(xin)息(xi)輸出(chu)(chu)中(zhong)(zhong)的(de)(de)(de)差(cha)異(Ray,2023)。 在當代計算語(yu)言(yan)學(xue)(xue)中(zhong)(zhong),緩解幻覺(jue)是一(yi)個關鍵焦點(dian)。研究(jiu)人員(yuan)提(ti)出(chu)(chu)了(le)各種策略,包(bao)括反(fan)饋機制、外部信(xin)(xin)(xin)息(xi)檢索和(he)語(yu)言(yan)模(mo)(mo)型(xing)生(sheng)成(cheng)早(zao)期細化,來(lai)應對(dui)這(zhe)一(yi)挑戰(zhan)(zhan)。本文(wen)通(tong)(tong)過整合和(he)組織這(zhe)些不同技術(shu)為一(yi)個全(quan)面的(de)(de)(de)分(fen)類法而具有(you)(you)重要意(yi)義。本文(wen)對(dui)于(yu)(yu)(yu)LLMs幻覺(jue)領(ling)域的(de)(de)(de)貢獻有(you)(you)三方面:
引入(ru)了(le)一(yi)個系統的(de)分類法,旨在對LLMs的(de)幻覺(jue)緩解(jie)技術進行分類,包括視覺(jue)語(yu)言(yan)模型(VLMs)。
綜合了這些緩解技術的基本特征(zheng),從而指導該領域未來更(geng)有結構性的研(yan)究(jiu)努力。
對這(zhe)些技(ji)術固有的局限性和挑戰進(jin)行了討論(lun),并提出了潛在的解決方案和未來研究的方向建議。