具身多智能體系統(EMAS)因其在物流、機器人等領域解決復雜現實問題的潛力,吸引了越來越多的關注。近期基礎模型的進展為生成型智能體提供了更豐富的溝通能力和自適應問題解決能力,開辟了新的方向。本綜述系統性地探討了EMAS如何從這些生成型能力中受益。我們提出了一個分類法,通過系統架構和具身方式對EMAS進行分類,重點強調協作如何跨越物理和虛擬環境。接著,我們分析了感知、規劃、溝通和反饋等核心構件,展示了生成技術如何增強系統的魯棒性和靈活性。通過具體實例,我們展示了將基礎模型集成到具身多智能體框架中的變革性影響。最后,我們討論了挑戰和未來發展方向,強調了EMAS在重塑人工智能驅動協作領域的巨大潛力。
具身多智能體系統(EMAS)因其在智能交通、物流和制造等領域的巨大潛力,吸引了越來越多的關注 [YJ+13, IS+18]。通過將物理具身(從自動駕駛車輛到機器人操作臂)與多智能體系統(MAS)[DKJ18] 集成,EMAS 提供了一種去中心化、協作的方法,能夠高效地處理復雜任務。盡管這些優勢顯而易見,但設計和實現有效的 EMAS 仍然是一項非凡的挑戰,通常需要對控制論的專業知識、廣泛的訓練數據以及精心設計的強化學習范式 [LB08, OD23]。 在傳統的 MAS 中,智能體通過分配責任、共享狀態信息并共同適應動態環境來協作 [DKJ18]。雖然這些原則在某些特定領域取得了顯著成功,但傳統方法在以下方面面臨關鍵的局限性:難以推廣到新任務 [MS+22],難以擴展到大規模的智能體群體 [CTE+22],以及應對突發環境變化 [WR04]。這些方法通常依賴于狹窄訓練的模型,可能表現脆弱或僅限于特定領域 [YZ+23]。這些不足凸顯了需要更加靈活和穩健的解決方案的緊迫性,這些解決方案能夠在開放式和快速變化的具身場景中蓬勃發展。 近期基礎模型(FMs,例如大型語言模型、大型模型或視覺語言模型(VLMs))[ZLL+24] 的突破為推進 MAS 向更加自適應和生成行為的發展開辟了新的途徑。通過為智能體提供自然語言能力、情境推理以及生成新解決方案的能力,基于基礎模型的 MAS 超越了純信號驅動或強化學習框架中固有的局限性 [GCW+24, CLH+24, LP+24]。這些“生成型智能體”能夠以語義豐富的方式進行溝通,與人類級別的流暢度協作,并能夠迅速應對突發挑戰,調整策略。因此,基于 FM 的智能體可能會徹底改變多智能體協作的方式——無論是在由具身設備組成的物理空間,還是在智能體共享抽象知識和任務的虛擬空間中。 在此背景下,EMAS 領域將能夠從這些 FM 方面的最新進展中獲益。通過將物理具身與生成型多模態智能結合,未來的系統可能會采用更廣泛的設計空間,整合復雜的感知、高級語言和視覺推理能力,以及自適應決策能力。然而,現有文獻中關于具身 AI 和多智能體系統的綜述通常將這些領域視為孤立的,未能在它們的交集處進行系統性的探討 [IS+18, DYT+22, GCW+24, MS+24, HRS24]。基于 FM 的生成型智能體如何最好地融入 EMAS 的系統化視角仍在不斷發展中。 本綜述旨在提供對生成型多智能體協作在具身 AI 中現狀的全面和結構化的分析,如圖 1 所示。首先,在第 2 節中,我們提出了一種分類法,根據模型數量和具身類型對現有的 EMAS 解決方案進行分類,強調協作如何在物理智能體和純粹虛擬語義環境中產生。接下來,在第 3 節中,我們探討了多智能體協作的主要構建塊——系統感知、規劃、溝通和反饋,并分析了如何設計這些組件以利用基于 FM 的生成能力。超越理論視角,在第 4 節中,我們深入探討了實踐應用,展示了生成型多智能體協作如何增強不同具身場景中的功能。根據我們的了解,這是首次系統性地探討 MAS、具身 AI 和基礎模型的融合。最后,在第 5 節中,我們總結了開放的研究挑戰,勾畫了關鍵的未來發展方向,并討論了 EMAS 對更廣泛的 AI 和機器人領域的潛在影響。我們的目標是通過呈現這個迅速發展的領域的整體概述,來為研究人員、從業人員和利益相關者提供信息并激發靈感。
在前一節中概述的關鍵挑戰和機遇的基礎上,本節介紹了具身多智能體系統(EMAS)中的協作架構,如圖 2 所示。特別地,我們探討了生成型多智能體系統如何利用外部協作(跨多個具身實體)或內部協作(在單一具身實體內多個基礎模型之間)。我們還涵蓋了結合這些策略的混合方法,以滿足多樣化的系統需求。我們的目標是提供一種結構化的理解,說明如何協調多智能體協作,以最大化適應性、可擴展性和任務一致性,尤其是在與基礎模型(FM)集成時。
在多個具身實體之間展開的協作場景中,我們稱之為外部協作,智能體在物理或虛擬環境中互動,以實現共享的目標。借鑒長期以來的多機器人和傳統多智能體系統(MAS)文獻,外部協作可以通過集中式或去中心化策略組織。這些方法在可擴展性、通信開銷以及全局控制與局部控制之間存在不同的權衡。集中式架構 在集中式策略框架中,單一的統一模型控制多個機器人或智能體,提供集中式的任務分配和決策制定。該集中模型根據智能體的能力和系統目標分配任務,通過提供全局視角確保智能體之間的協調。已有研究探索了基于語言的任務分配方法 [LTW+24, OA+24, CYZ+24] 和基于代碼的任務分配方法 [KVM24, ZQW+24]。 集中式模型還在決策制定中發揮關鍵作用,通過整合來自所有智能體的信息來做出最終決策,確保一致性。例如,[YKC23] 使用集中式模型來確定導航目標,[TXL+20] 使用它來進行基于 3D-CNN-LSTM 的互動問答,[GAZ+24] 使用它在多機器人系統中通過引導領導機器人行動來解決死鎖問題。 集中控制策略通過使用單一模型進行任務分配和決策制定來確保協調。其優勢包括任務的最優分配和一致的決策。然而,它可能受到系統復雜性、高計算需求以及在大規模或動態環境中的可擴展性問題的限制。
在去中心化策略中,每個模型獨立控制其相應的具身實體,從而提供更大的靈活性和可擴展性。早期的研究使用強化學習進行去中心化控制,但基礎模型(FM)的興起使得智能體能夠自主處理多樣化的任務 [CJ+24],形成了更為先進的去中心化系統。 基礎模型通過利用推理能力來增強去中心化系統,基于局部部分觀察來改善個體決策。例如,[ZWL+24] 利用世界模型來輔助多智能體規劃,在該模型中,每個個體通過世界模型預測其他智能體的行為,并推斷自己的計劃。類似地,[AF+23] 引入了一個輔助的心智理論推理基礎模型來解釋合作伙伴智能體的行動和需求,從而支持個體決策。 此外,憑借基礎模型的推理和通信能力,基于FM的智能體表現出涌現的社交性。[CJ+23] 發現,當沒有明確指導采用哪種策略時,FM驅動的智能體主要遵循平均策略,這代表了智能體之間的一種平等主義組織結構。其他研究 [GHL+24, CJ+24] 強調了團隊中更為結構化角色的潛在好處。這表明,類似于人類的社會結構,FM智能體可以表現出涌現行為,通過適應組織框架來優化協作,從而增強它們在處理復雜任務時的集體能力。
外在協作涉及多個機器人和具身實體之間的合作,而內在協作則發生在單一系統的內部結構中,該系統可能包含多個基礎模型(FM)。這一概念與最近推動的各個FM模塊之間的協作工作流程密切相關,這些模塊各自專注于不同的角色,共同處理日益復雜的任務。這樣的內部協調擴展了傳統的多智能體協調概念,側重于在單一具身體內進行集中的決策。 在這一工作流程中,每個FM承擔特定的功能或角色,共同完成任務。研究已將這一范式應用于具身學習系統,例如 [QZL+24],該系統使用規劃者、部分處理器和執行者等模塊來解決Minecraft沙盒中的任務,和 [SSY+24],它將任務分解為觀察者、規劃者和執行者角色。LLaMAR [NO+24] 還采用了計劃-行動-糾正-驗證框架進行自我修正,無需預言機或模擬器。 內在協作可以通過提高規劃準確性、安全性和適應性來提升系統功能。例如,[LY+23] 使用基于FM的快思維和慢思維進行協作計劃生成和評估,而LLaMAC [ZMR+23] 則采用多個批評者和評估者來提供反饋并提高魯棒性。
在許多現實世界的應用中,嚴格區分外在協作和內在協作既不現實也沒有優勢。因此,混合協作架構結合了這些策略,利用了集中式、去中心化和內部FM工作流程的優勢。 隨著具身任務復雜性的增加,混合不同協作層次的靈活性——無論是在機器人之間,還是在智能體的內部結構中——變得越來越有價值。 內在協作通過模塊化FM增強模型能力,并且可以應用于集中式和去中心化系統。例如,CoELA [ZDS+24] 使用五個模塊——感知、記憶、通信、規劃和執行——而 [YPY+24] 為去中心化機器人協作構建了具有觀察、記憶和規劃模塊的智能體。集中式模型也可以使用模塊化FM,例如 [WTL+24],它使用任務和行動FM進行任務分配。 集中式和去中心化策略可以結合使用,不同階段的任務可以采用不同的方法。受到多智能體強化學習(MARL)中的集中訓練與去中心化執行(CTDE)框架的啟發,[CYZ+24] 和 [ZC+24] 提出了集中規劃與去中心化執行的方案,其中全球規劃指導任務執行,最大化全球監督與地方自治之間的協同效應。 通過展示這些不同的架構,我們闡明了實踐者如何在不同粒度和控制層級上有效地協調EMAS中的多智能體協作。下一節將基于這一架構視角,探討如何設計關鍵的系統組件——感知、規劃、通信和反饋——以利用基于FM的生成能力,進一步提升多智能體協作的魯棒性和適應性。
在第二節中,我們從結構層面探討了如何協調多智能體協作,接下來我們將轉向推動具身智能體之間有效團隊合作的功能性構建模塊。具體來說,我們重點介紹感知、規劃、通信和反饋機制如何被設計來利用基礎模型(FM)的生成能力。通過聚焦于這些關鍵模塊,我們展示了EMAS解決方案如何更加穩健地解讀物理環境、制定并適應計劃、交換信息,并從自身行為以及環境中迭代學習。這種方法補充了前述的協作架構,提供了一個更細化的視角,以促進具身智能體之間的動態和上下文感知協作。
盡管生成模型可以從文本和視覺中獲取語義知識,但具身智能體必須主動感知并解讀物理世界。這需要處理三維結構、動態條件和實時互動 [LCB+24]。因此,感知模塊至關重要,它將環境的詳細特征傳遞給后續的模型,確保生成能力植根于具體的上下文中 [PH+24]。
向FM提供物理上下文的最簡單方法是提供環境的口頭描述。盡管這些提示可以手動編寫,但許多方法使用自動化工具增強語言描述。例如,一些研究 [MJ+24, CZR+23] 使用視覺模型來檢測和描述物體,而其他研究 [BCF+23, HW+23] 則利用可操作性學習來豐富FM對物體在物理環境中如何被操作的理解。除了被動接收信息,最近的工作使智能體能夠決定何時以及觀察何種類型的信息,從而促進主動感知。例如,[QZL+24] 允許FM查詢經過微調的模型,獲取環境細節;這些響應逐步構建場景描述。
在多智能體系統中,協作感知旨在融合來自不同智能體的互補傳感輸入,從而提升整體性能 [YYZ+23]。在自動駕駛或無人機編隊中,這通常通過傳感器級的數據共享或輸出級融合實現 [SRC24]。在基于FM的系統中,協作智能體可以通過聚合每個智能體的本地地圖或視覺數據,共同構建環境的全局記憶。例如,[YKC23] 融合了來自多個智能體RGBD輸入的語義地圖,[TXL+20] 使用每個智能體觀察的3D重建形成共享環境的整體3D狀態和語義記憶。
規劃是多智能體具身系統的核心模塊,使得智能體能夠基于狀態、目標和個體能力進行戰略部署。有效的規劃對于任務分配、協調以及無縫整合生成FM的能力至關重要。
規劃方法通常采用基于語言或基于代碼的格式。基于語言的規劃使用自然語言引導任務流,具有直觀性和易適應性,尤其是在先進FM的出現之后 [MJ+24, YKC23]。相比之下,基于代碼的方法利用結構化編程或領域特定符號(例如PDDL)來實現更高的精確度。[KVM24] 使用Python代碼框架來描述整體任務流程,[ZQW+24] 將任務轉換為PDDL問題,以便分配給多個機器人。
除了個體決策外,多智能體協作還要求達成共識、解決沖突和共享資源。在集中式系統中,單一模型通常負責分配子任務。例如,[LTW+24] 根據每個智能體的能力生成行動列表,[OA+24] 集成FM和線性規劃來解決任務劃分,[CYZ+24] 則利用“機器人簡歷”來進行FM驅動的任務分配討論。在去中心化系統中,智能體直接溝通以優化集體計劃,并通過強大的信息交換得到支持,這將在下一小節中進一步探討。
通信是MAS的核心,使得智能體能夠共享情況更新、協調任務并達成共識。與傳統方法需要繁瑣的通信協議設計不同,生成智能體可以利用FM的零-shot語言生成能力,降低了構建高效通信接口的復雜度。 參考 [SWJ+22],我們將具身AI中的多生成智能體通信模式分為三種主要結構:
具身任務復雜且不確定,因此反饋機制對智能體改進至關重要。反饋使智能體能夠調整和優化行為,允許它們根據當前狀態、環境變化或外部指導進行持續學習。
系統反饋是指在采取行動之前由系統內部生成的信息。這涉及到智能體或集中模型重新審視其初始計劃,以識別缺陷或潛在改進之處。多個研究 [LZD+24, CYZ+24, ZMR+23] 實現了任務生成后的多智能體討論階段,通過同行反饋完善行動列表。[CAD+24] 和 [ZQW+24] 使用FM檢查器來驗證基于代碼的計劃,確保語法正確性。同時,[ZYB+24] 提出了優勢函數來評估并迭代優化計劃,[LY+23] 使用FM來預測計劃結果,隨后通過另一個FM評估計劃質量,從而推動迭代改進。
環境反饋發生在執行物理(或模擬)世界中的行動后。許多研究記錄現實世界的結果以指導未來決策。例如,[LTW+24] 和 [YPY+24] 將行動結果存儲在記憶中,以便未來規劃參考,而 [QZL+24] 和 [NO+24] 則評估失敗的根本原因并相應調整行動計劃。此外,多智能體的組織結構可以在任務執行過程中根據環境信號重新配置。[CSZ+23] 動態更新角色,[GHL+24] 使用FM批評者來評估智能體表現,甚至重新組織領導角色。
外部人類指導可以提供細致的干預和戰略方向,這是純自動化系統無法實現的。例如,[PL+23] 識別模糊或不可行的任務指令,要求人類提供幫助,而 [WHK24] 和 [RDB+23] 則結合了符合預測來衡量任務的不確定性并觸發人類幫助請求。除了請求幫助,[CK+23] 和 [SH+24] 允許人類操作者通過口頭指令實時調整機器人的動作,從而提高任務成功率。 總之,感知、規劃、通信和反饋成為將高層次協作架構轉化為實際生成多智能體解決方案的基礎支柱。無論智能體是通過分布式配置進行外在協作,還是通過單一具身內部的多個FM進行內在協作,強大的支持模塊都確保了在現實環境中的適應性和魯棒性。 下一節將深入探討具體的應用領域,展示這些功能模塊如何協同工作以應對多樣的具身任務。通過將架構原理(第2節)與模塊化功能結合,并將其植根于實際場景,我們旨在提供一個全面的視角,展示如何在EMAS中有效實現生成多智能體協作。
在前面的架構和功能模塊的基礎上,本節探討了生成式多智能體協作如何從受控的仿真環境過渡到現實世界應用。盡管許多進展是在虛擬平臺上驗證的,但這些仿真洞察為解決智能交通、家庭機器人學和具身問答等復雜問題奠定了基礎。
前面的部分介紹了多智能體協作如何在結構和功能上得到啟用。現在,仿真環境作為一個關鍵層次,用于測試這些設計,使研究人員能夠系統地改進智能體交互,而無需承擔現實世界操作的成本或風險。網格世界范式 網格世界具有基于單元格的結構,重點是決策制定和路徑規劃,同時抽象掉了物理細節。通過采用基于FM的翻譯和檢查框架,[CAD+24] 改進了多智能體在網格任務中的表現,[ZMR+23] 引入了反饋機制來增強網格運輸任務的表現。[CAZ+24] 進一步評估了在網格設置中各種基于FM的多機器人架構,強調了這些簡化的世界如何幫助快速驗證協作設計。基于游戲的協作場景 像《Overcooked》這樣的基于游戲的平臺提供了明確的規則、時間限制和智能體間強制協調的任務 [YJ+24, AF+23, ZYB+24]。FM協調還擴展到其他結構化游戲,如《Hanabi》和《Collab Games》,展示了生成式方法如何適應不同的基于團隊的挑戰。對于更具開放性的任務,《Minecraft》 [WXJ+23, PC+24] 推動了更大環境和無盡目標的應用。最近的研究 [PC+24, ZC+24, QZL+24] 聚焦于協作探索,而其他研究 [CJ+24, CSZ+23, ZMC+24] 則解決了資源收集或結構構建的問題。高級3D環境與機器人仿真 現實感仿真器旨在更緊密地模仿現實生活中的復雜性。AI2-THOR [KM+17] 提供了精細渲染的室內場景,并用于多智能體家庭任務 [KVM24, WHK24, LLG+22, SSY+24]。類似地,VirtualHomeSocial [GHL+24]、BEHAVIOR-1K [LTW+24] 和基于Habitat的基準平臺 [CYZ+24] 使智能體能夠在物體操作和導航中發展協作策略。這些平臺幫助架起了算法開發與物理部署之間的橋梁。
憑借驗證過的架構和強大的功能模塊,研究人員已開始面臨終極挑戰:將仿真學習轉化為可行的物理部署。從智能交通到家庭機器人學,以下小節展示了生成式多智能體協作如何適應現實世界的需求,突顯了這些系統的成熟度和面臨的挑戰。智能交通與配送 智能交通中的多智能體協作涵蓋了無人機/地面無人車(UAV/UGV)的協調任務,如貨物配送和環境監測。早期的研究主要利用多智能體強化學習(MARL),但現在基于FM的解決方案開始出現。[GW+24] 探討了基于FM的初步任務分配用于監視任務,[WTL+24] 將生成模型應用于跟蹤目標分配,表明基于語言的策略能夠迅速適應動態場景。家庭輔助機器人 許多3D仿真基準平臺,包括AI2-THOR和Habitat,最初是為了模擬家庭環境而設計的。家庭任務,如“清理桌子”或執行指令“打開書桌和地板燈并看電視”,要求具備強大的感知、規劃和通信能力。研究 [KVM24, WHK24, LGZL24, MJ+24, ZYB+24] 展示了多個智能體如何共享角色、解讀指令并劃分復雜任務。生成模型進一步簡化了協調,使得任務分配更具適應性,并豐富了人機交互。超越探索:具身問答(EQA) 具身問答(EQA)涉及在3D空間中的主動探索和推理。與強調物理交互的任務不同,EQA側重于信息的收集與解讀,通常需要對空間布局、物體關系或事件歷史有深刻的理解。多智能體版本通常利用基于團隊的感知來建立全局記憶和達成共識 [TGG+23, TXL+20, PD+24]。[CZR+23] 將專職功能的智能體定位在關鍵位置進行信息貢獻,展示了如何通過FM驅動的協作將觀察結果整合成連貫的答案。 本節通過強調這些仿真基準平臺和現實世界應用,突出了EMAS中的一個關鍵發展軌跡:首先通過結構化的測試平臺進行概念驗證,然后將解決方案過渡到高風險領域。既然已經明確了生成式多智能體協作可以部署的場所和方式,接下來的部分將討論剩余的挑戰,并勾畫出EMAS研究的前景。
隨著具身人工智能(AI)系統中多智能體協作領域的不斷發展,仍然存在一些開放的挑戰和有前景的未來方向。盡管取得了不少進展,但仍然存在諸多現實世界的障礙,限制了具身系統的應用。本節識別了關鍵挑戰,并概述了潛在的探索和創新領域,以應對這些問題。
一個主要的挑戰是缺乏標準化的評估標準。盡管在單一智能體系統和個體代理的基準測試方面取得了顯著進展,但對于具身多智能體協作的評估仍存在明顯的空白。現有的基準測試通常專注于特定任務的度量,未能充分考慮多智能體環境中互動、協調和涌現行為的復雜性。因此,亟需建立統一的評估標準來全面評估多智能體系統的性能,包括可擴展性、適應性、魯棒性和集體智能等因素。基準測試的發展對于確保不同領域的一致性至關重要,并能夠實現不同多智能體框架之間的有意義比較。
多智能體協作的另一個挑戰是數據稀缺性和異質性。收集具有不同物理特性和能力的多種系統的大規模、高質量數據是一項艱巨的任務。硬件、傳感器和環境交互的差異導致了數據的不一致性,這使得跨系統和任務的泛化變得困難。現實世界中可用的數據可能有限,阻礙了有效的訓練和評估。此外,由于實際限制,多數多智能體協作的研究是在仿真環境中進行的,只有少數研究采用了現實世界數據。因此,亟需建立標準化的數據收集方法,并且需要創新的方法來彌合仿真與現實應用之間的差距,連接理論與現實。
基礎模型的發展,尤其是面向具身智能體的基礎模型,預計將成為多智能體協作領域的一項突破性進展。目前,生成式智能體主要依賴FM來執行復雜任務,下一步自然是構建專門為具身系統設計的基礎模型。這些模型將作為多智能體協作的核心框架,整合感知、決策和行動。近期的工作,如RT-1 [BB+22] 和RDT [LW+24],在適應性和可擴展性系統的機器人基礎模型方面取得了顯著進展。基礎模型的演進將為更無縫的多智能體協作奠定基礎,使得智能體能夠在動態環境中進行全面的協作和工作。然而,將單智能體FM擴展到多智能體系統仍然面臨挑戰,這需要新的架構和方法。
目前,參與協作的智能體數量較少。隨著智能體數量的增加,計算、通信、協調、任務分配和資源管理的復雜性和難度也將增加。此外,在大規模多智能體系統中保持穩定性和魯棒性需要復雜的協調與調度技術。針對可擴展架構、有效的通信協議和協作策略的研究將是解鎖大規模具身系統全部潛力的關鍵。優化智能體工作流程和模式的發展對于在資源意識下擴展這些系統至關重要。
將機器人集成到以人為中心的環境中仍然是一個重要話題。在許多應用中,多智能體系統不僅需要相互協作,還需要與人類協作。確保機器人能夠在動態和非結構化的環境中與人類無縫合作,需要開發考慮人類認知能力、偏好和局限性的機器人-人類交互(HRI)協議。人機協作引入了額外的挑戰,如安全性、適應性和信任性。在人機團隊合作、共享自主性和直觀接口方面的研究將對促進機器人與人類之間的安全、富有成效的協作至關重要,特別是在醫療保健、工業自動化和服務機器人領域。
當前的具身多智能體協作方法,尤其是涉及FM的系統,通常缺乏堅實的理論基礎。盡管在開發實際系統方面取得了重大進展,但關于支配智能體交互的潛在原理和集體智能的理解仍然非常有限。對動態協作的深入理論探索,包括通信、協調和共識的作用,是推動該領域發展的關鍵。此外,具身多智能體系統和模型的可靠性與可解釋性在安全關鍵型環境中尤為重要,如自動駕駛和智能鐵路等應用場景。 6 結論
本綜述調查了一個具有潛力的研究領域——具身系統中的多智能體協作,重點探討了如何將生成式基礎模型(FM)集成到具身多智能體系統中。我們強調了基于FM的生成式智能體如何促進動態協作和涌現智能,并從內在和外在兩個角度系統地探索了多智能體協作架構,重點關注感知、規劃、通信和反饋機制等關鍵技術。通過研究從網格世界探索到家庭助理等多種應用場景,展示了基于FM的具身多智能體系統(EMAS)解決復雜問題的潛力,并討論了該領域快速發展過程中所面臨的挑戰和機遇。我們希望本綜述能為研究人員、從業者和相關方提供寶貴的參考,幫助他們全面了解當前的研究現狀,并激發更多先進且可擴展的解決方案,以實現具身多智能體AI的動態無縫協作。
本綜述研究了信息檢索(IR)中模型架構的發展,重點關注兩個關鍵方面:用于特征提取的骨干模型和用于相關性估計的端到端系統架構。本文有意將架構考慮與訓練方法區分開,以便對IR系統中的結構性創新進行集中分析。我們追溯了從傳統基于術語的方法到現代神經網絡方法的發展,特別突出變換器(transformer)模型以及隨后的大規模語言模型(LLM)所帶來的影響。最后,我們討論了新興的挑戰和未來的發展方向,包括性能和可擴展性的架構優化、多模態和多語言數據的處理,以及如何適應超越傳統搜索范式的新應用領域。
1 引言
信息檢索(IR)的目標是檢索相關的信息源,以滿足用戶的信息需求。在過去幾十年中,信息檢索已經成為高效、有效地訪問大量信息的重要工具,廣泛應用于各類場景。除了其傳統作用,信息檢索如今還在協助大規模語言模型(LLM)生成有依據和事實性的響應方面發揮著至關重要的作用。信息檢索的研究主要集中在兩個關鍵方面:(1)提取更好的查詢和文檔特征表示;(2)開發更精確的相關性估計方法。查詢和文檔特征提取方法經歷了從傳統的基于術語的方法(如布爾邏輯和向量空間模型)到基于預訓練語言模型的稠密檢索等現代解決方案的演變(Lin et al., 2022)。相關性估計方法則隨著特征表示的進展而發展。早期方法,包括概率性和統計性語言模型,使用基于術語特征的簡單相似度函數計算相關性。之后,學習排序(LTR)技術應運而生,結合了機器學習模型和多層神經網絡用于相關性估計(Li, 2011)。LTR方法的成功在很大程度上歸功于其廣泛使用手工設計的特征,這些特征源自文本術語的統計屬性以及從網頁瀏覽流量中收集的用戶行為數據(Qin and Liu, 2013)。在2010年代,大量文獻探討了不同架構中的神經網絡重排序模型,以捕捉查詢與文檔之間的語義相似度。隨后,預訓練的變換器模型,代表作BERT(Devlin et al., 2019),迅速革新了模型設計,進入了一個檢索與排序模型采用更簡化架構進行相關性估計的時代,例如基于學習到的神經表示的點積操作和多層感知機(MLP)層預測頭(Karpukhin et al., 2020;Nogueira et al., 2020;Lin et al., 2022)。近年來,LLM的進展徹底改變了應用機器學習(ML)領域,包括信息檢索。LLM的一個有趣特性是它們可以用于特征提取和相關性估計,并且在沒有大量訓練的情況下就能取得強大的性能(Ni et al., 2022a;Neelakantan et al., 2022;BehnamGhader et al., 2024;Sun et al., 2023;Qin et al., 2024a,等等)。LLM在信息檢索中的崛起,建立在變換器(transformer)預訓練語言模型的豐富基礎上,這些模型已從早期的神經網絡架構中發展而來,包括變換器(Vaswani et al., 2017)、遞歸神經網絡(RNN,Elman, 1990)、注意力機制(Bahdanau, 2014)以及預訓練的靜態神經表示,如Word2Vec(Mikolov, 2013)和GloVe(Pennington et al., 2014)。本文回顧了信息檢索中模型架構的演變(如圖1所示)。在這里,模型架構的意義是雙重的:它描述了(1)用于提取查詢和文檔特征表示的骨干模型;(2)處理原始輸入、執行特征提取和估計相關性的端到端系統架構。與之前的研究和調查(Lin et al., 2022;Zhu et al., 2023)不同,我們有意將模型架構的討論與訓練方法和部署最佳實踐分開,以提供一個更聚焦的架構分析。向神經架構的轉變,特別是基于變換器的模型,已經從根本上改變了信息檢索,使得更豐富、上下文化的表示成為可能,并改善了對復雜查詢的處理。盡管這種演變提高了檢索精度,但也帶來了新的挑戰,尤其是隨著LLM的出現。這些挑戰包括需要架構創新以優化性能和可擴展性,處理多模態和多語言數據,以及整合領域特定的知識。此外,隨著信息檢索系統越來越多地被集成到各類應用中——從機器人技術(Xie et al., 2024)、自主智能體(Wu et al., 2023)到蛋白質結構發現(Jumper et al., 2021)——該領域必須超越傳統的搜索范式。我們在本文的最后將探討這些挑戰,并討論它們對未來信息檢索模型架構研究的影響。
推薦系統是許多在線平臺的核心組成部分,但傳統方法在理解復雜用戶偏好和提供可解釋推薦方面仍然面臨困難。大型語言模型(LLM)驅動的智能體的出現為此提供了一種有前景的方法,通過實現自然語言交互和可解釋推理,可能會徹底改變推薦系統領域的研究。本文綜述系統地回顧了LLM驅動的智能體在推薦系統中日益增長的應用。我們識別并分析了當前研究中的三種關鍵范式:(1)面向推薦的方式,利用智能體增強基礎推薦機制;(2)面向交互的方式,通過自然對話和可解釋建議促進動態用戶參與;(3)面向仿真的方式,采用多智能體框架來模擬復雜的用戶-物品交互和系統動態。除了范式分類之外,我們還分析了LLM驅動的推薦智能體的架構基礎,研究其核心組成部分:個人資料構建、記憶管理、戰略規劃和行動執行。我們的研究還擴展到對該領域基準數據集和評估框架的全面分析。這一系統性研究不僅闡明了LLM驅動的推薦系統智能體的當前狀態,還為該變革性領域中的關鍵挑戰和有前景的研究方向提供了指引。
在信息爆炸的時代,推薦系統[Wu et al., 2022] 已成為數字平臺中不可或缺的組成部分,幫助用戶在電子商務、社交媒體和娛樂領域中瀏覽海量內容。盡管傳統的推薦方法[He et al., 2017]通過分析用戶偏好和歷史行為,成功地提供了個性化建議,但在實際應用中仍面臨諸多挑戰,如對復雜用戶意圖的理解不足、交互能力有限以及無法提供可解釋的推薦[Zhu et al., 2024b]。 近期,大型語言模型(LLM)的進展[Achiam et al., 2023]激發了越來越多的研究興趣,旨在利用LLM驅動的智能體[Wang et al., 2024a]來解決推薦系統中的上述挑戰。將LLM驅動的智能體融入推薦系統,相比傳統方法,具有若干顯著優勢[Zhu et al., 2024b]。首先,LLM智能體能夠理解復雜的用戶偏好,并通過其精密的推理能力生成上下文推薦,從而使得決策過程更加細致,超越簡單的特征匹配。其次,它們的自然語言交互能力促進了多輪對話,能夠主動探索用戶興趣并提供可解釋的解釋,增強了推薦準確性和用戶體驗。第三,這些智能體通過生成更加真實的用戶畫像,結合情感狀態和時間動態,徹底改變了用戶行為模擬,從而提高了系統評估的有效性。此外,LLM的預訓練知識和強大的泛化能力促進了跨領域的知識轉移,能夠以最少的額外訓練應對冷啟動等長期存在的挑戰[Shu et al., 2024]。 在本綜述中,我們全面回顧了LLM驅動的智能體在推薦系統中的應用。首先,我們介紹了傳統推薦系統的背景,并討論了它們在理解復雜用戶意圖、交互能力和可解釋性方面的局限性。接著,我們系統地審視了LLM驅動的智能體如何通過三種主要范式解決這些挑戰:面向推薦的(如[Wang et al., 2024b; Wang et al., 2024c])、面向交互的(如[Zeng et al., 2024; Friedman et al., 2023])和面向仿真的(如[Yoon et al., 2024; Guo et al., 2024])方法。然后,我們提出了一種統一的智能體架構,包含四個核心模塊(個人資料[ Cai et al., 2024; Zhang et al., 2024c]、記憶[ Shi et al., 2024; Fang et al., 2024]、規劃[ Wang et al., 2023b; Shi et al., 2024]、行動[ Zhu et al., 2024a; Zhao et al., 2024]),并分析了現有方法如何實現這些模塊。進一步地,我們編制了現有基準數據集(包括Amazon系列、MovieLens、Steam等)和評估方法的全面比較,涵蓋了傳統推薦指標和新興的評估方法。最后,我們探討了該領域幾個有前景的未來研究方向。
大型語言模型(LLMs)的快速發展為多機器人系統(MRS)開辟了新的可能性,提升了通信、任務規劃和人機交互等方面的能力。與傳統的單機器人和多智能體系統不同,多機器人系統面臨著獨特的挑戰,包括協調性、可擴展性以及實際應用中的適應性。本綜述首次全面探討了大型語言模型在多機器人系統中的集成應用。它系統地將這些應用歸類為高層任務分配、中層運動規劃、低層行動生成和人類干預等方面。我們重點介紹了多個領域中的關鍵應用,如家用機器人、建筑、編隊控制、目標跟蹤和機器人游戲,展示了大型語言模型在多機器人系統中廣泛的應用潛力和變革性價值。此外,我們還分析了限制大型語言模型在多機器人系統中應用的挑戰,包括數學推理的局限性、幻覺、延遲問題以及對強大基準測試系統的需求。最后,我們概述了未來研究的機會,強調了微調技術、推理方法和任務特定模型的進展。本綜述旨在為研究人員提供指導,助力基于大型語言模型的多機器人系統的智能化與實際部署。考慮到該領域研究的快速發展,我們將在開源Github倉庫中持續更新相關論文。 關鍵詞:大型語言模型、多機器人系統、任務分配與規劃、運動規劃、行動生成
1 引言
大型語言模型(LLMs)的快速發展已對多個領域產生了顯著影響,包括自然語言處理和機器人技術。最初,LLMs是為文本生成和補全任務設計的,但隨著時間推移,它們已發展出理解問題和解決問題的能力[83, 95]。這種發展對于提升機器人智能尤為關鍵,使得機器人能夠處理信息并據此做出協調和行動決策[36, 40]。憑借這些能力,機器人能夠更有效地解讀復雜指令、與人類互動、與機器人隊友協作,并適應動態環境[79]。隨著機器人系統向更復雜的應用發展,將LLMs集成到其中已成為一個變革性的步驟,架起了高層推理與現實世界機器人任務之間的橋梁。
另一方面,多機器人系統(MRS)由多個自主機器人協同工作組成[8, 66],在環境監測[18, 58, 74]、倉庫自動化[50, 68, 75]和大規模探索[10, 20]等應用中展現出巨大潛力。與單機器人系統不同,MRS利用集體智能實現了高可擴展性、韌性和高效性[66]。任務在多個機器人之間的分布特性使得這些系統可以通過依賴于較為簡單且專業化的機器人來降低成本,而不需要依賴單個高度通用的機器人。此外,MRS還具有更強的魯棒性,因為集體的冗余性和適應性常常可以緩解個別機器人出現故障的影響[52, 96]。這些特性使得MRS在規模、復雜性或風險超出單個機器人能力范圍的場景中變得不可或缺。
盡管如此,MRS也帶來了獨特的挑戰,例如確保機器人間的通信、在動態和不確定環境中保持協調、以及根據實時條件做出集體決策[6, 23]。研究人員正在努力將LLMs集成到MRS中,以應對與部署和協調MRS相關的獨特挑戰[13, 59]。例如,機器人間的有效溝通對于MRS而言至關重要,因為它有助于共享知識、協調任務并保持個別機器人之間在動態環境中的凝聚力[23]。LLMs可以為機器人間的通信提供自然語言接口,使得機器人能夠更直觀、更高效地交換高層信息,而不再依賴于預定義的通信結構和協議[59]。此外,LLMs的問題理解和問題解決能力可以在沒有具體指令的情況下增強MRS的適應性。當給定一個特定目標時,LLMs能夠理解任務,將其分解為子任務,并根據每個機器人團隊成員的能力將這些子任務分配給各個機器人[11, 53]。LLMs在不同背景下的泛化能力也使得MRS能夠適應新的場景,而無需進行大量的重新編程,從而在部署過程中展現出高度的靈活性[82, 92]。
LLMs在MRS中的應用也與日益增長的人機協作需求相契合[35]。由于操作員通常不具備機器人系統的專業知識,使用LLMs作為共享接口可以使操作員通過自然語言與機器人進行溝通和指令下達,從而使機器人能夠做出決策并完成復雜的現實任務[2]。這些能力提升了MRS的效率,并擴展了其在需要緊密人機協作的領域中的應用。我們的研究受到綜述文章[28]的啟發,該文章全面回顧了用于多智能體系統的LLMs,其中抽象的智能體主要扮演虛擬角色。與多機器人系統不同,多智能體系統更強調智能體的角色,而MRS則專注于機器人與物理世界之間的交互。我們發現該文章對于MRS的涵蓋較為有限,主要集中在LLM化智能體的相關工作,但仍然只是略作提及,且缺乏詳細的總結。因此,我們認為有必要總結近期在決策、任務規劃、人機協作以及任務執行方面,將LLMs應用于MRS的研究成果。圖1展示了本綜述文章中所提到的四個類別。我們希望這篇綜述能幫助研究人員了解在MRS中應用LLMs的當前進展、面臨的挑戰以及提升多機器人集體智能的潛在機會。
為了更好地為有意將LLMs應用于MRS的研究人員提供全面的介紹,我們將本綜述論文的結構安排如下:第2節介紹MRS和LLMs的背景,幫助讀者更好地理解相關主題。同時,我們還總結并比較了其他現有的關于LLMs在機器人系統和多智能體系統中應用的綜述論文,并解釋了我們在MRS領域開展研究的必要性。接下來,第3節回顧了MRS中LLMs的通信結構。第4節我們將回顧LLMs在三個層級中的應用:(1)高層任務分配與規劃,(2)中層運動規劃,以及(3)低層行動執行。接著,我們將在第5節中基于實際應用回顧LLMs在MRS中的應用。第6節總結了現有的評估LLMs在MRS中表現的基準標準以及相關的仿真環境。第7節則識別了我們面臨的挑戰與局限性,并探討了未來方向和機會,以提升LLMs在MRS協調和決策中的能力。最后,第8節為論文的總結部分。
2 背景
本節提供了關于MRS和LLMs的背景知識。盡管已有一些研究論文討論了LLMs在機器人系統中的應用,但它們并未特別關注MRS。我們將總結這些研究的貢獻,并討論為什么我們關于LLMs在MRS中的應用的綜述是必要且有影響力的。多機器人系統MRS由多個機器人組成,它們協作完成特定任務。與單機器人系統不同,MRS利用多個機器人的組合能力,以更高效、可靠和靈活的方式執行復雜任務。這些系統通常用于搜索和救援、環境監測、倉庫自動化和探索等應用,其中任務的規模或復雜性超出了單個機器人的能力。當團隊中的所有機器人相同且具有相同功能時,該團隊稱為同質多機器人團隊。相反,異質多機器人團隊由不同類型的機器人組成。MRS的優勢包括增強的可擴展性,因為任務可以分配給多個機器人,以及增加的彈性,因為一個機器人的故障通常可以由其他機器人緩解。與設計單一、高度通用的機器人相比,MRS通常依賴于更簡單、任務特定的機器人,從而降低了單個單元的成本和復雜性,同時受益于集體智能。然而,這些系統也帶來了獨特的挑戰,特別是在通信、協調和決策方面,因為機器人必須在動態和不確定的環境中協同工作。兩種主要的控制范式通常用于管理MRS中的交互和任務分配:集中式和分散式控制器。在集中式控制器中,單個控制器接收所有信息并指導系統中所有機器人的行動,從而實現優化的協調和全局規劃。然而,當團隊規模增加時,集中式系統可能成為瓶頸,并且容易受到單點故障的影響。另一方面,分散式控制器將決策分配給各個機器人,使機器人能夠彈性地操作。這種方法增強了可擴展性和彈性,但通常需要額外的復雜性來確保機器人之間的無縫通信和協調。選擇集中式還是分散式控制取決于具體的應用需求、環境條件以及效率和魯棒性之間的平衡。大型語言模型LLMs是具有數百萬到數十億參數的深度學習模型。最初,LLMs的應用是基于上下文的文本補全或從用戶指令生成文本。LLMs使用來自書籍、文章、網站和其他書面來源的大量文本進行訓練。在此訓練過程中,LLMs學習預測句子中的下一個單詞或使用注意力機制填補缺失信息。這種預訓練階段使LLMs能夠發展出對語言、語法、事實知識和推理技能的廣泛理解。
2.2.1 微調和RAG雖然LLMs在多樣化數據集上進行了預訓練以應對一般任務,但在專門任務中的表現可能不理想,因為訓練數據集可能未完全覆蓋特殊用途。人們可以準備專門用于特定任務的數據集并重新訓練模型。然而,由于計算資源有限且模型參數眾多,重新訓練整個模型通常具有挑戰性。解決此問題的一種方法是使用低秩適應(LoRA)等技術,以有限的計算資源對LLMs進行微調。LoRA凍結預訓練模型的權重,并將可訓練的秩分解矩陣注入到Transformer架構的每一層中,從而顯著減少下游任務的可訓練參數數量。另一方面,檢索增強生成(RAG)是一種替代技術,它集成了外部知識源,以提高LLMs在專門任務中的零樣本準確性。RAG解決了LLMs依賴預訓練靜態知識的關鍵限制,這些知識可能不包括特定領域或最新信息。通過將檢索機制與LLMs的生成能力相結合,RAG允許模型在運行時查詢外部數據庫或知識庫以檢索相關信息。然后,這些檢索到的數據用于指導模型的響應,從而增強其在專門上下文中的準確性和適用性。例如,RAG可以為機器人提供實時訪問任務特定知識或環境更新,從而在動態場景中實現更好的決策。盡管RAG引入了額外的復雜性,如管理檢索延遲和確保數據相關性,但它提供了一種強大的方法,彌合了靜態預訓練知識與現實世界應用動態需求之間的差距。
2.2.2 多模態LLMs傳統的LLMs擅長處理和生成文本,但在需要理解多種數據類型的場景中表現不佳。最近在多模態LLMs方面的進展通過整合多種模態解決了這一限制,使它們能夠將文本輸入與視覺、聽覺或其他感官數據結合起來。這些模型將來自不同模態的信息對齊到一個共享的語義空間中,從而實現無縫集成和上下文理解。例如,多模態LLM可以處理來自機器人攝像頭的視覺數據以及文本命令,以識別物體、導航環境或執行復雜任務。這種跨模態信息綜合能力顯著增強了它們的適用性,特別是在需要整合多種數據類型的機器人學中。通過利用多模態能力,這些模型突破了LLMs的界限,提供了新的靈活性和適應性。
3 多機器人系統中的LLM通信類型
LLMs在理解和推理復雜信息方面表現出顯著的能力。然而,它們的性能可能因所采用的通信架構而異。這種變異性在涉及具身智能體的場景中尤為明顯,其中每個智能體都使用自己的LLM進行自主決策。這些LLMs的獨立性在保持MRS的一致性、協調性和效率方面引入了獨特的挑戰。理解這些動態對于優化基于LLM的通信和決策框架在MRS中至關重要。Liu等人提供了LLM增強的自主智能體(LAAs)的全面比較,分析了將LLMs集成到智能體中的架構。雖然他們的工作主要集中在多智能體系統而非MRS,但他們對LLM架構和智能體編排的見解為多機器人應用提供了寶貴的靈感。他們的研究從一個基本結構開始,其中LLMs僅基于任務指令和觀察進行零樣本推理。然后,通過將先前的行動和觀察納入后續決策輪次中,增強了自我思考循環,以提高上下文一致性。他們通過引入少樣本提示擴展了架構,包括示例行動以增強LLMs生成有效決策的能力。關于多智能體編排,Liu等人提出了一個集中式架構,具有消息分發器,將信息傳遞給配備自己LLMs的個體智能體。這些智能體獨立處理分發的消息以生成行動。正如第4節所討論的,幾項研究采用了類似的自我思考策略來提高LLMs在協作系統中的決策一致性和可靠性。此外,Chen等人提出了四種通信架構:完全分散式框架(DMAS)、完全集中式框架(CMAS)以及兩種結合分散式和集中式框架的混合框架(HMAS-1和HMAS-2)。他們的研究評估了這些結構在倉庫相關任務中的性能,揭示了它們之間的顯著差異。對于涉及六個或更少智能體的場景,CMAS和HMAS-2表現出相當的性能,盡管CMAS需要更多的步驟來完成任務。相比之下,DMAS和HMAS-1的性能明顯較差。此外,他們的實驗表明,HMAS-2在處理更復雜任務時優于CMAS,這表明具有優化結構的混合框架為復雜多機器人操作提供了更大的可擴展性和適應性。
4 多機器人系統中的LLM應用
在本節中,我們將LLMs在MRS中的應用分為高層次任務分配、中層次運動規劃、低層次動作生成和人機交互場景。高層次任務規劃涉及需要更高智能的任務,如多機器人之間的任務分配和規劃,其中LLM需要展示邏輯推理和決策能力。中層次運動規劃指導航或路徑規劃場景。低層次動作生成使用LLMs生成并直接控制機器人的姿態或運動。另一方面,人機交互涉及使用LLMs與人類操作員互動并指導任務規劃和執行。高層次任務分配和規劃高層次任務規劃利用LLMs的高級推理和決策能力來處理復雜和戰略性任務。這種場景通常需要在機器人團隊之間分配任務、制定全面的任務計劃或解決需要上下文理解和邏輯的問題。在這里,我們探討了展示LLMs在這些復雜領域中能力的研究。最近的研究表明,LLMs能夠在多個機器人之間分配任務。Wu等人提出了一個由兩層組成的層次化LLMs框架,以解決多機器人多目標跟蹤問題。在此場景中,LLMs根據當前機器人目標之間的相對位置、速度和其他相關信息為每個機器人分配目標進行跟蹤。如圖4所示,外部任務LLM接收人類指令和長期信息作為輸入,為機器人團隊提供戰略指導和重新配置。同時,內部動作LLM以短期信息為輸入,并輸出控制參數給控制器。兩個LLMs的輸出通過優化求解器轉換為可執行動作。此外,Brienza等人將VLM和LLM應用于生成機器人足球隊的可執行計劃。他們的方法涉及為VLM教練提供包含視頻幀和相應文本提示的訓練集,詳細說明任務和約束。VLM教練生成視頻幀的示意圖描述以及高層次的自然語言計劃。兩個不同的LLMs進一步細化和同步這些高層次計劃,以生成適用于各種場景的可執行策略。在實際應用中,系統根據與實際情況的相似性選擇預收集的計劃。此外,RAG最小化了提示大小并減輕了幻覺,確保更可靠的輸出。此外,Lykov等人開發了一個MRS,用于收集和分類彩色物體集合并計數球形物體。他們的方法利用微調的LLM生成行為樹(BTs)供機器人執行任務,并向人類操作員提供有關其行為的反饋。他們實現了一個具有兩個LoRA適配器的單一LLM,每個適配器處理特定功能以提高效率和資源緊湊性。此外,Ahn等人引入了一個具有恢復機制的MRS框架。LLM控制器接收自然語言指令和低層次機器人技能庫,以生成任務執行計劃。他們系統的一個關鍵創新是檢測與預期任務進展的偏差,并通過重新規劃或尋求其他機器人或人類操作員的幫助來執行錯誤恢復。該領域的其余研究可以進一步分為兩個關鍵領域:多機器人多任務協調和復雜任務分解,突出了LLMs在MRS中的廣泛應用。
4.1.1 多機器人多任務
在多機器人多任務場景中,一個機器人團隊被分配同時完成多個目標。LLMs在此類設置中發揮著關鍵作用,設計出可執行且高效的任務分配策略。通過解釋高層次指令并理解每個任務的上下文,LLMs可以動態地在機器人之間分配任務,確保資源的優化利用和有效協作。這種能力使多機器人團隊能夠以更高的精度和適應性處理復雜的多面操作。Lakhnati等人提出了一個框架,其中三個異質機器人旨在完成由人類操作員在VR模擬中指示的復雜任務。首先,每個機器人LLM被賦予一個初始提示,以澄清其角色和能力。中央控制器LLM分析人類對任務的描述并將其分發給相應的機器人。人類操作員的指令可以直接指定每個機器人應該做什么(例如,“木星需要移動到啞鈴并撿起它,海王星和冥王星必須移動到冰箱。”)或描述任務而不分配給特定機器人(例如,“三個餐盤必須放入垃圾桶,所有代理必須最終位于垃圾桶旁邊。”)。沿著這條線,Chen等人提出了一個集中式框架,其中LLM控制器將人類指令分發給多機器人團隊。他們的目標是使異質多機器人團隊完成多個異質家庭任務。然而,他們引入的任務分配過程是“中央規劃器”LLM與每個機器人上的機器人專用代理LLM之間的討論形式。原始任務信息是從SLAM系統獲得的幾何表示,并構建為場景上下文以提示LLM。“中央規劃器”LLM首先根據其分析將每個任務分配給每個機器人。然后,每個機器人專用代理LLM根據分配的任務提供反饋,并從機器人的URDF代碼生成機器人簡歷。如果任務與機器人簡歷不匹配,它會提示“中央規劃器”進行重新分配。LLMs之間的討論繼續進行,直到不需要重新分配。Chen等人進一步研究了基于LLM的異質多任務規劃系統的可擴展性。在四個不同環境中比較了四種不同通信架構的效率和準確性,包括BoxNet、倉庫和BoxLift。結果表明,HMAS-2結構實現了最高的成功率,而CMAS是最具令牌效率的。另一方面,Gupte等人提出了一個基于LLM的框架,用于解決多機器人多人類系統的初始任務分配。在此集中式框架中,LLM首先為每個用戶的目標生成規定性規則,然后根據這些規則為每個目標生成經驗。在獲得生成的規則的實際知識后,通過推理評估LLM的性能,其中用戶提供指令,LLM根據規則和經驗分配任務。在推理階段,利用兩個不同的RAG工作流程以充分利用所獲得的知識。此外,Huang等人測試了LLMs解決多機器人旅行商問題(TSP)的能力。通過提供適當的提示,LLM為多個機器人規劃最優路徑并生成Python代碼以控制其運動。研究設置了三個框架:單次嘗試、自我調試(LLM檢查生成的Python代碼是否可以執行)和自我調試與自我驗證(LLM檢查代碼可執行性并驗證執行是否產生正確結果)。他們的工作揭示了LLMs在處理此類問題時表現不佳,只有在特定情況下(如最小-最大多機器人TSP)才能觀察到較高的成功率。
4.1.2 復雜任務分解任務分解是指MRS必須協作完成一個或多個需要仔細規劃和分工的復雜任務的情況。在這種情況下,可以利用LLM將整體任務分解為與團隊中每個機器人能力相符的較小、可管理的子任務。通過設計有效的提示,LLMs可以生成邏輯且可執行的任務分解,確保工作負載高效分配,并且機器人能夠無縫協作以實現總體目標。Kannan等人引入了SMART-LLM,這是一個利用LLMs將高層次人類指令分解為子任務并根據其預定義技能集分配給異質機器人的框架。與Chen等人不同,其中機器人能力是從其URDF代碼中推斷出來的,SMART-LLM采用更傳統的方法,通過明確定義每個機器人的技能集來進行異質任務分配。該過程涉及將指令分解為子任務,分析每個子任務所需的技能以形成聯盟,并相應地分配機器人以確保高效的任務執行。Wang等人提出了依賴感知的多機器人任務分解和執行LLMs(DART-LLM),這是一個旨在解決MRS中復雜任務依賴和并行執行問題的系統,如圖5所示。該框架利用LLMs解析高層次自然語言指令,將其分解為相互關聯的子任務,并使用有向無環圖(DAG)定義它們的依賴關系。通過建立依賴感知的任務序列,DART-LLM促進了邏輯任務分配和協調,使機器人能夠高效協作。值得注意的是,該系統在較小模型(如Llama 3.1 8B)下表現出魯棒性,同時在處理長期和協作任務方面表現出色。這種能力增強了MRS在管理復雜組合問題中的智能和效率。Xu等人提出了一個兩步框架,利用LLMs將復雜的自然語言指令轉換為MRS的分層線性時序邏輯(LTL)表示。第一步,LLM將指令分解為分層任務樹,捕捉子任務之間的邏輯和時間依賴關系以避免順序錯誤。第二步,微調的LLM將每個子任務轉換為平面LTL公式,使用現成的規劃器實現精確執行。該框架強調了時間推理在分解復雜指令中的重要性,確保長期和相互依賴的多機器人任務的準確任務分配和執行。與上述方法不同,Obata等人采用了一種略有不同的方法,提出了LiP-LLM,這是一個將LLMs與線性規劃相結合的多機器人任務規劃框架。LiP-LLM不提供端到端的任務分配和執行,而是利用LLMs生成技能集和依賴圖,映射任務之間的關系和順序約束。然后使用線性規劃優化任務分配,以優化機器人之間的任務分配。這種混合方法通過結合LLMs的解釋能力和優化技術的精確性,提高了任務執行的效率和成功率。結果表明,將LLMs與傳統優化技術相結合,可以提高MRS的性能和協調性。另一方面,Liu等人提出了COHERENT框架,該框架利用提案-執行-反饋-調整(PEFA)機制進行異質MRS中的任務規劃。PEFA過程涉及一個集中式任務分配器LLM,它將高層次人類指令分解為子目標并將其分配給個體機器人。每個機器人評估分配的子目標,確定其可行性,并向任務分配器提供反饋,從而實現任務計劃的動態調整和迭代改進。該過程與Chen等人提出的EMOS框架中的機器人討論機制相似,其中任務分解和分配利用基于機器人簡歷的具身感知推理。然而,COHERENT強調實時、反饋驅動的方法來處理任務分配和執行,使其特別適合動態和復雜的多機器人環境。不同地,Mandi等人提出了RoCo,這是一個用于多機器人協作的分散式通信架構,專注于高層次任務規劃和低層次運動規劃。在RoCo框架中,每個機器人配備一個LLM,與其他機器人進行對話以討論和完善任務策略。此對話過程產生一個提議的子任務計劃,該計劃由環境驗證其可行性。如果計劃失敗(例如,由于碰撞或無效配置),反饋將納入后續對話中以迭代改進計劃。一旦驗證通過,子任務計劃生成機器人手臂的目標配置,集中式運動規劃器計算無碰撞軌跡。RoCo強調多機器人協作中的靈活性和適應性,并使用RoCoBench基準進行評估,展示了其在多樣化任務場景中的魯棒性能。這種方法突出了分散式LLM驅動推理與集中式運動規劃在復雜動態環境中的協同作用。中層次運動規劃MRS中的中層次運動規劃包括導航和路徑規劃等任務,重點是使機器人能夠在環境中高效地移動或協調。這些場景比高層次應用更直接和實用,但對于多機器人團隊的無縫操作至關重要。LLMs通過利用其上下文理解和學習模式生成魯棒和自適應的解決方案,為該領域做出了重大貢獻。通過解釋環境數據并動態適應變化,LLMs使機器人能夠協作規劃路徑、避開障礙物并優化在共享空間中的移動。將LLMs集成到中層次運動規劃中提高了效率和彈性,使MRS在動態和不可預測的環境中更具能力。Yu等人提出了Co-NavGPT框架,將LLMs集成為多機器人協作視覺語義導航的全局規劃器,如圖6所示。每個機器人捕獲RGB-D視覺數據,將其轉換為語義地圖。這些地圖與任務指令和機器人狀態合并,構建LLMs的提示。然后,LLMs將未探索的邊界分配給個體機器人以進行高效目標探索。通過利用語義表示,Co-NavGPT增強了對環境的理解并指導協作探索。在此框架中,LLMs僅限于為每個機器人分配未探索的邊界進行導航,主要作為任務分配機制。Morad等人進一步提出了一種將LLMs與離線強化學習(RL)相結合的新框架,以解決MRS中的路徑查找挑戰。他們的方法涉及利用LLMs將自然語言命令轉換為潛在嵌入,然后與智能體觀察結果編碼以創建狀態任務表示。使用離線RL,在這些表示上訓練策略以生成理解并遵循高層次自然語言任務的導航策略。該框架的一個關鍵優勢是其能夠完全在真實世界數據上訓練策略,而無需模擬器,確保直接適用于物理機器人。LLMs的集成增強了任務指令解釋的靈活性,而RL促進了低延遲和反應性控制策略的生成,從而實現高效的多機器人導航。沿著這條線,Godfrey等人開發了MARLIN(多智能體強化學習通過基于語言的機器人間談判引導),這是一個將LLMs與多智能體近端策略優化(MAPPO)相結合的框架,以提高多機器人導航任務中的訓練效率和透明度。在MARLIN中,配備LLMs的機器人通過自然語言談判協作生成任務計劃,然后用于指導策略訓練。這種混合方法在LLM引導的規劃和標準MAPPO強化學習之間動態切換,利用LLMs的推理能力提高訓練速度和樣本效率而不犧牲性能。實驗結果表明,與傳統的MARL方法相比,MARLIN能夠實現更快的收斂和更一致的性能,并在模擬和物理機器人環境中驗證了應用。這種基于談判的規劃集成突出了將LLMs與MARL相結合以實現可擴展、可解釋的多機器人協調的潛力。另一方面,Garg等人利用LLMs解決連接的多機器人導航系統中的死鎖問題。在障礙物密集的環境中,此類系統可能會遇到低層次控制策略無法解決的死鎖。為了解決這個問題,LLM選擇一個領導者機器人并規劃其到達目標的路徑點。系統重新配置為領導者-跟隨者編隊,基于GNN的低層次控制器引導領導者沿著路徑點移動。類似地,Wu等人提出了一個中層次動作LLM,它使用短期輸入(如跟蹤誤差和控制成本)生成優化型機器人控制器的參數,使其能夠有效地跟隨規劃的路徑點。雖然上述研究主要采用集中式系統,其中LLMs處理所有機器人的規劃,但Wu等人開發了一個用于家庭任務的分散式多機器人導航系統。在此框架中,每個機器人配備一個LLM以實現通信和協作。機器人動態識別并接近分布在多個房間中的目標物體。通過通信觸發機制動態分配領導權,領導者機器人根據其收集的全局信息發出命令。這種靈活且分散的領導策略增強了協作導航場景中的適應性和效率。低層次動作生成低層次動作生成側重于在硬件級別控制機器人運動或姿態,將高層次目標轉換為精確的控制命令。這些任務對于確保在動態環境中的平穩和高效操作至關重要。雖然LLMs提供了上下文推理和適應性,但它們在低層次任務中的表現通常有限,這些任務需要高精度和實時響應能力。結合LLMs與基于優化的控制器或強化學習的混合方法顯示出在利用LLMs靈活性的同時保持可靠機器人動作所需精度的潛力。Chen等人利用LLMs解決多智能體路徑查找(MAPF)問題,其中LLMs通過逐步生成動作來主動導航機器人。每個步驟都以高層次沖突檢查器結束,以識別與機器人或障礙物的碰撞。雖然在無障礙環境中有效,但LLMs在迷宮式地圖中面臨挑戰,原因是推理能力有限、上下文長度受限以及難以理解障礙物位置。除了路徑查找,大多數關于使用LLMs進行動作生成的研究都集中在編隊控制問題上。例如,Venkatesh等人提出了一個集中式架構,其中LLMs將自然語言指令轉換為機器人配置,使群體能夠形成特定模式。盡管作為集中式控制器具有優勢,但Li等人強調了LLMs在分散式系統中的局限性。在分散式設置中,每個機器人配備自己的LLM,通過與其他機器人協調實現期望的編隊。然而,LLMs在此任務中仍然面臨挑戰。在一個測試場景中,如圖7所示,智能體被要求形成一個間距為5個單位的圓圈,智能體的LLM誤解了指令,移動到圓圈的中心而不是周邊。這種誤解導致智能體執行基于共識的行為而不是預期的群體行為,揭示了LLMs在分布式協調中的困難。Strobel等人引入了LLM2Swarm,這是一個通過兩種方法將LLMs與機器人群體集成的系統:集中式控制器合成和分散式直接集成。在集中式方法中,LLMs用于設計和驗證部署前的控制器,從而實現高效和自適應的行為生成。在分散式方法中,每個機器人都有自己的LLM實例,實現本地化推理、規劃和協作,以增強動態環境中的靈活性。結果突出了LLMs在群體機器人中的潛力,展示了它們在集中式和分散式控制范式中的適用性。Lykov等人進一步展示了LLMs在群體控制中的潛力,提出了FlockGPT,這是一個用于協調無人機群體以實現期望幾何編隊的框架。在此系統中,LLM生成有符號距離函數(SDF)以指導無人機相對于目標表面的移動,而專用控制算法管理碰撞避免等實際約束。這些研究強調了LLMs在增強集中式和分散式群體行為中的多功能性。人機交互在MRS中,LLMs通常專注于根據人類提供的指令執行任務,強調指令的解釋和自主任務完成。一旦指令交付,人類參與通常被最小化。然而,新興研究探索了需要LLMs與人類之間持續互動的場景,強調在整個任務執行過程中的合作、決策或外部觀察。這些研究突出了動態人機交互的潛力,以應對意外挑戰、完善任務策略或確保關鍵應用中的安全性。通過實現迭代式人機協作,這些方法增強了LLM驅動的MRS的適應性和可靠性。最簡單的人機交互形式由Lakhnati等人展示,其中機器人以簡單的循環運行:接收人類命令,執行相應任務,報告完成狀態,并等待下一個指令。在此基礎上,Lykov等人引入了LLM-MARS框架,使人類能夠隨時查詢每個機器人的當前狀態和任務進度。在此系統中,響應生成和任務執行均由單個LLM處理,并通過不同的LoRA適配器增強以提高效率。Hunt等人提出了一個更具交互性的方法,要求在通過LLM驅動討論生成的任何計劃執行之前獲得人類批準。如果提議的計劃被認為不合理,人類主管可以提供反饋,促使LLMs通過進一步對話完善其方法。Ahn等人引入了VADER系統,進一步增強了人類參與。當機器人遇到任務相關問題時,它會在人機艦隊編排服務(HRFS)上發布協助請求,這是一個人類操作員和機器人代理均可訪問的共享平臺。任何代理或人類都可以響應請求,一旦問題解決,機器人將恢復其任務。這些例子展示了LLM驅動的MRS中不同程度的人類參與,從簡單的命令執行到主動協作和動態問題解決。
5 應用
LLMs在MRS中的集成推動了各種應用領域的進步,每個領域都有獨特的挑戰和機遇。這些應用利用LLMs在理解、規劃和協調任務方面的能力,提供了從室內到室外場景的解決方案。LLMs的適應性推動了在需要精確導航、任務分配和動態決策的任務中的創新,展示了其在結構化和非結構化環境中解決問題的潛力。在本節中,我們根據應用場景對研究進行分類,重點關注兩個主要領域。首先,家庭領域突出了MRS在室內挑戰中的應用,如導航、任務分解和物體操作。這些系統通常強調異質機器人之間的協作,以執行復雜的任務,從在多房間設置中識別目標到組織家用電器。其次,建筑、編隊、目標跟蹤和游戲中的應用展示了LLMs在專業領域中的多功能性。這些研究展示了MRS在戶外或競爭環境中解決復雜問題的能力,如無人機編隊用于搜索和救援任務、機器人足球策略以及在危險區域中的導航。這些領域共同強調了LLMs在推動MRS能力在多樣化現實世界應用中的日益增長的影響。家庭。家庭領域代表了具有明確應用場景的研究的重要焦點,解決了諸如導航、任務分配和任務分解等挑戰。例如,Wu等人和Yu等人研究了在復雜室內環境中的導航和多目標定位,如識別分布在多個房間中的物體,展示了在空間意識和適應性方面的進步。此外,Mandi等人、Yu等人、Kannan等人和Xu等人探索了任務分解和多機器人協作,以執行復雜的任務,如準備三明治或組織洗碗機。Chen等人強調了在多層室內環境中異質MRS的任務分配,解決了動態環境中的協調挑戰。值得注意的是,他們提出了EMOS框架,這是一個具身感知的操作系統,通過新穎的“機器人簡歷”方法促進異質機器人之間的有效協作,使機器人能夠從其URDF文件中自主解釋其物理約束,而不是依賴預定義的角色。這些研究在利用多樣化機器人能力的同時解決了子任務的時間序列問題,展示了MRS在家庭環境中解決復雜現實世界問題的潛力。其他包括建筑、編隊、目標跟蹤和游戲。一些研究專注于開放世界環境中的應用,突出了LLM集成機器人系統的多功能性和創新潛力。例如,Wang等人和Sueoka等人探索了使用LLMs協調機器人系統進行挖掘和運輸任務,展示了其在建筑和復雜地形救援操作中的適用性。在無人機編隊應用中,Lykov等人強調了協調和適應性,用于戶外任務,如搜索和救援任務以及環境監測。類似地,Wu等人通過集成危險區域識別解決了開放世界目標跟蹤問題,為在危險環境中自主導航提供了魯棒的解決方案。這些場景進一步展示了LLMs在動態和結構化環境中的潛力。Brienza等人引入了LLCoach,這是一個用于機器人足球應用的框架,其中LLMs增強了戰略決策和團隊協調。這些研究共同強調了LLM驅動的MRS在解決各種復雜挑戰中的潛力。
6 LLMs、模擬和基準測試
LLMs和VLMsLLMs和VLMs通過實現高級決策、通信和感知驅動的協作,在MRS中發揮著越來越重要的作用。不同的模型提供了獨特的優勢,使其適用于特定的MRS應用。表1提供了在討論的研究中使用的LLMs和VLMs的比較總結,突出了它們在多機器人協調、規劃和感知中的貢獻。GPT是使用最廣泛的語言模型之一,如表1所示,它構成了許多引用研究的核心。其通用推理和適應性使其能夠集成到多機器人協調任務中,如任務分配和規劃、多機器人通信和人機協作。此外,GPT已擴展到VLM,用于需要整合文本和視覺輸入的應用。通過結合微調技術和視覺編碼器,GPT可以分析圖像、生成詳細描述,并無縫結合文本推理與視覺理解。這些能力使其非常適合圖像字幕、視覺問答和多模態翻譯等復雜感知驅動應用。Llama提供了一系列從輕量級小模型到強大的大規模模型的開源模型,滿足多樣化應用需求。較小模型(如Llama 3-8B)因其輕量級設計和靈活性而特別受歡迎,非常適合計算資源有限的嵌入式或分散式MRS架構。另一方面,較大模型(如Llama 3-70B)提供了增強的能力和更高的準確性,非常適合需要高級推理和詳細自然語言理解的復雜任務。Claude則優先考慮安全性、倫理AI和透明決策,使其非常適合受監管的多機器人應用。此外,Claude已擴展為VLM,進一步擴展了其多功能性。其對安全性和倫理考量的強烈關注使其成為涉及敏感視覺數據(如醫學成像或內容審核)任務的引人注目的選擇。與GPT不同,Claude的VLM實現采用以人為本的設計,強調決策透明度并最小化視覺解釋中的偏見。GPT、Llama和Claude表現出一定程度的可互換性,如幾項研究所證明的,這些研究測試了具有多個模型的架構,從而能夠對其性能進行比較分析。Falcon強調實用性,針對資源受限的環境進行了優化。例如,唯一使用Falcon的研究因其在每個機器人上運行的微計算機的計算限制而選擇它作為首選模型。PaLM以其多任務和多模態能力脫穎而出,擅長復雜推理和跨領域任務,如翻譯和圖像處理。然而,其部分閉源性質和在Google生態系統中的集成使其主要在Google DeepMind的研究中使用。此外,最近的研究探索了幾種VLMs,包括PaLI、CLIP和ViLD。PaLI由Google開發,是一個多模態模型,專為多語言和跨視覺任務(如圖像字幕和視覺問答)而設計,利用廣泛的多模態數據。同樣,CLIP由OpenAI創建,通過對比學習將圖像和文本對齊到一個共享嵌入空間中,使其特別適合零樣本任務,如圖像分類和檢索。相比之下,ViLD是Google的另一個模型,專注于零樣本物體檢測,通過將視覺特征與CLIP風格的語言對齊集成,使其能夠精確識別未見過的物體類別。模擬環境我們總結了相關工作中使用的模擬平臺,突出了它們在評估和推動該領域發展中的貢獻。AI2-THOR已在[13, 38, 81, 87]中適應MRS,以評估在復雜室內環境中操作的具身AI智能體。雖然最初設計用于單智能體任務(如物體操作和場景理解),但最近的研究擴展了其用途,包括在受限環境中的協作物體檢索、共享感知和協作規劃。物理啟發的交互使研究人員能夠在動態和物理基礎的環境中測試LLM驅動的協調策略,其中多個智能體必須導航、操作物體并動態解決沖突。PyBullet是一個廣泛用于模擬機器人系統的開源物理引擎,包括關節式機械手、輪式機器人和多智能體交互。它提供實時物理模擬,支持碰撞檢測、剛體動力學和機器人學中的強化學習。在MRS的背景下,PyBullet能夠準確建模分散式協作、物體操作和動態環境交互。BEHAVIOR-1K由Liu等人使用,作為COHERENT框架的基礎,該框架專注于大規模異質多機器人協作。該平臺促進了在復雜家庭環境中不同機器人(如機械手、移動底座)必須協調完成日常任務(如餐桌布置、物體交接和多步驟組裝過程)的訓練和評估。該基準確保LLM增強的系統能夠處理動態任務依賴性和模糊的角色分配。Pygame平臺是一個跨平臺的Python模塊集,用于編寫視頻游戲。機器人被建模為點質量實體,專注于編隊控制、分散式共識算法和無需避障的運動協調。該平臺特別適用于分析群體中的涌現行為,其中基于LLM的控制器通過簡單的局部交互引導自組織編隊。Habitat-MAS是Habitat的擴展,引入了明確的多智能體通信,用于室內導航和探索。與其前身的單智能體焦點不同,Habitat-MAS支持合作搜索、同時定位和地圖構建(SLAM)以及智能體間策略適應的研究,這對于在災難響應和服務機器人中部署多機器人探索團隊至關重要。ROS-based simulation是一個廣泛用于MRS的中間件框架,支持機器人間通信、分散式控制和實時數據共享。它提供了群體協調、協作地圖構建和分布式任務分配的基本工具。借助內置的模擬環境(如Gazebo和RViz),ROS使研究人員能夠開發和測試MRS策略,用于探索、目標跟蹤和協作操作。VR平臺引入了沉浸式模擬,用于人機協作和強化學習。這些環境用于測試人類在環控制策略,如通過自然語言指令協調倉庫物流中的機械臂和移動機器人。GAMA提供了一個適合大規模機器人交互的多智能體建模環境。它支持分布式群體智能、多智能體任務談判和行為適應在非結構化環境中的評估,使其成為測試分散式LLM驅動控制器在物流和自主車隊管理中的理想選擇。SimRobot由Brienza等人使用,專門用于機器人足球中的多機器人團隊合作。LLCoach框架使用SimRobot進行訓練,通過處理比賽數據并動態優化多智能體角色分配來增強機器人協調和戰略規劃。ARGoS由Strobel等人選擇,是一個可擴展的群體機器人研究平臺。它支持對分散式控制機制的受控實驗,包括聚集-分散行為、領導者選舉和涌現自組織。集成到ARGoS中的LLMs評估其生成自適應通信協議和處理動態環境中任務劃分的能力。這些多樣化平臺為評估LLM驅動的MRS在不同規模上提供了基本工具,從小型協作團隊到大型自主群體。通過利用這些環境,研究人員改進了多智能體協調、通信和決策策略,推動了LLMs在MRS中的集成,以實現現實世界應用。
7 挑戰與機遇
盡管LLMs在多機器人系統(MRS)中的集成取得了一定進展,但仍然存在限制其廣泛采用和有效性的重大挑戰。這些挑戰涵蓋了推理能力、實時性能和適應動態環境等多個方面。解決這些問題對于釋放LLMs在MRS中的全部潛力至關重要。本節將識別該領域面臨的關鍵挑戰,并概述未來研究的有前景的機遇,為增強LLM驅動的MRS的效用和魯棒性提供一條研究路線圖。
7.1 挑戰
數學能力不足LLMs在處理需要精確計算或邏輯推理的任務時表現較差,例如多機器人路徑規劃或軌跡優化。這一局限性降低了它們在需要高量化精度的場景中的有效性。Mirzadeh等人[60]對幾種先進的LLM進行了詳細比較和研究,調查了它們的數學理解和問題解決能力。具體來說,LLMs在回答同一問題的不同變體時表現出顯著的差異,當僅改變數值時,性能顯著下降。此外,它們的推理能力較為脆弱,通常只是模仿訓練數據中觀察到的模式,而非進行真正的邏輯推理。這種脆弱性在問題中條款數量增加時尤為明顯,即使添加的條款與推理鏈無關,性能也會下降最多65%。這些弱點在多機器人系統中尤其具有挑戰性,因為精確計算和穩健推理對于避免碰撞、空間規劃和高效任務執行至關重要。解決這些局限性對于在數學密集型應用中可靠地部署LLMs至關重要。幻覺問題LLMs容易生成看似合理但缺乏事實準確性的內容,這種現象被稱為幻覺。在MRS中,這一問題尤為嚴重,因為精確和可靠的輸出對于有效的協作和操作至關重要。根據Huang等人[32]對LLMs幻覺的全面調查,幻覺可以分為兩種主要類型:事實幻覺和忠實幻覺。事實幻覺涉及生成內容與可驗證的現實世界事實之間的差異,導致輸出不正確;忠實幻覺則發生在生成的內容偏離用戶的指令或提供的上下文時,導致輸出無法準確反映預期的信息。在MRS的背景下,這種幻覺可能導致誤解、錯誤決策和機器人之間的協調錯誤,進而可能影響任務的成功和安全。解決這些挑戰需要開發檢測和減輕幻覺的方法,確保LLMs生成的輸出既真實準確,又符合上下文。現場部署困難目前使用LLMs的選項包括基于服務器的模型,這些模型通常是封閉源代碼的,和可以在本地部署的開源模型。基于服務器的模型包括OpenAI GPT[1]、Anthropic Claude[7]和Google Gemini(前身為Bard)[25],而可以本地運行的開源LLM包括Meta Llama[17]、Falcon[3]、Alibaba Qwen[89]以及DeepSeek V3[51]和R1[27]等。基于服務器的模型需要可靠的互聯網連接來發送查詢并接收響應,因此使得在遠程位置(例如典型的現場機器人系統中)部署MRS與LLMs變得不可實現。此外,基于服務器的LLM嚴重依賴服務器的性能,服務器的故障可能會完全中斷基于LLM的系統。這一問題對于多機器人團隊尤其重要,因為LLM負責指導機器人之間的協作和決策。另一方面,本地模型雖然避免了對服務器的依賴,但需要足夠強大的硬件來本地運行LLM。相對較高的延遲實時信息交換和決策對于MRS在現實場景中的有效操作至關重要。然而,使用LLMs的一個顯著挑戰在于它們相對較高且可變的響應時間,這可能依賴于模型復雜性、硬件能力和服務器的可用性。例如,Chen等人[12]報告稱,在使用OpenAI的GPT-4進行多智能體路徑尋找的場景中,每步的響應時間在15到30秒之間,顯著影響了實時可行性。雖然在更強大的硬件上進行本地處理可以減少延遲,但這種方法成本較高,且隨著機器人數量的增加,擴展性較差。解決這一挑戰需要探索優化的LLM架構、高效的推理技術和可擴展的解決方案,在平衡計算需求與實時操作要求之間找到一個合理的折衷。缺乏基準測試性能評估對于LLMs在MRS中的新研究至關重要。然而,現有的基準測試系統主要針對室內環境和家用應用設計,這限制了它們在MRS操作的多樣化和不斷變化的場景中的適用性。由于當前的研究往往代表了將LLMs應用于MRS的初步嘗試,因此性能比較通常側重于通過與傳統方法對比來展示可行性。雖然這種方法對于建立基線具有重要意義,但未來的進展很可能會帶來顯著的性能和功能提升。一個專門針對多機器人應用的統一基準測試框架,將為研究人員提供一致的度量標準,以評估和量化進展。這樣的系統不僅能夠幫助更清晰地理解新研究的影響,還能推動標準化和跨研究的可比性,加速這一新興領域的創新。
7.2 機遇
微調與RAG在領域特定數據集上對LLM進行微調,并結合RAG技術,是提升其在多機器人應用中表現的有前景的途徑。微調允許研究人員根據特定任務調整預訓練的LLM,提高其上下文理解能力并減少幻覺等問題。RAG通過集成外部知識檢索機制,在運行時動態地為LLM提供相關信息。這些技術結合使用,能顯著提升LLMs在多樣化和復雜的多機器人場景中的準確性、可靠性和適應性。高質量的任務特定數據集創建高質量的任務特定數據集對于推動LLMs在MRS中的能力至關重要。利用更強大的模型,如最新的LLM,生成合成數據集,可以加速為特定任務或環境量身定制訓練材料的開發。這些數據集應包括多樣化的場景、注重推理的標簽和上下文特定的知識,以提高LLMs的問題解決和決策能力。任務特定數據集對于為MRS在開放世界或非結構化環境中操作做好準備尤為重要。高級推理技術提升LLMs的推理能力對于解決其在邏輯和數學任務中的當前局限性至關重要。鏈式思維(CoT)提示、帶有顯式推理標簽的微調、集成符號推理以及與強化學習(RL)的結合等技術,都能增強LLMs處理復雜多步問題的能力。通過提升推理方法,LLMs能夠更好地支持需要精確和邏輯推理的任務,如多機器人路徑規劃和協調。任務特定和輕量化模型雖然大規模的LLM在性能上具有優勢,但它們通常在資源受限的環境中不切實際。開發專門針對多機器人應用的任務特定和輕量化模型,可以緩解這一問題。像SmolVLM、Moondream 2B、PaliGemma 3B和Qwen2-VL 2B等模型,展示了如何通過更小的架構來降低計算需求和延遲,同時在特定任務中保持足夠的性能。模型蒸餾是另一種方法,通過從更強大的LLM中提取知識來增強小模型的能力,例如將DeepSeek R1中的知識蒸餾到一個小型的Qwen2.5-Math-1.5B模型中。在現場機器人部署中,平衡效率與效果是實現LLM大規模應用的關鍵。擴展到非結構化環境目前的大部分應用和基準測試主要集中在室內或結構化環境中,導致在戶外和非結構化場景中的應用存在較大空白。研究應優先擴展MRS的能力,以包括在開放世界中的操作,如農業領域、災區和遠程探索地。這些環境中的獨特挑戰,包括變化性、噪聲和不可預測的動態,將擴大LLM驅動的MRS的適用性。最新更強大的LLMs最先進的LLMs的持續發展為MRS開辟了新的可能性。像PaliGemma、Qwen、GPT o3(迷你版)和DeepSeek V3、R1等模型提供了更強的推理、理解和多任務處理能力。將這些先進的模型融入MRS研究,可以通過提供改進的基線性能并啟用創新應用來加速進展。探索它們與機器人系統的集成可以進一步推動多機器人團隊所能實現的邊界。
8 結論
本次調查提供了關于將LLMs(大語言模型)集成到多機器人系統(MRS)中的首次全面探索,這是一個處于機器人技術與人工智能交匯點的課題,正在迅速獲得關注。與一般的機器人或多智能體系統不同,MRS由于依賴于物理體現和與現實世界的互動,面臨獨特的挑戰和機遇。本文強調了LLMs如何應對這些挑戰,為MRS中的集體智能和協作提供了新的可能性。我們提出了一個結構化框架,以理解LLMs在MRS中的作用,涵蓋了高層任務分配與規劃、中層運動規劃、低層動作執行以及人類干預等內容。這個框架反映了LLMs所啟用的多樣化功能,包括分解復雜任務、協調多機器人多任務場景和促進無縫的人機互動。此外,我們還回顧了MRS在多個領域中的應用,從家務任務到建筑、隊形控制、目標追蹤以及游戲/競賽等,展示了LLMs在這些系統中的多功能性和變革潛力。將LLMs集成到MRS中的意義在于,它們能夠增強個體和集體智能,使機器人能夠在日益復雜的環境中自主運行并協同工作。隨著LLMs在日常應用中展示出其潛力,它們在機器人領域的應用承諾將為MRS帶來創新和效率的新可能性。展望未來,短期和長期的研究和發展前景都充滿了激動人心的機會。在短期內,解決基準測試、推理能力和實時性能等挑戰將是彌合實驗室模擬與現實應用之間差距的關鍵。長期的前景包括利用LLMs實現更復雜的任務,例如災難響應、太空探索和大規模自主操作,從而拓展MRS的能力邊界。我們希望本次調查能為研究人員提供有價值的資源,概述當前的進展,識別研究空白,并突出未來探索的機遇。通過推動我們對LLMs在MRS中應用的理解,我們旨在激發創新,促進跨學科合作,加速從理論研究到實際部署的轉變,造福社會。
多生成智能體系統(MGASs)自大規模語言模型(LLMs)興起以來,已成為研究的熱點。然而,隨著新相關研究的不斷涌現,現有的綜述文章難以全面覆蓋這些進展。本文對這些研究進行了全面的綜述。我們首先討論了MGAS的定義,并提供了一個框架,涵蓋了大量的前期工作。接著,我們概述了MGAS在以下幾個方面的應用:(i)解決復雜任務,(ii)模擬特定場景,以及(iii)評估生成智能體。此外,基于以往的研究,我們還重點指出了一些挑戰,并提出了該領域未來研究的方向。
多智能體系統(MAS)因其適應性和解決復雜分布式問題的能力,得到了顯著擴展(Balaji 和 Srinivasan,2010)。與單智能體設置(Gronauer 和 Diepold,2022)相比,MAS 更能準確地反映現實世界,因為許多實際應用自然涉及多個決策者的同時互動。然而,由于傳統強化學習(RL)智能體的參數限制以及缺乏通用知識和能力,智能體無法解決復雜的決策任務,例如與其他智能體合作進行開發(Qian 等,2024b)。近年來,大規模語言模型(LLMs),如 Llama 3(Dubey 等,2024)和 GPT-4(OpenAI 等,2024),在大量網絡語料庫上進行訓練并取得了顯著成功(Radford 等)。與強化學習相比,以 LLM 為核心控制智能體的生成智能體,即使沒有經過訓練,也能在推理、長時間決策等方面表現得更好(Shinn 等,2023)。此外,生成智能體提供了自然語言接口,便于與人類進行互動,使這些互動更加靈活且更易于解釋(Park 等,2023)。
基于這些優勢,多生成智能體系統(MGAS)應運而生。研究人員已經對這些新興工作進行了綜述,并提出了一個通用框架(Guo 等,2024)。然而,隨著相關研究數量的不斷增長,出現了一些超出原框架范圍的工作。本文基于以往對多生成智能體系統(MGASs)的綜述,提供了一個新的視角,重點討論了最新的進展并探討了潛在的研究方向。我們收集了 2023 和 2024 年在頂級人工智能會議(如 *ACL、NeurIPS、AAAI 和 ICLR)上發表的 125 篇論文,并結合一些尚未發表但有價值的 arXiv 論文。根據 MGAS 的應用目的,我們將其應用總結為:任務求解、特定問題的仿真以及生成智能體的評估。圖 1 展示了我們提出的 MGAS 應用框架。(i)解決復雜任務。多智能體將自然地將任務拆分為子任務,從而提高任務的執行性能。(ii)特定場景的仿真。研究人員將 MGAS 視為一個沙盒,用于模擬特定領域中的問題。(iii)生成智能體的評估。與傳統任務評估相比,MGAS 具備動態評估的能力,更加靈活且更難發生數據泄漏。對于每一類應用,我們將討論代表性的 MGAS、資源及其評估。 與之前的綜述(Wang 等,2024a;Zhao 等,2024c;Chuang 和 Rogers,2023;Guo 等,2024;Gao 等,2023a;Gronauer 和 Diepold,2022)相比,本文的獨特貢獻如下:(i)與當前趨勢高度相關的分類法:我們基于 MGAS 應用目的,提出了一個更為近期的分類法(如圖 1 所示)。(ii)更多的資源:我們分析了開放源代碼框架以及具有基準或數據集的研究工作,以便為研究社區提供便利。(iii)挑戰與未來:我們討論了 MGAS 中的挑戰,并闡明了未來的研究方向。
移動智能體在復雜和動態的移動環境中自動化任務方面至關重要。隨著基礎模型的不斷演進,對能夠實時適應并處理多模態數據的智能體需求也隨之增加。本綜述全面回顧了移動智能體技術,重點關注提升實時適應性和多模態交互的最新進展。近期開發的評估基準更好地反映了移動任務中的靜態和交互式環境,從而對智能體的性能提供更準確的評估。
我們將這些進展分為兩大主要方法:基于提示的方法,利用大型語言模型(LLM)執行基于指令的任務;以及基于訓練的方法,對多模態模型進行微調,以適應特定的移動應用。此外,我們還探討了增強智能體性能的互補技術。通過討論關鍵挑戰并概述未來的研究方向,本綜述為推進移動智能體技術提供了寶貴的見解。完整的資源列表可訪問://github.com/aialt/awesomemobile-agents
移動智能體在處理復雜的移動環境中取得了顯著的成功,能夠在各種應用中實現任務執行的自動化,且僅需最少的人為干預 (Zhang等, 2023a; Li等, 2024; Bai等, 2024)。這些智能體被設計用于感知、規劃和執行任務,以適應動態環境,特別適用于需要實時適應性的移動平臺。多年來,關于移動智能體的研究顯著發展,從簡單的基于規則的系統演變為能夠處理多模態和動態環境中復雜任務的先進模型 (Shi等, 2017; Rawles等, 2023)。
在早期階段,移動智能體主要關注通過輕量級的基于規則的系統執行預定義的工作流程,這些系統針對移動設備上的特定任務進行了優化。這些早期智能體通常受限于硬件的計算和存儲約束,主要依賴基本的交互模式和靜態流程。然而,移動技術的快速進步為更先進的智能體架構鋪平了道路,使其能夠執行更豐富的任務。 評估移動智能體面臨獨特的挑戰,因為傳統的靜態評估方法往往無法捕捉現實移動任務的動態和交互特性。為了解決這一問題,最近的基準如AndroidEnv (Toyama等, 2021)和Mobile-Env (Zhang等, 2023a) 提供了交互式環境,以評估智能體在真實條件下的適應性和表現。這些基準不僅測量任務完成情況,還評估智能體在應對不斷變化的移動環境方面的反應能力,從而對其能力進行更全面的評估。
移動智能體研究的最新進展可分為兩種方法:基于提示的方法和基于訓練的方法。基于提示的方法利用大型語言模型(LLM),如ChatGPT (OpenAI, 2023)和GPT-4 (OpenAI, 2023),通過指令提示和鏈式思維(CoT)推理處理復雜任務。OmniAct (Kapoor等, 2024) 和AppAgent (Yang等, 2023)等著名研究展示了基于提示的系統在交互式移動環境中的潛力,但其在可擴展性和穩健性方面仍面臨挑戰。另一方面,基于訓練的方法專注于微調多模態模型,例如LLaVA (Liu等, 2023a)和Llama (Touvron等, 2023),專門用于移動應用。這些模型能夠通過整合視覺和文本輸入來處理豐富的多模態數據,從而提升其在界面導航和任務執行等任務中的表現 (Ma等, 2024; Dorka等, 2024)。
本綜述對移動智能體技術進行了深入分析,重點關注感知、規劃、行動和記憶的基本組成部分。我們將現有研究分為基于提示和基于訓練的方法。此外,我們還探討了用于評估移動智能體性能的基準和指標,并討論了互補技術在增強智能體與移動環境交互中的作用。通過本次綜述,我們旨在識別當前的挑戰和未來在推進移動智能體研究方面的機遇。
當前的人工智能(AI)模型通常通過精細的參數調整和優化技術來提升性能。然而,模型背后的基本設計原則相對較少受到關注,這可能限制我們對其潛力和局限性的理解。本綜述探討了塑造現代AI模型的多樣化設計靈感,即腦啟發的人工智能(BIAI)。我們提出了一個分類框架,將BIAI方法分為物理結構啟發型和人類行為啟發型模型。我們還審視了不同BIAI模型在實際應用中的表現,突出其實際優勢和部署挑戰。通過深入探討這些領域,我們提供了新的見解,并提出了推動創新和解決當前領域內空白的未來研究方向。本綜述為研究人員和從業者提供了BIAI領域的全面概覽,幫助他們利用其潛力,加速AI開發的進步。
1 引言
人工智能(AI)的一個基本目標是創造能夠像人類一樣學習和思考的機器。為了實現這一目標,人工學習器在多個領域中取得了顯著的里程碑,包括目標和語音識別【131, 151】、圖像處理【115】、機器人技術【50】、醫學數據分析【161】、自然語言處理(NLP)【114】等。這些成功加速了AI的發展,使其在某些領域能夠與人類匹敵甚至超越。例如,AI模型現在在某些特定任務中表現優于人類,如語言翻譯【134】、圖像識別【63】甚至戰略游戲如國際象棋和圍棋【155】。最近,許多公司提出了一系列能夠理解圖像、音頻、視頻和文本的多模態模型,其能力類似于人類【3, 7, 169】。這種快速的進步彰顯了AI在各個領域中的變革潛力,推動了技術能實現的邊界。然而,旨在創造具有類似人類思維和推理能力的機器的一般AI方法在可擴展性、魯棒性、能效、可解釋性、學習效率和適應性方面仍然存在局限性【98】。 人類大腦被認為是最復雜的信息處理系統,能夠解決諸如學習、推理和感知等復雜任務。基于對人腦研究的最新進展,研究人員正在將神經科學的見解整合到AI系統中,旨在開發能夠更接近人類行為的感知、推理和行動的腦啟發人工智能(BIAI)系統【128, 163】。這一努力源于對生物智能的基本原理的理解,并希望利用這些原理來構建更智能、適應性更強和更魯棒的AI系統。什么是腦啟發人工智能(BIAI)?BIAI指的是從人類大腦和神經系統的生物結構、功能和原理中獲得靈感的AI系統和算法。它專注于復制或模仿生物體中觀察到的復雜過程和功能,以在人工系統中實現更類似于人類或大腦的行為【197】。與一般AI算法相比,BIAI通常集中于人類行為的特定方面,如從經驗中學習、適應新環境以及關注重要信息。在這篇全面綜述中,BIAI文獻大致分為物理結構(PS)啟發型模型和人類行為(HB)啟發型模型。PS啟發型模型是指模仿生物神經元、突觸和神經回路結構的模型,用于執行諸如學習、推理和決策等任務。代表性模型包括多層感知器(MLP)、人工神經網絡(ANNs)以及最近的脈沖神經網絡(SNNs)。HB啟發型模型被定義為復制人類行為中觀察到的生物機制和過程的模型。這些模型旨在捕捉生物系統的動態,同時提供對人類如何感知、學習、適應和與環境互動的見解。注意力機制、遷移學習和強化學習是常見的人類行為啟發的深度學習方法。BIAI與一般AI的區別在于它們在AI領域中的不同方法和目標【31, 77】。具體而言,一般AI并不一定受到人類大腦具體工作方式的啟發,而是旨在更廣泛的意義上達到或甚至超越人類水平的智能。相反,設計BIAI系統的目的是復制或模仿人類認知背后的生物機制和過程。這些系統通常在圖像識別和機器人控制等任務中表現出色,但它們可能不具備人類智能的全方位能力。BIAI與傳統AI的更全面比較見表1。為什么BIAI重要?BIAI的重要性主要體現在兩個方面。一方面,BIAI在適應性、泛化能力和可解釋性等許多方面有潛力超越傳統的AI方法。另一方面,BIAI模型旨在模仿大腦的結構和功能,從而增加其生物學的合理性。這種與生物學原理的契合不僅加深了我們對智能的科學理解,也為神經科學和AI研究之間的合作創造了新的機會。本質上,通過從人類大腦——最先進的信息處理系統——中汲取靈感,研究人員正在為開發可能達到甚至超越人類能力的智能系統奠定基礎【47, 103, 125】。
人類大腦是生物復雜性的頂峰。它不僅調節所有身體功能和過程,還使高級認知能力得以實現,如思維、記憶和情感【16】。將神經科學與AI系統相結合有助于解決許多現實應用中的緊迫問題和某些瓶頸【204】。一方面,人類大腦在處理大量信息時效率極高,同時消耗的能量相對較少。模仿其架構和過程可以使AI系統在操作上同樣高效和優雅。例如,傳統機器人無法在復雜環境中及時獲取環境知識,這限制了其做出準確快速決策的能力。此外,在該領域中,低學習效率、泛化能力差、難以制定目標導向的策略以及對動態環境的慢適應性等問題仍然存在。將BIAI整合到機器人系統中可以顯著提高機器人的運動和操控能力【132】。此外,BIAI還可以應用于解決許多其他現實問題,如醫學診斷、自動駕駛汽車、聊天機器人和虛擬助手、網絡威脅檢測、輔導系統、供應鏈優化、內容創作和個性化推薦。這些應用突顯了BIAI在不同方面的廣泛影響和相關性。另一方面,理解大腦的機制不僅為我們提供了有關智能如何產生的見解,還為解決AI中的復雜問題提供了線索。通過研究生物神經網絡,研究人員可以開發更好地捕捉認知和感知復雜性的算法和架構。例如,神經網絡作為AI的基礎和基本模型之一,汲取了大腦結構和計算過程的靈感。作為現代AI的基石,神經網絡推動了醫療、金融、交通和娛樂等領域的進步。它們從數據中學習并揭示有價值的見解的能力使其成為解決復雜挑戰和推動AI創新的關鍵。此外,人類大腦具有顯著的魯棒性和適應性,能夠從經驗中學習,處理噪聲和不確定數據,并將知識泛化到新情境【41】。通過模仿大腦的彈性和適應性,BIAI旨在創造更為魯棒和多功能的AI系統。這種方法還強調了透明性、可解釋性和責任感,從而優先考慮倫理AI的發展。以生物系統為模型的智能化推動了可信賴且符合人類價值觀的AI的創建。盡管BIAI在推動AI和機器人技術方面具有巨大的潛力【102】,但它也面臨著一些挑戰和局限性。人類大腦是一個極其復雜的器官,擁有數十億的神經元和數萬億的突觸,這些神經元和突觸組織成復雜的網絡,控制著認知、感知和行為。在人工神經網絡(ANNs)中復制這種復雜性帶來了巨大的計算和工程挑戰【160】。由于人腦的復雜性,盡管經過了數十年的研究,我們對大腦的理解仍然不完整。許多大腦功能方面,如學習、記憶和意識,仍然理解不充分【152】。這種理解的缺乏使得將神經科學的見解轉化為BIAI的實際算法和架構的努力變得更加復雜。此外,BIAI模型的復雜性和不透明性妨礙了我們理解其決策過程的能力。這種明顯缺乏可解釋性和透明性的情況在安全關鍵型應用(如醫療保健和自動駕駛車輛)中引發了對責任感、偏見和可信賴性方面的重大擔憂【78, 91】。這些不足促使我們對BIAI進行全面研究。在文獻中,已有幾篇綜述論文從不同的應用場景和不同的視角調查了BIAI的算法。然而,大多數研究僅關注某一特定方面,如算法、應用場景或代價函數,缺乏對當前BIAI研究進展的詳細介紹和討論的全面綜述。在這篇綜述文章中,我們基于算法的靈感來源和學習機制對當前BIAI研究進行了分類和審視。對于每個BIAI算法,在介紹其特點和適用場景后,我們討論了其優缺點。然后,我們討論了當前BIAI模型的開放問題,并列出了幾個未來的研究方向。我們希望這篇全面綜述能為相關領域的研究人員提供有用的見解。
之前的研究涵蓋了腦啟發/類腦學習或計算范圍內的類似主題【62, 74, 132, 149】,但沒有一篇集中探討神經科學為AI模型帶來的具體知識,也沒有全面詳細地介紹BIAI系統。在【132】中,作者試圖總結腦啟發算法在智能機器人中的進展,深入探討了視覺認知、情感調節決策、肌肉骨骼機器人技術和運動控制等關鍵領域。Ou等人【122】介紹了類腦計算模型和芯片、它們的演變歷史、常見應用場景和未來前景。Hassabis等人【62】探討了AI與神經科學之間的歷史聯系,并研究了受人類和其他動物神經計算研究啟發的AI的最新進展。在【106】中,作者展示了機器學習和神經網絡如何改變動物行為和神經成像研究領域。關于人工神經網絡中的腦啟發學習,可以在【149】中找到生物學基礎和算法介紹。這篇綜述主要集中在如何從人類大腦的物理結構中學習。然而,沒有一篇綜述注意到并審視了受人類行為和學習機制啟發的AI模型。此外,他們也未全面討論AI可以從人類大腦和神經系統中學習哪些部分來設計模型。在本綜述中,我們主要回答以下問題:什么是BIAI?BIAI與一般AI有什么區別?BIAI能為我們帶來哪些優勢?我們可以從人類大腦的哪些角度來設計AI模型?哪些BIAI模型已經在現實世界中使用?引入BIAI可以進一步推動哪些研究領域?當將神經科學與AI模型相結合時,研究人員面臨哪些挑戰?當前BIAI技術中存在哪些差距,未來可以在哪些方面開展工作?通過回答這些問題,我們希望研究人員能夠加深對BIAI系統的理解,并提高他們為不同應用設計更合適的BIAI算法的能力。
本文的覆蓋范圍如圖1所示。我們的主要貢獻總結如下:
本文探討了通過機器學習(ML)技術增強計算流體力學(CFD)任務的最新進展。我們首先介紹了基本概念、傳統方法和基準數據集,然后考察了ML在改進CFD中的各種角色。本文系統地回顧了近五年內的文獻,并為前向建模提出了一種新的分類方法:數據驅動的代理模型、物理驅動的代理模型和ML輔助數值解。此外,我們還回顧了逆向設計和控制中的最新ML方法,提出了新的分類,并進行了深入討論。接著,我們重點介紹了ML在CFD中的實際應用,涵蓋了空氣動力學、燃燒、大氣與海洋科學、生物流體、等離子體、符號回歸和降階建模等關鍵科學和工程領域。除此之外,我們還識別了關鍵挑戰,并倡導未來研究方向來應對這些挑戰,例如多尺度表示、物理知識編碼、科學基礎模型和自動科學發現。本綜述旨在為快速擴展的ML在CFD領域的社區提供指南,激發未來進步的洞見。我們得出的結論是,ML有望通過提高仿真精度、減少計算時間并實現對流體動力學更復雜的分析,顯著變革CFD研究。論文資源可在//github.com/WillDreamer/Awesome-AI4CFD查看。
流體動力學是一門研究流體流動運動和行為的基礎學科,它為包括空氣動力學、化學工程、生物學和環境科學在內的廣泛科學與工程領域提供了基礎。計算流體力學(CFD)通過偏微分方程(PDEs)來模擬流體動力學的數學模型。CFD的主要目標是在各種工況下獲得模擬結果,從而減少實際實驗的高昂成本,并加速工程設計和控制過程。
盡管在研究和工程實踐中取得了幾十年的進展,CFD技術仍然面臨重大挑戰。這些挑戰包括由于對空間或時間分辨率的嚴格限制導致的高計算成本,捕捉湍流等次級動力學的困難,以及數值算法的穩定性問題等。另一方面,ML因其從觀測數據中學習模式和動力學的能力而聞名,最近已經成為可以重塑或增強任何一般科學學科的趨勢。ML技術與近年來積累的大量流體動力學數據的結合,提供了一種變革性的方式來增強CFD實踐(見圖1)。隨著ML領域的迅速擴展,研究人員越來越難以跟上最新進展。因此,本綜述旨在揭示ML在增強CFD中的多方面作用。
實際上,已有一些關于ML在CFD領域應用的綜述。然而,這些綜述大多有以下兩點局限性:1)僅限于早期嘗試。例如,Wang等人和Huang等人都詳細討論了將物理建模融入ML的方法,強調了動態系統和混合方法。同樣,Vinuesa等人從CFD領域的角度探討了ML的前景方向,如直接數值模擬、大渦模擬(LES)、湍流譜圖、雷諾平均Navier-Stokes(RANS)模擬以及降維方法。然而,他們僅回顧了2021年前PDEs的早期ML應用。2)概述不完整。現有關于ML在CFD中的應用綜述主要集中在物理知識的整合和PDEs的常見模型架構上。Zhang等人研究了PDEs的前向建模和逆向建模中的ML,強調了四個關鍵挑戰,但忽略了系統分類及其在這一領域的潛在應用。同時,Lino等人大致區分了物理驅動和數據驅動的方法,并討論了一些方法學上的限制,但同樣忽略了對每種方法動機的系統分類。盡管這些貢獻存在,但ML在CFD中的全面、前沿和深刻的系統化仍然存在空白。我們的工作代表了第一個將這些分散的見解整合為一個連貫框架的綜述。我們系統地回顧了該領域的基礎知識、數據、方法、應用、挑戰和未來方向。本文的結構如圖2所示,組織如下:
在第2部分中,我們介紹了CFD的基本概念和知識,并附有所回顧文獻中涉及的所有類型PDEs的注釋列表。然后,我們系統地回顧了近五年的文獻,將所選研究分為三個主要類別,并在圖4中展示:數據驅動的代理模型(第3部分),依賴于觀測數據進行訓練;物理驅動的代理模型(第4部分),將選定的物理先驗整合到ML建模中;以及ML輔助數值解(第5部分),部分替代傳統的數值求解器,以在效率、準確性和泛化之間實現平衡。此外,我們介紹了逆向設計和控制問題的設置(第6部分),這是將CFD應用于現實世界問題的兩個基本問題。前者優化設計參數,如初始和邊界條件,以達到特定的設計目標;后者則通過施加時變外力來控制物理系統以實現特定目標。
接著,第7部分討論了這些方法在關鍵科學和工程領域中的應用,展示了它們的影響和潛力。最后,第8部分探討了當前技術狀態中的關鍵挑戰和局限性,并概述了未來的研究方向。我們旨在引起更廣泛的ML社區對本綜述的關注,通過豐富的CFD基礎知識和先進的發展,激發該領域未來的研究。
與現有綜述的不同之處。與現有綜述相比,我們的綜述具有四個獨特特點:(1)最新總結。本綜述基于當前的發展狀況,重點關注2020年至2024年的最新論文。相比之下,現有的相關綜述均在2022年之前發表。(2)創新分類。本綜述系統地回顧了CFD領域中的ML方法,并首次根據前向建模和逆向問題的方法設計動機提出了新的分類。(3)全面討論。本綜述提供了全面的討論,涵蓋背景、數據、前向建模/逆向設計方法和應用,幫助研究人員快速而全面地理解該領域。(4)未來指導。我們的工作總結了CFD的最新進展,強調了當前CFD研究中的挑戰,并為該領域未來的工作提供了指導和方向,例如科學基礎模型。 廣泛影響。我們的綜述的影響體現在兩點:(1)對科學相關社區。我們的綜述總結了CFD中的有效ML方法,可以幫助物理和力學領域的研究人員找到解決方案并從ML中受益。(2)對ML社區。我們的綜述還可以為ML研究人員提供指導,幫助他們將知識應用于CFD中的現實科學應用。
數據驅動的代理模型是完全依賴觀測數據來訓練算法,以模擬復雜的流體動力學模型。這些模型在近年來取得了迅速的發展,具有重要的影響。根據其對空間離散化的處理方式,這些模型可以大致分為兩類:1)依賴離散化的方法,2)獨立于離散化的方法。前者需要將數據域劃分為特定的網格、網片或粒子結構,并設計相應的模型架構,而后者則不依賴離散化技術,而是直接在連續空間中學習解。
盡管數據驅動模型在CFD模擬中展現了潛力,但它們也面臨一些挑戰,如數據收集的高成本以及對模型泛化能力和魯棒性的擔憂。因此,將物理先驗知識融入模型至關重要,這有助于利用物理定律的力量來提高模型的可靠性和適用性。我們根據嵌入知識的類型將這些方法分為兩類:1)物理信息驅動,2)約束信息驅動。前者將物理知識轉化為神經網絡的約束,確保預測符合已知的物理原理。后者則從傳統的PDE求解器中汲取靈感,將這些方法整合到神經網絡的訓練過程中。
總之,本文系統地探討了利用機器學習(ML)在計算流體力學(CFD)中取得的重要進展。我們提出了一種針對前向建模和逆問題的新分類方法,并詳細介紹了過去五年中開發的最新方法。我們還重點介紹了ML在關鍵科學和工程領域中的有前途的應用。此外,我們討論了這一快速發展的領域中的挑戰和未來研究方向。總體而言,顯而易見的是,ML具有顯著變革CFD研究的潛力。
視覺與語言導航(VLN)近年來受到越來越多的關注,許多方法已經涌現出來以推動其發展。基礎模型的顯著成就已經塑造了VLN研究的挑戰和提出的方法。在本綜述中,我們提供了一種自上而下的審視方法,采用了一種原則性框架進行具身規劃和推理,并強調了利用基礎模型應對VLN挑戰的當前方法和未來機會。我們希望通過深入的討論提供有價值的資源和見解:一方面,用以標記進展里程碑,探索基礎模型在該領域的機會和潛在作用;另一方面,為基礎模型研究者整理VLN中的各種挑戰和解決方案。
開發能夠與人類及其周圍環境互動的具身代理是人工智能(AI)的長期目標之一(Nguyen et al., 2021; Duan et al., 2022)。這些AI系統在實際應用中具有巨大的潛力,可以作為多功能助手在日常生活中發揮作用,如家庭機器人(Szot et al., 2021)、自動駕駛汽車(Hu et al., 2023)和個人助理(Chu et al., 2023)。一個推進這一研究方向的正式問題設置是視覺與語言導航(VLN)(Anderson et al., 2018),這是一項多模態和協作任務,要求代理根據人類指令探索三維環境,并在各種模糊情況下進行在場通信。多年來,VLN在仿真環境(Chang et al., 2017; Savva et al., 2019; Xia et al., 2018)和實際環境(Mirowski et al., 2018; Banerjee et al., 2021)中都進行了探索,產生了許多基準測試(Anderson et al., 2018; Ku et al., 2020; Krantz et al., 2020),每個基準測試都提出了稍有不同的問題表述。
近年來,基礎模型(Bommasani et al., 2021)從早期的預訓練模型如BERT(Kenton and Toutanova, 2019)到當代的大型語言模型(LLMs)和視覺語言模型(VLMs)(Achiam et al., 2023; Radford et al., 2021)展現出了在多模態理解、推理和跨領域泛化方面的非凡能力。這些模型在海量數據上進行了預訓練,如文本、圖像、音頻和視頻,并可以進一步適應廣泛的具體應用,包括具身AI任務(Xu et al., 2024)。將這些基礎模型整合到VLN任務中標志著具身AI研究的一個關鍵進展,表現出顯著的性能提升(Chen et al., 2021b; Wang et al., 2023f; Zhou et al., 2024a)。基礎模型還為VLN領域帶來了新的機會,例如從多模態注意力學習和策略政策學習擴展到預訓練通用的視覺和語言表征,從而實現任務規劃、常識推理以及泛化到現實環境。
盡管基礎模型對VLN研究產生了最近的影響,以往關于VLN的綜述(Gu et al., 2022; Park and Kim, 2023; Wu et al., 2024)來自基礎模型時代之前,主要關注VLN基準測試和傳統方法,即缺少利用基礎模型解決VLN挑戰的現有方法和機會的全面概述。特別是隨著LLMs的出現,據我們所知,尚未有綜述討論它們在VLN任務中的應用。此外,與以前將VLN任務視為孤立的下游任務的努力不同,本綜述的目標有兩個:首先,標記進展里程碑,探索基礎模型在該領域的機會和潛在作用;其次,在系統框架內為基礎模型研究者組織VLN中的不同挑戰和解決方案。為建立這種聯系,我們采用LAW框架(Hu and Shu, 2023),其中基礎模型作為世界模型和代理模型的骨干。該框架提供了基礎模型中推理和規劃的一般景觀,并與VLN的核心挑戰緊密相關。
具體而言,在每一步導航中,AI代理感知視覺環境,接收來自人類的語言指令,并基于其對世界和人類的表征進行推理,以規劃行動并高效完成導航任務。如圖1所示,世界模型是代理理解周圍外部環境以及其行動如何改變世界狀態的抽象(Ha and Schmidhuber, 2018; Koh et al., 2021)。該模型是一個更廣泛的代理模型的一部分,該代理模型還包含一個人類模型,該模型解釋其人類伙伴的指令,從而告知代理的目標(Andreas, 2022; Ma et al., 2023)。為了回顧VLN領域不斷增長的工作并理解所取得的里程碑,我們采用自上而下的方法進行綜述,重點關注從三個角度出發的基本挑戰:
我們在圖2中展示了一個分層和細粒度的分類法,基于基礎模型討論每個模型的挑戰、解決方案和未來方向。為了組織本綜述,我們首先簡要概述該領域的背景和相關研究工作以及可用的基準測試(第2節)。我們圍繞提出的方法如何解決上述三個關鍵挑戰進行結構化審查:世界模型(第3節)、人類模型(第4節)和VLN代理(第5節)。最后,我們討論了當前的挑戰和未來的研究機會,特別是在基礎模型興起的背景下(第6節)。
一個典型的視覺與語言導航(VLN)代理在指定位置接收來自人類指令者的(一系列)語言指令。代理使用以自我為中心的視覺視角在環境中導航。通過遵循指令,代理的任務是在一系列離散視圖或較低級別的動作和控制(例如,前進0.25米)上生成軌跡,以到達目的地。如果代理到達距離目的地指定距離(例如3米)以內的位置,則任務被認為成功。此外,代理可以在導航過程中與指令者交換信息,可以請求幫助或進行自由形式的語言交流。此外,人們對VLN代理集成額外任務(如操作任務(Shridhar et al., 2020)和物體檢測(Qi et al., 2020b))的期望也在不斷增加。
如表1所示,現有的VLN基準測試可以根據幾個關鍵方面進行分類:(1)導航發生的世界,包括領域(室內或室外)和環境的具體情況。(2)涉及的人機交互類型,包括交互回合(單次或多次)、通信格式(自由對話、限制對話或多重指令)和語言粒度(動作導向或目標導向)。(3)VLN代理,包括其類型(如家庭機器人、自動駕駛車輛或自主飛行器)、動作空間(基于圖形、離散或連續)和額外任務(操作和物體檢測)。(4)數據集的收集,包括文本收集方法(人類生成或模板化)和路徑演示(人類執行或規劃生成)。有代表性的是,Anderson等人(2018)基于Matterport3D模擬器(Chang et al., 2017)創建了Room-to-Room(R2R)數據集,代理需要遵循精細的導航指令到達目標。Room-across-Room(RxR)(Ku et al., 2020)是一個多語言版本,包括英語、印地語和泰盧固語指令。它提供了更大的樣本量,并為虛擬姿態提供了時間對齊的指令,豐富了任務的語言和空間信息。Matterport3D允許VLN代理在離散環境中操作,并依賴預定義的連接圖進行導航,代理通過在相鄰節點之間的傳送在圖上移動,被稱為VLN-DE。為了使簡化的設置更現實,Krantz等人(2020)、Li等人(2022c)、Irshad等人(2021)通過將離散的R2R路徑轉移到連續空間(Savva等人,2019)提出了連續環境中的VLN(VLN-CE)。Robo-VLN(Irshad等人,2021)通過引入在機器人環境中更現實的連續動作空間的VLN,進一步縮小了模擬到現實的差距。最近的VLN基準測試經歷了幾次設計變更和期望,我們在第6節中討論這些變更。
三種主要指標用于評估導航路徑規劃性能(Anderson等人,2018):(1)導航誤差(NE),代理最終位置與目標位置之間最短路徑距離的平均值;(2)成功率(SR),最終位置足夠接近目標位置的百分比;(3)成功率加權路徑長度(SPL),通過軌跡長度標準化成功率。一些其他指標用于衡量指令遵循的忠實度和預測軌跡與真實軌跡之間的一致性,例如:(4)按長度加權的覆蓋得分(CLS)(Jain等人,2019);(5)歸一化動態時間規整(nDTW)(Ilharco等人,2019),對偏離真實軌跡的情況進行懲罰;以及(6)按成功率加權的歸一化動態時間規整(sDTW)(Ilharco等人,2019),對偏離真實軌跡的情況進行懲罰,并考慮成功率。
近年來,大型語言模型(LLM)的集成徹底改變了機器人技術領域,使機器人能夠以類似人類的熟練程度進行交流、理解和推理。本文探討了LLM對機器人學的多方面影響,討論了利用這些模型的關鍵挑戰和機遇。通過對LLM在機器人核心元素——通信、感知、規劃和控制中的應用進行分類和分析,我們旨在為尋求將LLM集成到其機器人系統中的研究者提供可行的見解。
我們的研究主要集中在GPT-3.5之后開發的LLM上,主要是基于文本的模式,同時也考慮了用于感知和控制的多模態方法。我們提供全面的指導原則和示例,以便初學者能夠輕松接觸基于LLM的機器人解決方案。通過教程級別的示例和結構化的提示構建,我們展示了如何將LLM引導的增強功能無縫集成到機器人應用中。本綜述為研究人員在不斷發展的LLM驅動的機器人技術領域中的導航提供了路線圖,提供了全面的概述和實用的指導,以利用語言模型在機器人開發中的潛力。
在過去的十年中,我們見證了機器人學領域在應用語言模型(LMs)方面取得了顯著的進展。這些進展不僅包括類似人類的交流能力,還包括機器人的理解和推理能力,從而顯著提高了它們在從家庭雜務到工業操作等各種任務中的效率。在早期工作中,這些成功源于統計模型分析和預測語言表達中的詞匯。這些模型使機器人能夠解釋人類命令,理解上下文,表征世界,并與人類互動,盡管理解的深度有限。隨后,采用了具有自我注意機制的Transformer架構,尤其是像BERT這樣的預訓練語言模型,提高了捕捉復雜模式的能力,同時為特定任務進行微調。然而,這些模型的性能通常取決于有限的數據集,限制了它們把握更深層次上下文理解和在不同場景中泛化的能力。
隨著大型語言模型(LLMs)的發展,基于語言的機器人引入了各個領域的創新變化,如信息檢索、推理任務、環境適應、持續學習和改進等。這些LLMs,以其龐大的參數規模和在互聯網規模數據集上的訓練為特征,為下游任務提供了零次和少次學習能力,而不需要額外的參數更新。這些顯著的進步來自于文獻中定義為“在小模型中不存在但在大模型中出現的能力”的突現能力。這些能力顯著增強了機器人在理解、推斷和響應開放式指令方面的性能,利用了廣泛的常識知識。此外,稱為提示工程的提示創建技術使LLMs能夠通過自由形式的語言描述或互動對話,整合更豐富的上下文信息,促進了泛化推理。引入上下文學習能力使LLMs能夠根據提供的指示或示例中的提示生成預期格式的輸出,如JSON、YAML或PDDL,甚至代碼。最近的LLMs,如GPT-4,通過與外部機器人工具(如規劃器或翻譯器)的整合,進一步擴展了能力。
盡管LLMs具有多樣的能力,但它們的利用面臨幾個挑戰。首先,LLMs經常生成不準確或意外的響應。由于機器人執行的安全性是最重要的部署因素,基于LLM的機器人應用需要過濾和糾正機制以確保安全。其次,如上下文學習等突現能力尚不可預測且不一致。即使是對輸入文本的輕微更改也可能導致響應的不可預測變化。第三,精心設計的提示使機器人能夠有效地利用LLMs的能力,但缺乏支持機器人系統關鍵組件的系統化指導,阻礙了無縫集成。因此,我們需要研究LLMs在機器人中的逐部件參與,以了解其限制和安全性。 當前,各種綜述已開始探索LLMs與機器人的交集,主要關注LLM驅動的機器人應用或互動維度。然而,仍然存在在機器人系統的關鍵元素,包括通信、感知、規劃和控制方面提供全面評論和可操作見解的空白。此外,研究者們還在探索廣泛的預訓練大容量模型領域,稱為基礎模型,尋求跨模態Transformer模型的泛化能力。然而,這一廣闊領域涵蓋了廣泛的機器人學和多樣的方法論,使得新興研究者錯過深入的評論和指導。 在本文中,如圖1所示,我們旨在分類和分析LLMs如何增強機器人系統的核心元素,以及我們如何指導新興研究者在每個領域內整合LLMs,以促進智能機器人的發展。我們根據三個關鍵問題結構化本文: ? Q1: LLMs在每個機器人領域中如何被利用? ? Q2: 研究人員如何克服LLMs的集成限制? ? Q3: 在每個領域產生最低功能所需的基本提示結構是什么?
為了回答這些問題,我們專注于在引入GPT-3.5之后開發的LLMs。我們主要考慮基于文本的模式,但也審查了感知和控制領域的多模態。然而,為了進行深入審查,我們將調查限制在LLMs而非基礎模型上。 此外,我們提供了全面的提示工程指南和示例,旨在使初學者能夠訪問基于LLM的機器人解決方案。我們的教程級示例展示了如何通過引入四種類型的示例提示——對話提示用于互動定位,指令提示用于場景圖生成,計劃提示用于少次計劃,以及代碼生成提示用于獎勵生成——增強或替換機器人組件的基本功能。通過提供提示構建的規則和技巧,我們概述了生成預期格式輸出的良好設計提示的過程。這些原則確保了機器人應用中有效的LLM引導增強,無需參數調整。
本文的其余部分安排如下。第2節概述了機器人學中LMs和LLMs的歷史背景。第3節評審了LLMs賦能機器人通過語言理解和生成進行交流的方式。第4節調查了LLMs如何感知各種傳感器模態并推進感知行為。第5節和第6節分別組織了基于LLM的計劃和控制研究。在第7節中,我們提供了提示工程的全面指南,作為LLM在機器人中集成的起點。最后,第8節總結了這篇綜述。
生成人工智能(GenAI)標志著人工智能從“識別”能力轉變為能夠為廣泛任務“生成”解決方案的能力。隨著生成的解決方案和應用變得日益復雜和多面,解釋性(XAI)的新需求、目標和可能性也隨之涌現。在本工作中,我們詳細討論了隨著GenAI興起,XAI為何變得重要及其對解釋性研究的挑戰。我們還揭示了解釋應滿足的新興和出現的期望,例如涵蓋可驗證性、互動性、安全性和成本方面。為此,我們專注于綜述現有工作。此外,我們提供了一個相關維度的分類體系,使我們能更好地描述現有的XAI機制和GenAI的方法。我們討論了從訓練數據到提示的不同途徑以確保XAI。我們的論文為非技術讀者提供了簡短但精確的GenAI技術背景,重點介紹文本和圖像以更好地理解為GenAI新穎或調整的XAI技術。然而,由于關于GenAI的作品眾多,我們決定忽略與評估和使用解釋相關的XAI的詳細方面。因此,該手稿既適合技術導向的人員,也適合其他學科,如社會科學家和信息系統研究者。我們的研究路線圖提供了超過十個未來調查的方向。
生成人工智能(GenAI)展示了引起全球廣泛關注的顯著能力,涉及多個領域——從監管機構(歐洲聯盟,2023年),教育工作者(Baidoo-Anu和Ansah,2023年),程序員(Sobania等人,2023年)到醫療人員(Thirunavukarasu等人,2023年)。對于企業(Porter,2023年),GenAI有潛力每年解鎖數萬億美元的價值(麥肯錫公司,2023年)。同時,它也被認為是對人類的威脅(《衛報》,2023年)。這些相反的觀點是理解和解釋GenAI的關鍵動力。生成人工智能代表了由基礎模型驅動的AI的下一個層次(Schneider等人,2024b),AI能夠創造文本、圖像、音頻、3D解決方案和視頻(Gozalo-Brizuela和Garrido-Merchan,2023年;Cao等人,2023年),可以通過文本提示(White等人,2023年)由人類控制——參見表1,了解公共GenAI系統的示例。這是AI從主要能“識別”到能“生成”的重大進步。GenAI展示了前所未有的能力,如通過大學級考試(Choi等人,2021年;Katz等人,2024年)。它在被認為不適合機器的領域也取得了顯著的成果,例如創造力(Chen等人,2023a)。它對每個人都是可訪問的,如商業系統ChatGPT(Achiam等人,2023年)和Dall-E(Betker等人,2023年;Ramesh等人,2022年)所示。早期的生成人工智能方法,如生成對抗網絡(GANs),也能生成作品,但通常比現代模型如變壓器和擴散架構更難以控制。 對于GenAI的可解釋人工智能(GenXAI)技術能夠生成幫助理解AI的解釋,例如針對單個輸入或整個模型的輸出。傳統上,解釋由于多種需求而服務于多種目的;例如,它們可以增加信任并支持模型的調試(Meske等人,2022年)。對AI的理解需求在前GenAI時代更為廣泛。例如,解釋可以支持生成內容的可驗證性,從而有助于解決GenAI的主要問題之一:幻覺(如第3.1節所論述)。不幸的是,盡管過去幾年試圖設計解決方案來解決這些問題,可解釋人工智能(即使是前GenAI模型)仍然存在一些尚未解決的問題(Longo等人,2024年;Meske等人,2022年)。例如,最近一項關于XAI對人機交互影響的方法比較(Silva等人,2023年)發現,最好的方法(反事實)和最差的方法(僅使用概率分數)之間的得分差距僅為20%,這暗示復雜的現有方法與更復雜的方法相比優勢有限。因此,XAI技術距離最佳狀態仍有很大差距。其他工作甚至公開稱解釋性研究的“現狀大體上是無效的”(R¨auker等人,2023年)。因此,還有很多工作要做,了解當前的努力并在此基礎上進行改進是至關重要的——尤其是在減少高風險(《衛報》,2023年)的同時利用機會(Schneider等人,2024b)。 這篇研究手稿是朝這個方向進展的真誠嘗試。我們的目標不僅是(僅)列出和結構現有的XAI技術,因為在當前領域階段,需要解決更基本的問題,如識別GenXAI的關鍵挑戰和期望。為此,我們因此選擇了更多敘述性的審查方法(King和He,2005年)并伴隨著來自信息系統領域的分類發展方法(Nickerson等人,2013年)。已有多篇關于XAI的綜述關注前GenAI時代,主要是技術焦點(Adadi和Berrada,2018年;Zini和Awad,2022年;Dwivedi等人,2023年;Schwalbe和Finzel,2023年;R¨auker等人,2023年;Saeed和Omlin,2023年;Speith,2022年;Minh等人,2022年;Bodria等人,2023年;Theissler等人,2022年;Guidotti等人,2019年;Guidotti,2022年)和跨學科或社會科學焦點(Miller,2019年;Meske等人,2022年;Longo等人,2024年)。特別是,通過利用這些綜述,我們進行了一項元綜述來構建我們的方法,同時也借鑒了前GenAI的知識。然而,我們也揭示了與GenAI相關的尚未涵蓋的新方面。許多綜述調查了GenAI的各個方面(不包括XAI)(Xu等人,2023年;Lin等人,2022年;Xing等人,2023年;Yang等人,2023b;Zhang等人,2023a,c;Pan等人,2023年)。我們利用這些綜述為我們的技術背景。GenAI的某些子領域,例如知識識別和編輯(Zhang等人,2024年),使用孤立的XAI技術作為工具,但不旨在一般性地詳細論述它。雖然我們未能識別任何討論GenAI的XAI的綜述,但一些研究手稿對大型語言模型(LLM)的XAI采取了更全面、部分帶有觀點的觀點(Singh等人,2024年;Liao和Vaughan,2023年)或顯式綜述LLM的XAI(Zhao等人,2023a;Luo和Specia,2024年)。以前的工作沒有提供一份全面的GenAI XAI的期望、動機和挑戰清單和分類。特別是,我們的許多新方面在之前的工作中找不到。除此之外,即使只關注LLM,我們與以前的工作也有相當大的不同。 我們首先提供技術背景。 為了推導出貢猩,我們按照圖1所述進行:然后,我們提供了GenAI的XAI的動機和挑戰,尤其指向GenAI帶來的新方面,如GenAI在整個社會的廣泛影響和用戶需要交互調整通常復雜、難以評估的輸出的需求。基于此,我們推導出期望,即解釋應 ideally fulfill的要求,如支持互動和驗證輸出。然后,我們為GenAI的現有和未來的XAI技術推導出一個分類,為了分類XAI,我們使用與GenXAI技術的輸入、輸出和內部屬性相關的維度,這些維度將它們與前GenAI區分開來,例如自我解釋以及不同的來源和XAI的驅動因素,例如提示和訓練數據。 使用識別的挑戰和期望,本手稿的其余部分專注于討論GenXAI的新維度和 RESULTING TAXONOMY,討論與GenAI相關的XAI方法。最后,我們提供未來的方向 我們的關鍵貢獻包括描述GenAI的XAI需求、解釋的期望和包括新維度的機制和算法的分類。