摘要 — 基礎模型的迅速出現,特別是大規模語言模型(LLMs)和視覺-語言模型(VLMs),為機器人技術帶來了變革性的范式。這些模型在語義理解、高級推理和跨模態泛化方面提供了強大的能力,推動了感知、規劃、控制和人機交互的重大進展。本綜述文章提供了近期發展的系統性總結,按仿真驅動設計、開放世界執行、模擬到現實遷移和適應性機器人等應用進行分類。與現有的側重于孤立能力的綜述不同,本工作強調了集成化、系統級的策略,并評估了它們在現實環境中的實際可行性。文中討論了諸如過程場景生成、策略泛化和多模態推理等關鍵推動趨勢,同時也分析了核心瓶頸,包括有限的體現性、缺乏多模態數據、安全風險和計算約束。從這一視角出發,本文揭示了基于基礎模型的機器人技術的架構優勢與關鍵局限,突出了實時操作、基礎性推理、魯棒性和信任等方面的開放挑戰。最后,本綜述提出了未來研究的路線圖,旨在通過更加穩健、可解釋和具體現化的模型,彌合語義推理和物理智能之間的鴻溝。 關鍵詞 — 機器人技術、大規模語言模型、視覺-語言模型、基礎模型。
I. 引言
大規模語言模型(LLMs)及一般基礎模型的迅速發展,標志著人工智能(AI)領域的重要里程碑,尤其是在自然語言理解和推理方面。這些模型基于具有數十億參數的變換器架構[1],在海量的互聯網規模語料庫上進行預訓練,使其具備了廣泛的世界知識和超越小型模型的新興能力[2]。特別是,像GPT-3[3]這樣的LLM展示了令人印象深刻的少樣本學習能力,無需微調[4],[5],而更近期的模型如GPT-4[6]則展示了先進的推理能力,并支持多模態功能,在多個基準測試中達到了人類水平的表現。
與此同時,機器人技術的快速進展,特別是在感知、學習、控制和規劃方面,為智能物理系統創造了新的機會[7],[8]。盡管如此,機器人系統仍未達到人類級別的智能,特別是在現實世界應用所需的靈活性、適應性和泛化能力方面[9]。它們通常難以跨任務轉移知識、適應不可預見的場景,或展示人類行為特征的細致決策能力。傳統上,機器人的自主性基于顯式編程或特定任務的狹窄學習[10]。這些方法在受限環境中有效,但在復雜、動態的環境中卻限制了可擴展性,并帶來了顯著的挑戰。
為了應對這些局限,LLM與機器人技術的最近集成引入了一種新范式,利用它們豐富的語義知識和推理能力來改善機器人智能體的溝通、規劃和適應性[2]。LLM能夠解讀高級人類指令、推理目標與行動,甚至生成低級控制代碼[11],[12]。這使得機器人能夠應對更廣泛的任務和環境,借助從語言中學習到的廣泛先驗知識。 然而,LLM本身與物理上下文無關。它們缺乏體現性,無法理解度量、傳感器數據或動態物理[13]。因此,將LLM與機器人系統集成帶來了幾個關鍵挑戰。這些挑戰包括將語言融入感知與行動、實現實時響應性以及確保安全可靠的行為。早期的研究通過將LLM與視覺系統[14]、反饋機制[15]和外部知識源[16]結合,已顯示出有希望的結果。然而,如何在多變和不可預測的場景中可靠地將基于語言的智能與物理系統連接,仍是一個未解的問題。
這些挑戰突顯了對當前LLM驅動機器人技術狀態的全面且廣泛綜述的需求。現有的關鍵綜述[2],[13],[17],[18]集中在感知和規劃等傳統子領域,或強調特定方法,往往忽略了在實際環境中這些組件的集成。需要一個更廣泛的視角,系統地審視高級推理與低級控制之間的關系,考慮語言先驗在塑造行為中的作用,并探索將通用LLM適應領域特定約束的可能性。
為了應對這些挑戰,本綜述提供了關于基礎模型及其多模態擴展如何轉變機器人技術的整體綜合。本文回顧了LLM和視覺-語言模型(VLM)的應用,重點討論它們在語義感知、自適應規劃、目標導向交互和自主控制中的應用。本文強調了集成策略,而非孤立地看待這些能力,聚焦于如何滿足實際環境中如基礎性、實時響應和安全等需求。通過模擬到開放世界等多樣環境中的進展,揭示了LLM驅動機器人技術的潛力與當前的局限。討論了關鍵瓶頸,如語義基礎和實時性能,并提出了有助于彌合語言理解與物理執行之間差距的新興解決方案。最后,本文概述了主要的趨勢和開放的研究問題,旨在將語言建模的進展與復雜、現實世界應用中具體現化智能的實際需求連接起來。
城市系統是復雜系統的典型代表,其中基于物理建模與人工智能(AI)的融合為提升預測精度、可解釋性與決策支持能力提供了極具前景的新范式。在這一背景下,人工智能擅長捕捉復雜的非線性關系,而物理模型則確保結果符合現實世界的物理規律,并提供可解釋的見解。 本文系統回顧了物理引導人工智能(Physics-Informed AI)在城市應用中的研究進展。我們提出了一種分類體系,將現有方法劃分為三種主要范式:物理-融合AI(Physics-Integrated AI)、物理與AI混合集成(Physics-AI Hybrid Ensemble)、AI-融合物理模型(AI-Integrated Physics),并進一步詳述了七類具有代表性的方法。這一分類體系厘清了物理與AI融合的不同程度與方向,為基于具體應用需求和數據可用性選擇與發展合適的方法提供指導。 我們系統梳理了物理引導AI在八大關鍵城市領域中的應用:能源、環境、經濟、交通、信息、公共服務、應急管理以及城市系統整體層面。分析表明,這些方法通過結合物理規律與數據驅動模型,有效應對城市挑戰,提升了系統的可靠性、效率與適應性。 通過綜述現有方法及其城市應用,我們識別出當前研究中的關鍵空白,并提出未來的研究方向,為構建新一代智能城市系統建模方法奠定基礎。
附加關鍵詞:城市系統,物理引導人工智能,人工智能,物理理論
物理學與人工智能(AI)的融合正推動科學研究范式的重大轉變。2024年諾貝爾物理學獎和化學獎分別授予與人工智能相關的成果和科學家【115】【114】,突顯了這一趨勢。這不僅體現了AI方法的深遠影響,也進一步強調了將物理與數據科學相結合在解決復雜系統問題方面的巨大潛力。
物理學通過嚴謹的數學表達與理論體系為解釋世界提供了堅實基礎,而人工智能則憑借其強大的模式提取與預測建模能力,已成為現代科學研究中的重要工具。這兩種范式在不同領域中各有優勢:例如,牛頓力學通過精確的數學公式表達自然規律【112】,而蛋白質結構預測【114】與天氣預報【15】等領域則高度依賴高效的數據驅動建模【54】。
城市系統具有多維復雜性和動態交互特性,傳統基于物理模型的方法或純粹的數據驅動方法往往難以應對這些挑戰【39, 202】。尤其是在涉及非線性關系的任務中,如交通流動或人口遷移,AI方法展現出強大的能力,能夠從大規模歷史數據中提取復雜模式并實現高精度預測。AI在處理大規模異構數據方面也表現出色,廣泛應用于智能交通、電力系統和應急響應等領域,支持實時決策并增強系統響應能力【138】。
值得注意的是,許多城市問題在本質上受物理機制的主導,例如流體力學【172】、熱傳導【144】、污染物擴散【106】、重力驅動流動【153, 210】等。因此,在城市系統中開發物理引導AI方法具有重要意義。本文提出了一個系統的融合框架,用以梳理和分析物理引導AI在城市系統中的發展。
此外,我們將城市系統劃分為七大核心子系統,涵蓋從能源與環境等基礎層,到公共服務和應急管理等上層服務領域。我們系統性地考察了各子系統中物理機制與數據特征之間的交互關系,并探討相應的融合建模需求。
本文結構安排如下:第二章介紹物理引導AI方法的整體框架,并詳述七類代表性融合方法;第三章闡述七大關鍵城市子系統及其背后的物理原理,突出在復雜城市建模中引入物理知識的必要性;第四章按子系統展開綜述,探討主要研究挑戰并總結現有融合方法的實際應用;第五章討論并展望未來研究方向;第六章為全文結語。
機器人視覺正持續受益于多模態融合技術與視覺-語言模型(Vision-Language Models, VLMs)的迅速發展。本文系統回顧了多模態融合技術在一系列關鍵機器人視覺任務中的應用,包括語義場景理解、同步定位與地圖構建(SLAM)、三維目標檢測、導航與定位以及機器人操作控制。 我們將基于大型語言模型(LLMs)的視覺-語言模型與傳統多模態融合方法進行了對比,分析了它們在性能、適用性、限制及協同潛力等方面的優劣。與此同時,本文深入剖析了當前常用的數據集,評估其在現實機器人場景中的適用性與挑戰。 我們進一步識別出該領域面臨的若干關鍵研究難題,如跨模態對齊、高效融合策略、實時部署能力以及領域自適應問題。為推動研究發展,本文提出若干未來研究方向,包括:用于魯棒多模態表示的自監督學習、基于Transformer的融合架構以及可擴展的多模態感知框架。 通過全面的文獻回顧、系統對比分析與前瞻性探討,本文為推動機器人視覺領域中的多模態感知與交互提供了有價值的參考。 完整論文列表可訪問://github.com/Xiaofeng-Han-Res/MF-RV
摘要
本綜述全面回顧了生成式學習模型在機器人操作中的最新進展,并探討了該領域的關鍵挑戰。機器人操作面臨的主要瓶頸包括數據不足和數據獲取效率低下、長時程和復雜任務規劃,以及跨多樣化環境下的多模態推理能力以提升策略學習的魯棒性。為解決這些挑戰,本文介紹了幾種生成模型范式,包括生成對抗網絡(GANs)、變分自編碼器(VAEs)、擴散模型、概率流模型和自回歸模型,并分析了它們的優勢和局限性。這些模型的應用分為三個層次:基礎層(專注于數據生成和獎勵生成)、中間層(涵蓋語言、代碼、視覺和狀態生成)以及策略層(強調抓取生成和軌跡生成)。每一層次均被詳細探討,并列舉了推動領域發展的代表性工作。最后,本文展望了未來的研究方向和挑戰,強調提高數據利用效率、更好地處理長時程任務以及增強跨多樣化機器人場景的泛化能力的重要性。所有相關資源,包括研究論文、開源數據和項目,均已匯總至以下鏈接供社區參考://github.com/GAI4Manipulation/AwesomeGAIManipulation。
I. 引言 機器人操作在賦予機器與周圍環境進行物理交互和修改的能力方面至關重要,這是實現智能自主性的基礎步驟。從工廠中組裝精密的電子設備到家庭中的輔助護理,機器人操作在顯著影響社會的應用中發揮著關鍵作用[1, 2]。作為機器人學中最重要的問題之一,操作在復雜環境中長期面臨重大挑戰,尤其是在涉及非平凡交互和復雜長時程決策與規劃的場景中[1, 3]。這些挑戰阻礙了機器人系統在不同場景中執行可靠且魯棒的操作任務,留下了巨大的空白。
近年來,數據驅動方法在機器人操作中日益受到重視,這些方法利用大規模數據和機器學習技術,使機器人能夠更好地感知、適應和與多樣化環境交互。得益于這些爆炸性進展,上述空白已大幅縮小。特別是通過利用生成式學習模型在場景理解、推理、任務規劃和策略合成方面的卓越能力,包括操作可變形材料和執行長時程任務序列在內的操作技能已得到展示,而這些技能在之前被認為極其困難。
生成式學習模型作為現代人工智能中最重要的學習模型類別之一,解決了機器人操作中一些先前未解決的挑戰,尤其是在抓取任務中。首先,它們生成多樣化和高質量數據的能力顯著減少了對大量真實世界數據的依賴。通過生成合成的抓取場景和物體變體,這些模型使機器人能夠在數據稀缺的環境中高效訓練并處理更廣泛的物體[4, 5]。其次,它們對高維動作和物體空間的建模能力使機器人能夠預測復雜或未見物體的可行抓取配置和軌跡[6, 7, 8],從而提高了機器人適應新任務和環境的能力,增強了抓取規劃的魯棒性。第三,它們在捕捉物體結構和交互動態的潛在表示學習方面的優勢使機器人能夠泛化到不同形狀、紋理和物理屬性的物體[9, 10],從而在需要精確操作的任務中實現更可靠的性能,即使在非結構化或動態環境中也是如此。這些突破凸顯了生成式模型在推動機器人抓取和操作方面的變革潛力。
在本綜述中,我們重點關注生成式模型,因為它們有潛力解決操作中長期存在的挑戰。生成式模型提供了有前景的解決方案,例如改進場景理解、推理和任務規劃,從而有效緩解這些問題。在以下段落中,我們列舉了操作中的關鍵挑戰,并討論了生成式模型克服這些障礙的潛在機制。
A. 現代操作中的主要挑戰 首先,數據不足和數據獲取效率低下仍然是關鍵瓶頸。數據驅動方法逐漸成為解決操作問題的主導方法之一。眾所周知,諸如強化學習(RL)和模仿學習(IL)等數據驅動方法對數據需求極高,需要大量高質量數據來訓練有效模型[11, 12]。收集高質量數據通常需要人工干預或大量的真實世界機器人實驗,這些過程耗時且難以大規模擴展[13]。為簡化數據生成問題,一些研究者探索了從其他任務或領域遷移學習[14, 15, 16],以及領域隨機化等技術以緩解數據稀缺問題[4]。然而,對高質量、任務特定數據的依賴仍然阻礙了性能和可擴展性。解決這些問題對于釋放數據驅動機器人操作的全部潛力至關重要。
生成式模型如Stable Diffusion[17]和大規模預訓練語言模型[18]在生成高質量合成圖像、視頻、注釋和獎勵信號方面展示了顯著能力。這些模型能夠創建豐富且多樣化的數據集,通過提供可擴展且高效的數據生成管道,顯著緩解數據不足問題。合成數據可用于訓練和驗證機器人操作模型,提升其性能和泛化能力。此外,生成豐富獎勵函數的能力通過提供詳細反饋并支持復雜環境中的探索,促進了更有效的強化學習。這種對數據和獎勵生成的關注為克服數據稀缺和低效數據獲取問題奠定了基礎,從而推動了機器人操作領域的發展。
其次,長時程任務和復雜任務規劃提出了重大挑戰。復雜任務,如多步裝配操作、雜亂環境中的物體重新排列以及與人類的協作任務[19],要求機器人規劃并執行一系列相互依賴的動作。有效的規劃需要復雜的建模技術,并通常假設環境的完全可觀測性[20]。然而,在現實場景中,完全觀測很少可行,因此需要代理對任務有內在理解,包括因果關系及其動作對環境的影響[9, 21]。傳統的確定性模型由于無法充分表示長時程任務中的不確定性和動態交互,難以捕捉這種復雜性[22]。 生成式模型通過將復雜任務分解為可管理的子目標(如鏈式思維推理[23]),在解決長時程任務規劃方面做出了重要貢獻。利用語言生成和代碼生成的能力,大規模生成式模型幫助機器人通過將復雜動作序列分解為更簡單的步驟來規劃任務[24, 25]。這種方法使代理能夠生成明確的思維鏈和動作計劃,增強其對復雜任務的理解和執行能力。通過結合這些生成技術,機器人能夠更好地處理長時程任務中的不確定性和動態交互,從而提高其在操作場景中的整體性能。 此外,生成式模型通過開發世界模型和促進動態學習,增強了機器人對物理世界的理解。通過生成中間狀態(如顯式的視覺表示[26, 27]或隱式的潛在狀態[28]),這些模型使機器人能夠預測和規劃環境中的未來事件。生成潛在未來狀態的視覺能力改進了操作任務中的規劃和決策過程。狀態生成捕捉了準確執行任務所需的基本動態,解決了復雜環境中的不確定性和變異性。這使機器人能夠在操作任務中預測并適應變化,從而提升其在動態環境中的表現。 第三,策略學習需要多模態推理能力。在機器人操作中,當前狀態可能對應多個有效動作和結果,這是由于任務復雜性和環境變異性所致。例如,杯子可以通過把手或杯身抓取,最佳選擇取決于后續任務:為杯子加水時抓取把手更合適,而將杯子遞給他人時抓取杯身更佳。確定性模型通常將輸入觀測映射到單一輸出,無法捕捉許多操作任務中固有的多模態特性。這種限制降低了適應性,并阻礙了在多樣化情境中的表現。通過依賴一對一的映射,這些模型難以表示全部可能的動作范圍,從而阻礙了更靈活和可泛化的機器人系統的開發。 生成式模型在策略學習方面展示了顯著潛力,特別是在機器人操作任務中的抓取生成和軌跡生成方面[6, 29, 30, 31]。通過對整個軌跡的動作序列建模,生成式模型實現了控制策略的聯合優化。例如,擴散模型已被應用于策略學習,能夠生成平滑且可行的運動軌跡[29]。這些模型可以結合機器人操作空間中的固有約束,如生成三維空間中有效抓取姿態的SE(3)約束[8]。這種能力通過生成高效且物理上可行的策略,增強了機器人執行精確和復雜操作任務的能力。此外,它們對多模態分布的建模能力使其能夠捕捉復雜操作任務中所需的多樣化抓取姿態和運動軌跡。 B. 綜述的結構概述 總之,生成式模型在機器人操作的多個層次上提供了解決方案:從基礎的數據和獎勵生成到高級的任務規劃和策略建模。通過解決數據不足、復雜任務規劃、低級控制和表示學習等關鍵挑戰,生成式模型為更自主、高效和強大的機器人系統鋪平了道路。已有一些綜述探討了與機器人和生成式模型相關的主題[3, 32, 33]。這些工作研究了機器人中的基礎模型以及向通用人工智能的進展。然而,尚未有綜述專門關注生成式模型如何解決機器人操作中的關鍵挑戰。本綜述聚焦于生成式模型在操作任務中的應用,試圖提供一個統一且具體的視角,闡明生成式模型在不同層次上對機器人操作的作用。通過強調生成式模型在這些特定領域中的優勢,我們旨在填補現有文獻中的空白。圖1展示了本綜述所探討方法的整體結構。 為系統理解生成式模型在機器人操作中的作用,我們將其應用分為三個層次:基礎層、中間層和策略層。這一結構反映了從基礎數據合成到高級決策再到低級控制的漸進流程。基礎層專注于生成關鍵資源,如合成數據以擴充有限數據集和獎勵信號以指導強化學習,構成模型訓練和評估的支柱。在此基礎上,中間層涵蓋語言、代碼、視覺和狀態生成等任務,使機器人能夠解釋指令、處理感知數據并推理其環境,從而連接感知與動作。最后,策略層直接解決機器人操作的核心問題,包括抓取生成和軌跡規劃,將較低層次的洞察轉化為可操作的控制策略。這一分層框架突出了這些組件的相互依賴性,確保了機器人學習和控制的全面且可擴展的方法。
具身多智能體系統(EMAS)因其在物流、機器人等領域解決復雜現實問題的潛力,吸引了越來越多的關注。近期基礎模型的進展為生成型智能體提供了更豐富的溝通能力和自適應問題解決能力,開辟了新的方向。本綜述系統性地探討了EMAS如何從這些生成型能力中受益。我們提出了一個分類法,通過系統架構和具身方式對EMAS進行分類,重點強調協作如何跨越物理和虛擬環境。接著,我們分析了感知、規劃、溝通和反饋等核心構件,展示了生成技術如何增強系統的魯棒性和靈活性。通過具體實例,我們展示了將基礎模型集成到具身多智能體框架中的變革性影響。最后,我們討論了挑戰和未來發展方向,強調了EMAS在重塑人工智能驅動協作領域的巨大潛力。
具身多智能體系統(EMAS)因其在智能交通、物流和制造等領域的巨大潛力,吸引了越來越多的關注 [YJ+13, IS+18]。通過將物理具身(從自動駕駛車輛到機器人操作臂)與多智能體系統(MAS)[DKJ18] 集成,EMAS 提供了一種去中心化、協作的方法,能夠高效地處理復雜任務。盡管這些優勢顯而易見,但設計和實現有效的 EMAS 仍然是一項非凡的挑戰,通常需要對控制論的專業知識、廣泛的訓練數據以及精心設計的強化學習范式 [LB08, OD23]。 在傳統的 MAS 中,智能體通過分配責任、共享狀態信息并共同適應動態環境來協作 [DKJ18]。雖然這些原則在某些特定領域取得了顯著成功,但傳統方法在以下方面面臨關鍵的局限性:難以推廣到新任務 [MS+22],難以擴展到大規模的智能體群體 [CTE+22],以及應對突發環境變化 [WR04]。這些方法通常依賴于狹窄訓練的模型,可能表現脆弱或僅限于特定領域 [YZ+23]。這些不足凸顯了需要更加靈活和穩健的解決方案的緊迫性,這些解決方案能夠在開放式和快速變化的具身場景中蓬勃發展。 近期基礎模型(FMs,例如大型語言模型、大型模型或視覺語言模型(VLMs))[ZLL+24] 的突破為推進 MAS 向更加自適應和生成行為的發展開辟了新的途徑。通過為智能體提供自然語言能力、情境推理以及生成新解決方案的能力,基于基礎模型的 MAS 超越了純信號驅動或強化學習框架中固有的局限性 [GCW+24, CLH+24, LP+24]。這些“生成型智能體”能夠以語義豐富的方式進行溝通,與人類級別的流暢度協作,并能夠迅速應對突發挑戰,調整策略。因此,基于 FM 的智能體可能會徹底改變多智能體協作的方式——無論是在由具身設備組成的物理空間,還是在智能體共享抽象知識和任務的虛擬空間中。 在此背景下,EMAS 領域將能夠從這些 FM 方面的最新進展中獲益。通過將物理具身與生成型多模態智能結合,未來的系統可能會采用更廣泛的設計空間,整合復雜的感知、高級語言和視覺推理能力,以及自適應決策能力。然而,現有文獻中關于具身 AI 和多智能體系統的綜述通常將這些領域視為孤立的,未能在它們的交集處進行系統性的探討 [IS+18, DYT+22, GCW+24, MS+24, HRS24]。基于 FM 的生成型智能體如何最好地融入 EMAS 的系統化視角仍在不斷發展中。 本綜述旨在提供對生成型多智能體協作在具身 AI 中現狀的全面和結構化的分析,如圖 1 所示。首先,在第 2 節中,我們提出了一種分類法,根據模型數量和具身類型對現有的 EMAS 解決方案進行分類,強調協作如何在物理智能體和純粹虛擬語義環境中產生。接下來,在第 3 節中,我們探討了多智能體協作的主要構建塊——系統感知、規劃、溝通和反饋,并分析了如何設計這些組件以利用基于 FM 的生成能力。超越理論視角,在第 4 節中,我們深入探討了實踐應用,展示了生成型多智能體協作如何增強不同具身場景中的功能。根據我們的了解,這是首次系統性地探討 MAS、具身 AI 和基礎模型的融合。最后,在第 5 節中,我們總結了開放的研究挑戰,勾畫了關鍵的未來發展方向,并討論了 EMAS 對更廣泛的 AI 和機器人領域的潛在影響。我們的目標是通過呈現這個迅速發展的領域的整體概述,來為研究人員、從業人員和利益相關者提供信息并激發靈感。
在前一節中概述的關鍵挑戰和機遇的基礎上,本節介紹了具身多智能體系統(EMAS)中的協作架構,如圖 2 所示。特別地,我們探討了生成型多智能體系統如何利用外部協作(跨多個具身實體)或內部協作(在單一具身實體內多個基礎模型之間)。我們還涵蓋了結合這些策略的混合方法,以滿足多樣化的系統需求。我們的目標是提供一種結構化的理解,說明如何協調多智能體協作,以最大化適應性、可擴展性和任務一致性,尤其是在與基礎模型(FM)集成時。
在多個具身實體之間展開的協作場景中,我們稱之為外部協作,智能體在物理或虛擬環境中互動,以實現共享的目標。借鑒長期以來的多機器人和傳統多智能體系統(MAS)文獻,外部協作可以通過集中式或去中心化策略組織。這些方法在可擴展性、通信開銷以及全局控制與局部控制之間存在不同的權衡。集中式架構 在集中式策略框架中,單一的統一模型控制多個機器人或智能體,提供集中式的任務分配和決策制定。該集中模型根據智能體的能力和系統目標分配任務,通過提供全局視角確保智能體之間的協調。已有研究探索了基于語言的任務分配方法 [LTW+24, OA+24, CYZ+24] 和基于代碼的任務分配方法 [KVM24, ZQW+24]。 集中式模型還在決策制定中發揮關鍵作用,通過整合來自所有智能體的信息來做出最終決策,確保一致性。例如,[YKC23] 使用集中式模型來確定導航目標,[TXL+20] 使用它來進行基于 3D-CNN-LSTM 的互動問答,[GAZ+24] 使用它在多機器人系統中通過引導領導機器人行動來解決死鎖問題。 集中控制策略通過使用單一模型進行任務分配和決策制定來確保協調。其優勢包括任務的最優分配和一致的決策。然而,它可能受到系統復雜性、高計算需求以及在大規模或動態環境中的可擴展性問題的限制。
在去中心化策略中,每個模型獨立控制其相應的具身實體,從而提供更大的靈活性和可擴展性。早期的研究使用強化學習進行去中心化控制,但基礎模型(FM)的興起使得智能體能夠自主處理多樣化的任務 [CJ+24],形成了更為先進的去中心化系統。 基礎模型通過利用推理能力來增強去中心化系統,基于局部部分觀察來改善個體決策。例如,[ZWL+24] 利用世界模型來輔助多智能體規劃,在該模型中,每個個體通過世界模型預測其他智能體的行為,并推斷自己的計劃。類似地,[AF+23] 引入了一個輔助的心智理論推理基礎模型來解釋合作伙伴智能體的行動和需求,從而支持個體決策。 此外,憑借基礎模型的推理和通信能力,基于FM的智能體表現出涌現的社交性。[CJ+23] 發現,當沒有明確指導采用哪種策略時,FM驅動的智能體主要遵循平均策略,這代表了智能體之間的一種平等主義組織結構。其他研究 [GHL+24, CJ+24] 強調了團隊中更為結構化角色的潛在好處。這表明,類似于人類的社會結構,FM智能體可以表現出涌現行為,通過適應組織框架來優化協作,從而增強它們在處理復雜任務時的集體能力。
外在協作涉及多個機器人和具身實體之間的合作,而內在協作則發生在單一系統的內部結構中,該系統可能包含多個基礎模型(FM)。這一概念與最近推動的各個FM模塊之間的協作工作流程密切相關,這些模塊各自專注于不同的角色,共同處理日益復雜的任務。這樣的內部協調擴展了傳統的多智能體協調概念,側重于在單一具身體內進行集中的決策。 在這一工作流程中,每個FM承擔特定的功能或角色,共同完成任務。研究已將這一范式應用于具身學習系統,例如 [QZL+24],該系統使用規劃者、部分處理器和執行者等模塊來解決Minecraft沙盒中的任務,和 [SSY+24],它將任務分解為觀察者、規劃者和執行者角色。LLaMAR [NO+24] 還采用了計劃-行動-糾正-驗證框架進行自我修正,無需預言機或模擬器。 內在協作可以通過提高規劃準確性、安全性和適應性來提升系統功能。例如,[LY+23] 使用基于FM的快思維和慢思維進行協作計劃生成和評估,而LLaMAC [ZMR+23] 則采用多個批評者和評估者來提供反饋并提高魯棒性。
在許多現實世界的應用中,嚴格區分外在協作和內在協作既不現實也沒有優勢。因此,混合協作架構結合了這些策略,利用了集中式、去中心化和內部FM工作流程的優勢。 隨著具身任務復雜性的增加,混合不同協作層次的靈活性——無論是在機器人之間,還是在智能體的內部結構中——變得越來越有價值。 內在協作通過模塊化FM增強模型能力,并且可以應用于集中式和去中心化系統。例如,CoELA [ZDS+24] 使用五個模塊——感知、記憶、通信、規劃和執行——而 [YPY+24] 為去中心化機器人協作構建了具有觀察、記憶和規劃模塊的智能體。集中式模型也可以使用模塊化FM,例如 [WTL+24],它使用任務和行動FM進行任務分配。 集中式和去中心化策略可以結合使用,不同階段的任務可以采用不同的方法。受到多智能體強化學習(MARL)中的集中訓練與去中心化執行(CTDE)框架的啟發,[CYZ+24] 和 [ZC+24] 提出了集中規劃與去中心化執行的方案,其中全球規劃指導任務執行,最大化全球監督與地方自治之間的協同效應。 通過展示這些不同的架構,我們闡明了實踐者如何在不同粒度和控制層級上有效地協調EMAS中的多智能體協作。下一節將基于這一架構視角,探討如何設計關鍵的系統組件——感知、規劃、通信和反饋——以利用基于FM的生成能力,進一步提升多智能體協作的魯棒性和適應性。
在第二節中,我們從結構層面探討了如何協調多智能體協作,接下來我們將轉向推動具身智能體之間有效團隊合作的功能性構建模塊。具體來說,我們重點介紹感知、規劃、通信和反饋機制如何被設計來利用基礎模型(FM)的生成能力。通過聚焦于這些關鍵模塊,我們展示了EMAS解決方案如何更加穩健地解讀物理環境、制定并適應計劃、交換信息,并從自身行為以及環境中迭代學習。這種方法補充了前述的協作架構,提供了一個更細化的視角,以促進具身智能體之間的動態和上下文感知協作。
盡管生成模型可以從文本和視覺中獲取語義知識,但具身智能體必須主動感知并解讀物理世界。這需要處理三維結構、動態條件和實時互動 [LCB+24]。因此,感知模塊至關重要,它將環境的詳細特征傳遞給后續的模型,確保生成能力植根于具體的上下文中 [PH+24]。
向FM提供物理上下文的最簡單方法是提供環境的口頭描述。盡管這些提示可以手動編寫,但許多方法使用自動化工具增強語言描述。例如,一些研究 [MJ+24, CZR+23] 使用視覺模型來檢測和描述物體,而其他研究 [BCF+23, HW+23] 則利用可操作性學習來豐富FM對物體在物理環境中如何被操作的理解。除了被動接收信息,最近的工作使智能體能夠決定何時以及觀察何種類型的信息,從而促進主動感知。例如,[QZL+24] 允許FM查詢經過微調的模型,獲取環境細節;這些響應逐步構建場景描述。
在多智能體系統中,協作感知旨在融合來自不同智能體的互補傳感輸入,從而提升整體性能 [YYZ+23]。在自動駕駛或無人機編隊中,這通常通過傳感器級的數據共享或輸出級融合實現 [SRC24]。在基于FM的系統中,協作智能體可以通過聚合每個智能體的本地地圖或視覺數據,共同構建環境的全局記憶。例如,[YKC23] 融合了來自多個智能體RGBD輸入的語義地圖,[TXL+20] 使用每個智能體觀察的3D重建形成共享環境的整體3D狀態和語義記憶。
規劃是多智能體具身系統的核心模塊,使得智能體能夠基于狀態、目標和個體能力進行戰略部署。有效的規劃對于任務分配、協調以及無縫整合生成FM的能力至關重要。
規劃方法通常采用基于語言或基于代碼的格式。基于語言的規劃使用自然語言引導任務流,具有直觀性和易適應性,尤其是在先進FM的出現之后 [MJ+24, YKC23]。相比之下,基于代碼的方法利用結構化編程或領域特定符號(例如PDDL)來實現更高的精確度。[KVM24] 使用Python代碼框架來描述整體任務流程,[ZQW+24] 將任務轉換為PDDL問題,以便分配給多個機器人。
除了個體決策外,多智能體協作還要求達成共識、解決沖突和共享資源。在集中式系統中,單一模型通常負責分配子任務。例如,[LTW+24] 根據每個智能體的能力生成行動列表,[OA+24] 集成FM和線性規劃來解決任務劃分,[CYZ+24] 則利用“機器人簡歷”來進行FM驅動的任務分配討論。在去中心化系統中,智能體直接溝通以優化集體計劃,并通過強大的信息交換得到支持,這將在下一小節中進一步探討。
通信是MAS的核心,使得智能體能夠共享情況更新、協調任務并達成共識。與傳統方法需要繁瑣的通信協議設計不同,生成智能體可以利用FM的零-shot語言生成能力,降低了構建高效通信接口的復雜度。 參考 [SWJ+22],我們將具身AI中的多生成智能體通信模式分為三種主要結構:
具身任務復雜且不確定,因此反饋機制對智能體改進至關重要。反饋使智能體能夠調整和優化行為,允許它們根據當前狀態、環境變化或外部指導進行持續學習。
系統反饋是指在采取行動之前由系統內部生成的信息。這涉及到智能體或集中模型重新審視其初始計劃,以識別缺陷或潛在改進之處。多個研究 [LZD+24, CYZ+24, ZMR+23] 實現了任務生成后的多智能體討論階段,通過同行反饋完善行動列表。[CAD+24] 和 [ZQW+24] 使用FM檢查器來驗證基于代碼的計劃,確保語法正確性。同時,[ZYB+24] 提出了優勢函數來評估并迭代優化計劃,[LY+23] 使用FM來預測計劃結果,隨后通過另一個FM評估計劃質量,從而推動迭代改進。
環境反饋發生在執行物理(或模擬)世界中的行動后。許多研究記錄現實世界的結果以指導未來決策。例如,[LTW+24] 和 [YPY+24] 將行動結果存儲在記憶中,以便未來規劃參考,而 [QZL+24] 和 [NO+24] 則評估失敗的根本原因并相應調整行動計劃。此外,多智能體的組織結構可以在任務執行過程中根據環境信號重新配置。[CSZ+23] 動態更新角色,[GHL+24] 使用FM批評者來評估智能體表現,甚至重新組織領導角色。
外部人類指導可以提供細致的干預和戰略方向,這是純自動化系統無法實現的。例如,[PL+23] 識別模糊或不可行的任務指令,要求人類提供幫助,而 [WHK24] 和 [RDB+23] 則結合了符合預測來衡量任務的不確定性并觸發人類幫助請求。除了請求幫助,[CK+23] 和 [SH+24] 允許人類操作者通過口頭指令實時調整機器人的動作,從而提高任務成功率。 總之,感知、規劃、通信和反饋成為將高層次協作架構轉化為實際生成多智能體解決方案的基礎支柱。無論智能體是通過分布式配置進行外在協作,還是通過單一具身內部的多個FM進行內在協作,強大的支持模塊都確保了在現實環境中的適應性和魯棒性。 下一節將深入探討具體的應用領域,展示這些功能模塊如何協同工作以應對多樣的具身任務。通過將架構原理(第2節)與模塊化功能結合,并將其植根于實際場景,我們旨在提供一個全面的視角,展示如何在EMAS中有效實現生成多智能體協作。
在前面的架構和功能模塊的基礎上,本節探討了生成式多智能體協作如何從受控的仿真環境過渡到現實世界應用。盡管許多進展是在虛擬平臺上驗證的,但這些仿真洞察為解決智能交通、家庭機器人學和具身問答等復雜問題奠定了基礎。
前面的部分介紹了多智能體協作如何在結構和功能上得到啟用。現在,仿真環境作為一個關鍵層次,用于測試這些設計,使研究人員能夠系統地改進智能體交互,而無需承擔現實世界操作的成本或風險。網格世界范式 網格世界具有基于單元格的結構,重點是決策制定和路徑規劃,同時抽象掉了物理細節。通過采用基于FM的翻譯和檢查框架,[CAD+24] 改進了多智能體在網格任務中的表現,[ZMR+23] 引入了反饋機制來增強網格運輸任務的表現。[CAZ+24] 進一步評估了在網格設置中各種基于FM的多機器人架構,強調了這些簡化的世界如何幫助快速驗證協作設計。基于游戲的協作場景 像《Overcooked》這樣的基于游戲的平臺提供了明確的規則、時間限制和智能體間強制協調的任務 [YJ+24, AF+23, ZYB+24]。FM協調還擴展到其他結構化游戲,如《Hanabi》和《Collab Games》,展示了生成式方法如何適應不同的基于團隊的挑戰。對于更具開放性的任務,《Minecraft》 [WXJ+23, PC+24] 推動了更大環境和無盡目標的應用。最近的研究 [PC+24, ZC+24, QZL+24] 聚焦于協作探索,而其他研究 [CJ+24, CSZ+23, ZMC+24] 則解決了資源收集或結構構建的問題。高級3D環境與機器人仿真 現實感仿真器旨在更緊密地模仿現實生活中的復雜性。AI2-THOR [KM+17] 提供了精細渲染的室內場景,并用于多智能體家庭任務 [KVM24, WHK24, LLG+22, SSY+24]。類似地,VirtualHomeSocial [GHL+24]、BEHAVIOR-1K [LTW+24] 和基于Habitat的基準平臺 [CYZ+24] 使智能體能夠在物體操作和導航中發展協作策略。這些平臺幫助架起了算法開發與物理部署之間的橋梁。
憑借驗證過的架構和強大的功能模塊,研究人員已開始面臨終極挑戰:將仿真學習轉化為可行的物理部署。從智能交通到家庭機器人學,以下小節展示了生成式多智能體協作如何適應現實世界的需求,突顯了這些系統的成熟度和面臨的挑戰。智能交通與配送 智能交通中的多智能體協作涵蓋了無人機/地面無人車(UAV/UGV)的協調任務,如貨物配送和環境監測。早期的研究主要利用多智能體強化學習(MARL),但現在基于FM的解決方案開始出現。[GW+24] 探討了基于FM的初步任務分配用于監視任務,[WTL+24] 將生成模型應用于跟蹤目標分配,表明基于語言的策略能夠迅速適應動態場景。家庭輔助機器人 許多3D仿真基準平臺,包括AI2-THOR和Habitat,最初是為了模擬家庭環境而設計的。家庭任務,如“清理桌子”或執行指令“打開書桌和地板燈并看電視”,要求具備強大的感知、規劃和通信能力。研究 [KVM24, WHK24, LGZL24, MJ+24, ZYB+24] 展示了多個智能體如何共享角色、解讀指令并劃分復雜任務。生成模型進一步簡化了協調,使得任務分配更具適應性,并豐富了人機交互。超越探索:具身問答(EQA) 具身問答(EQA)涉及在3D空間中的主動探索和推理。與強調物理交互的任務不同,EQA側重于信息的收集與解讀,通常需要對空間布局、物體關系或事件歷史有深刻的理解。多智能體版本通常利用基于團隊的感知來建立全局記憶和達成共識 [TGG+23, TXL+20, PD+24]。[CZR+23] 將專職功能的智能體定位在關鍵位置進行信息貢獻,展示了如何通過FM驅動的協作將觀察結果整合成連貫的答案。 本節通過強調這些仿真基準平臺和現實世界應用,突出了EMAS中的一個關鍵發展軌跡:首先通過結構化的測試平臺進行概念驗證,然后將解決方案過渡到高風險領域。既然已經明確了生成式多智能體協作可以部署的場所和方式,接下來的部分將討論剩余的挑戰,并勾畫出EMAS研究的前景。
隨著具身人工智能(AI)系統中多智能體協作領域的不斷發展,仍然存在一些開放的挑戰和有前景的未來方向。盡管取得了不少進展,但仍然存在諸多現實世界的障礙,限制了具身系統的應用。本節識別了關鍵挑戰,并概述了潛在的探索和創新領域,以應對這些問題。
一個主要的挑戰是缺乏標準化的評估標準。盡管在單一智能體系統和個體代理的基準測試方面取得了顯著進展,但對于具身多智能體協作的評估仍存在明顯的空白。現有的基準測試通常專注于特定任務的度量,未能充分考慮多智能體環境中互動、協調和涌現行為的復雜性。因此,亟需建立統一的評估標準來全面評估多智能體系統的性能,包括可擴展性、適應性、魯棒性和集體智能等因素。基準測試的發展對于確保不同領域的一致性至關重要,并能夠實現不同多智能體框架之間的有意義比較。
多智能體協作的另一個挑戰是數據稀缺性和異質性。收集具有不同物理特性和能力的多種系統的大規模、高質量數據是一項艱巨的任務。硬件、傳感器和環境交互的差異導致了數據的不一致性,這使得跨系統和任務的泛化變得困難。現實世界中可用的數據可能有限,阻礙了有效的訓練和評估。此外,由于實際限制,多數多智能體協作的研究是在仿真環境中進行的,只有少數研究采用了現實世界數據。因此,亟需建立標準化的數據收集方法,并且需要創新的方法來彌合仿真與現實應用之間的差距,連接理論與現實。
基礎模型的發展,尤其是面向具身智能體的基礎模型,預計將成為多智能體協作領域的一項突破性進展。目前,生成式智能體主要依賴FM來執行復雜任務,下一步自然是構建專門為具身系統設計的基礎模型。這些模型將作為多智能體協作的核心框架,整合感知、決策和行動。近期的工作,如RT-1 [BB+22] 和RDT [LW+24],在適應性和可擴展性系統的機器人基礎模型方面取得了顯著進展。基礎模型的演進將為更無縫的多智能體協作奠定基礎,使得智能體能夠在動態環境中進行全面的協作和工作。然而,將單智能體FM擴展到多智能體系統仍然面臨挑戰,這需要新的架構和方法。
目前,參與協作的智能體數量較少。隨著智能體數量的增加,計算、通信、協調、任務分配和資源管理的復雜性和難度也將增加。此外,在大規模多智能體系統中保持穩定性和魯棒性需要復雜的協調與調度技術。針對可擴展架構、有效的通信協議和協作策略的研究將是解鎖大規模具身系統全部潛力的關鍵。優化智能體工作流程和模式的發展對于在資源意識下擴展這些系統至關重要。
將機器人集成到以人為中心的環境中仍然是一個重要話題。在許多應用中,多智能體系統不僅需要相互協作,還需要與人類協作。確保機器人能夠在動態和非結構化的環境中與人類無縫合作,需要開發考慮人類認知能力、偏好和局限性的機器人-人類交互(HRI)協議。人機協作引入了額外的挑戰,如安全性、適應性和信任性。在人機團隊合作、共享自主性和直觀接口方面的研究將對促進機器人與人類之間的安全、富有成效的協作至關重要,特別是在醫療保健、工業自動化和服務機器人領域。
當前的具身多智能體協作方法,尤其是涉及FM的系統,通常缺乏堅實的理論基礎。盡管在開發實際系統方面取得了重大進展,但關于支配智能體交互的潛在原理和集體智能的理解仍然非常有限。對動態協作的深入理論探索,包括通信、協調和共識的作用,是推動該領域發展的關鍵。此外,具身多智能體系統和模型的可靠性與可解釋性在安全關鍵型環境中尤為重要,如自動駕駛和智能鐵路等應用場景。 6 結論
本綜述調查了一個具有潛力的研究領域——具身系統中的多智能體協作,重點探討了如何將生成式基礎模型(FM)集成到具身多智能體系統中。我們強調了基于FM的生成式智能體如何促進動態協作和涌現智能,并從內在和外在兩個角度系統地探索了多智能體協作架構,重點關注感知、規劃、通信和反饋機制等關鍵技術。通過研究從網格世界探索到家庭助理等多種應用場景,展示了基于FM的具身多智能體系統(EMAS)解決復雜問題的潛力,并討論了該領域快速發展過程中所面臨的挑戰和機遇。我們希望本綜述能為研究人員、從業者和相關方提供寶貴的參考,幫助他們全面了解當前的研究現狀,并激發更多先進且可擴展的解決方案,以實現具身多智能體AI的動態無縫協作。
摘要—隨著數據可用性的擴展,機器學習(ML)在學術界和工業界取得了顯著的突破。然而,不平衡的數據分布在各種原始數據中普遍存在,并且通過偏倚決策過程嚴重影響了機器學習的性能。為了深入理解不平衡數據并促進相關研究和應用,本文系統分析了各種現實世界的數據格式,并將現有研究針對不同數據格式的工作歸納為四個主要類別:數據重平衡、特征表示、訓練策略和集成學習。這一結構化分析幫助研究人員全面理解不平衡在不同數據格式中的廣泛存在,從而為實現特定研究目標鋪平了道路。我們還提供了相關開源庫的概述,突出當前面臨的挑戰,并提出了旨在推動該關鍵研究領域未來進展的新見解。 關鍵詞—機器學習、不平衡數據學習、深度學習。
I. 引言
隨著數據可用性的擴展,機器學習(ML)已成為學術界和工業界技術進步的前沿。這些機器學習模型被精心設計,以適應特定的數據分布,并隨后應用于各種下游任務,從預測分析到自動決策系統。因此,機器學習模型的性能受到訓練數據質量和分布的深刻影響。具有代表性、多樣化且經過精心預處理的數據確保模型不僅準確,而且在不同的環境和挑戰中具有魯棒性和廣泛的泛化能力。 然而,自然數據分布本質上復雜且經常存在缺陷。在這些挑戰中,不平衡數據分布尤其突出,反映了各個領域普遍存在和自然產生的差異。例如,在金融領域,欺詐行為的實例相較于合法交易來說相對稀少,這使得模型難以準確地檢測這些異常。在醫療領域,稀有疾病在醫學數據集中可能被低估,這為開發穩健的診斷模型帶來了重大挑戰。在工業領域,質量控制系統常常需要識別稀有的產品缺陷,而這些缺陷可能會被大量合格產品所掩蓋。這些情境不僅使機器學習模型的訓練更加復雜,而且對系統的魯棒性提出了更高要求。 通常,不平衡的數據分布顯著影響機器學習模型的性能和實用性。這些模型通常在高資源組上表現良好,這些組的數據充足,但在低資源組上表現較差,后者的數據稀缺,導致數據分布的界限模糊。因此,盡管機器學習模型可能在整體上表現令人滿意,但在這些低資源組中的有效性會顯著降低。然而,這些低資源組往往在現實世界的應用中更為重要。例如,在醫學診斷中,由于數據不足未能檢測到稀有疾病,可能導致漏診和不充分的患者護理。同樣,在金融系統中,無法識別稀有的欺詐實例可能導致重大財務損失和安全性受損。機器學習模型忽視這些稀有但關鍵的實例,降低了自動決策系統在實際應用中的效用和安全性。 為應對這些挑戰,機器學習領域已提出了一系列方法,我們將其組織為四個基本類別——數據重平衡、特征表示、訓練策略和集成學習——每個類別都與機器學習過程中的關鍵環節相對應。數據重平衡技術對于調整數據分布以更好地進行表示至關重要,采用了如過采樣少數類和欠采樣多數類等方法。這一調整對于防止模型過度偏向多數類樣本至關重要,符合機器學習中的數據準備階段。特征表示策略增強了準確捕捉和表示與少數類樣本相關信息的能力。這一改進在特征工程階段至關重要,使得模型能夠有效地從所有樣本中學習并做出預測。先進的訓練策略調整學習算法,以最小化其對多數類樣本的內在偏見。這一訓練階段的關鍵調整確保了學習過程的包容性,平等地考慮所有樣本。最后,集成方法通過組合多個模型,屬于機器學習過程中的模型集成部分。這些方法利用多個算法的優勢,以潛在地減少由不平衡數據引發的偏差,從而提高最終模型輸出的魯棒性和準確性。通過根據機器學習的基礎過程對方法進行分類,這一分類不僅有助于全面的領域調查,還闡明了這些策略背后的動機,幫助實現特定目標。此調查還探討了不平衡在不同數據格式中的表現,包括圖像、文本和圖形,突出了每種格式的差異、獨特的挑戰和所需的適應性。這一探索至關重要,因為它加深了對每種數據格式的理解,并有助于為復雜數據格式場景制定針對性的機器學習策略。 本調查的貢獻總結如下:
本調查的結構安排如下:第二節對處理不平衡問題的方法進行了詳細調查,并按我們的分類法進行組織;第三節廣泛討論了不平衡在各種數據格式中的表現;第四節對不平衡數據方法的評估指標進行了詳細研究;第五節介紹了可用于學習不平衡數據的資源;最后,第六節總結了該領域的挑戰與未來發展方向。
大型語言模型(LLMs)的快速發展為多機器人系統(MRS)開辟了新的可能性,提升了通信、任務規劃和人機交互等方面的能力。與傳統的單機器人和多智能體系統不同,多機器人系統面臨著獨特的挑戰,包括協調性、可擴展性以及實際應用中的適應性。本綜述首次全面探討了大型語言模型在多機器人系統中的集成應用。它系統地將這些應用歸類為高層任務分配、中層運動規劃、低層行動生成和人類干預等方面。我們重點介紹了多個領域中的關鍵應用,如家用機器人、建筑、編隊控制、目標跟蹤和機器人游戲,展示了大型語言模型在多機器人系統中廣泛的應用潛力和變革性價值。此外,我們還分析了限制大型語言模型在多機器人系統中應用的挑戰,包括數學推理的局限性、幻覺、延遲問題以及對強大基準測試系統的需求。最后,我們概述了未來研究的機會,強調了微調技術、推理方法和任務特定模型的進展。本綜述旨在為研究人員提供指導,助力基于大型語言模型的多機器人系統的智能化與實際部署。考慮到該領域研究的快速發展,我們將在開源Github倉庫中持續更新相關論文。 關鍵詞:大型語言模型、多機器人系統、任務分配與規劃、運動規劃、行動生成
1 引言
大型語言模型(LLMs)的快速發展已對多個領域產生了顯著影響,包括自然語言處理和機器人技術。最初,LLMs是為文本生成和補全任務設計的,但隨著時間推移,它們已發展出理解問題和解決問題的能力[83, 95]。這種發展對于提升機器人智能尤為關鍵,使得機器人能夠處理信息并據此做出協調和行動決策[36, 40]。憑借這些能力,機器人能夠更有效地解讀復雜指令、與人類互動、與機器人隊友協作,并適應動態環境[79]。隨著機器人系統向更復雜的應用發展,將LLMs集成到其中已成為一個變革性的步驟,架起了高層推理與現實世界機器人任務之間的橋梁。
另一方面,多機器人系統(MRS)由多個自主機器人協同工作組成[8, 66],在環境監測[18, 58, 74]、倉庫自動化[50, 68, 75]和大規模探索[10, 20]等應用中展現出巨大潛力。與單機器人系統不同,MRS利用集體智能實現了高可擴展性、韌性和高效性[66]。任務在多個機器人之間的分布特性使得這些系統可以通過依賴于較為簡單且專業化的機器人來降低成本,而不需要依賴單個高度通用的機器人。此外,MRS還具有更強的魯棒性,因為集體的冗余性和適應性常常可以緩解個別機器人出現故障的影響[52, 96]。這些特性使得MRS在規模、復雜性或風險超出單個機器人能力范圍的場景中變得不可或缺。
盡管如此,MRS也帶來了獨特的挑戰,例如確保機器人間的通信、在動態和不確定環境中保持協調、以及根據實時條件做出集體決策[6, 23]。研究人員正在努力將LLMs集成到MRS中,以應對與部署和協調MRS相關的獨特挑戰[13, 59]。例如,機器人間的有效溝通對于MRS而言至關重要,因為它有助于共享知識、協調任務并保持個別機器人之間在動態環境中的凝聚力[23]。LLMs可以為機器人間的通信提供自然語言接口,使得機器人能夠更直觀、更高效地交換高層信息,而不再依賴于預定義的通信結構和協議[59]。此外,LLMs的問題理解和問題解決能力可以在沒有具體指令的情況下增強MRS的適應性。當給定一個特定目標時,LLMs能夠理解任務,將其分解為子任務,并根據每個機器人團隊成員的能力將這些子任務分配給各個機器人[11, 53]。LLMs在不同背景下的泛化能力也使得MRS能夠適應新的場景,而無需進行大量的重新編程,從而在部署過程中展現出高度的靈活性[82, 92]。
LLMs在MRS中的應用也與日益增長的人機協作需求相契合[35]。由于操作員通常不具備機器人系統的專業知識,使用LLMs作為共享接口可以使操作員通過自然語言與機器人進行溝通和指令下達,從而使機器人能夠做出決策并完成復雜的現實任務[2]。這些能力提升了MRS的效率,并擴展了其在需要緊密人機協作的領域中的應用。我們的研究受到綜述文章[28]的啟發,該文章全面回顧了用于多智能體系統的LLMs,其中抽象的智能體主要扮演虛擬角色。與多機器人系統不同,多智能體系統更強調智能體的角色,而MRS則專注于機器人與物理世界之間的交互。我們發現該文章對于MRS的涵蓋較為有限,主要集中在LLM化智能體的相關工作,但仍然只是略作提及,且缺乏詳細的總結。因此,我們認為有必要總結近期在決策、任務規劃、人機協作以及任務執行方面,將LLMs應用于MRS的研究成果。圖1展示了本綜述文章中所提到的四個類別。我們希望這篇綜述能幫助研究人員了解在MRS中應用LLMs的當前進展、面臨的挑戰以及提升多機器人集體智能的潛在機會。
為了更好地為有意將LLMs應用于MRS的研究人員提供全面的介紹,我們將本綜述論文的結構安排如下:第2節介紹MRS和LLMs的背景,幫助讀者更好地理解相關主題。同時,我們還總結并比較了其他現有的關于LLMs在機器人系統和多智能體系統中應用的綜述論文,并解釋了我們在MRS領域開展研究的必要性。接下來,第3節回顧了MRS中LLMs的通信結構。第4節我們將回顧LLMs在三個層級中的應用:(1)高層任務分配與規劃,(2)中層運動規劃,以及(3)低層行動執行。接著,我們將在第5節中基于實際應用回顧LLMs在MRS中的應用。第6節總結了現有的評估LLMs在MRS中表現的基準標準以及相關的仿真環境。第7節則識別了我們面臨的挑戰與局限性,并探討了未來方向和機會,以提升LLMs在MRS協調和決策中的能力。最后,第8節為論文的總結部分。
2 背景
本節提供了關于MRS和LLMs的背景知識。盡管已有一些研究論文討論了LLMs在機器人系統中的應用,但它們并未特別關注MRS。我們將總結這些研究的貢獻,并討論為什么我們關于LLMs在MRS中的應用的綜述是必要且有影響力的。多機器人系統MRS由多個機器人組成,它們協作完成特定任務。與單機器人系統不同,MRS利用多個機器人的組合能力,以更高效、可靠和靈活的方式執行復雜任務。這些系統通常用于搜索和救援、環境監測、倉庫自動化和探索等應用,其中任務的規模或復雜性超出了單個機器人的能力。當團隊中的所有機器人相同且具有相同功能時,該團隊稱為同質多機器人團隊。相反,異質多機器人團隊由不同類型的機器人組成。MRS的優勢包括增強的可擴展性,因為任務可以分配給多個機器人,以及增加的彈性,因為一個機器人的故障通常可以由其他機器人緩解。與設計單一、高度通用的機器人相比,MRS通常依賴于更簡單、任務特定的機器人,從而降低了單個單元的成本和復雜性,同時受益于集體智能。然而,這些系統也帶來了獨特的挑戰,特別是在通信、協調和決策方面,因為機器人必須在動態和不確定的環境中協同工作。兩種主要的控制范式通常用于管理MRS中的交互和任務分配:集中式和分散式控制器。在集中式控制器中,單個控制器接收所有信息并指導系統中所有機器人的行動,從而實現優化的協調和全局規劃。然而,當團隊規模增加時,集中式系統可能成為瓶頸,并且容易受到單點故障的影響。另一方面,分散式控制器將決策分配給各個機器人,使機器人能夠彈性地操作。這種方法增強了可擴展性和彈性,但通常需要額外的復雜性來確保機器人之間的無縫通信和協調。選擇集中式還是分散式控制取決于具體的應用需求、環境條件以及效率和魯棒性之間的平衡。大型語言模型LLMs是具有數百萬到數十億參數的深度學習模型。最初,LLMs的應用是基于上下文的文本補全或從用戶指令生成文本。LLMs使用來自書籍、文章、網站和其他書面來源的大量文本進行訓練。在此訓練過程中,LLMs學習預測句子中的下一個單詞或使用注意力機制填補缺失信息。這種預訓練階段使LLMs能夠發展出對語言、語法、事實知識和推理技能的廣泛理解。
2.2.1 微調和RAG雖然LLMs在多樣化數據集上進行了預訓練以應對一般任務,但在專門任務中的表現可能不理想,因為訓練數據集可能未完全覆蓋特殊用途。人們可以準備專門用于特定任務的數據集并重新訓練模型。然而,由于計算資源有限且模型參數眾多,重新訓練整個模型通常具有挑戰性。解決此問題的一種方法是使用低秩適應(LoRA)等技術,以有限的計算資源對LLMs進行微調。LoRA凍結預訓練模型的權重,并將可訓練的秩分解矩陣注入到Transformer架構的每一層中,從而顯著減少下游任務的可訓練參數數量。另一方面,檢索增強生成(RAG)是一種替代技術,它集成了外部知識源,以提高LLMs在專門任務中的零樣本準確性。RAG解決了LLMs依賴預訓練靜態知識的關鍵限制,這些知識可能不包括特定領域或最新信息。通過將檢索機制與LLMs的生成能力相結合,RAG允許模型在運行時查詢外部數據庫或知識庫以檢索相關信息。然后,這些檢索到的數據用于指導模型的響應,從而增強其在專門上下文中的準確性和適用性。例如,RAG可以為機器人提供實時訪問任務特定知識或環境更新,從而在動態場景中實現更好的決策。盡管RAG引入了額外的復雜性,如管理檢索延遲和確保數據相關性,但它提供了一種強大的方法,彌合了靜態預訓練知識與現實世界應用動態需求之間的差距。
2.2.2 多模態LLMs傳統的LLMs擅長處理和生成文本,但在需要理解多種數據類型的場景中表現不佳。最近在多模態LLMs方面的進展通過整合多種模態解決了這一限制,使它們能夠將文本輸入與視覺、聽覺或其他感官數據結合起來。這些模型將來自不同模態的信息對齊到一個共享的語義空間中,從而實現無縫集成和上下文理解。例如,多模態LLM可以處理來自機器人攝像頭的視覺數據以及文本命令,以識別物體、導航環境或執行復雜任務。這種跨模態信息綜合能力顯著增強了它們的適用性,特別是在需要整合多種數據類型的機器人學中。通過利用多模態能力,這些模型突破了LLMs的界限,提供了新的靈活性和適應性。
3 多機器人系統中的LLM通信類型
LLMs在理解和推理復雜信息方面表現出顯著的能力。然而,它們的性能可能因所采用的通信架構而異。這種變異性在涉及具身智能體的場景中尤為明顯,其中每個智能體都使用自己的LLM進行自主決策。這些LLMs的獨立性在保持MRS的一致性、協調性和效率方面引入了獨特的挑戰。理解這些動態對于優化基于LLM的通信和決策框架在MRS中至關重要。Liu等人提供了LLM增強的自主智能體(LAAs)的全面比較,分析了將LLMs集成到智能體中的架構。雖然他們的工作主要集中在多智能體系統而非MRS,但他們對LLM架構和智能體編排的見解為多機器人應用提供了寶貴的靈感。他們的研究從一個基本結構開始,其中LLMs僅基于任務指令和觀察進行零樣本推理。然后,通過將先前的行動和觀察納入后續決策輪次中,增強了自我思考循環,以提高上下文一致性。他們通過引入少樣本提示擴展了架構,包括示例行動以增強LLMs生成有效決策的能力。關于多智能體編排,Liu等人提出了一個集中式架構,具有消息分發器,將信息傳遞給配備自己LLMs的個體智能體。這些智能體獨立處理分發的消息以生成行動。正如第4節所討論的,幾項研究采用了類似的自我思考策略來提高LLMs在協作系統中的決策一致性和可靠性。此外,Chen等人提出了四種通信架構:完全分散式框架(DMAS)、完全集中式框架(CMAS)以及兩種結合分散式和集中式框架的混合框架(HMAS-1和HMAS-2)。他們的研究評估了這些結構在倉庫相關任務中的性能,揭示了它們之間的顯著差異。對于涉及六個或更少智能體的場景,CMAS和HMAS-2表現出相當的性能,盡管CMAS需要更多的步驟來完成任務。相比之下,DMAS和HMAS-1的性能明顯較差。此外,他們的實驗表明,HMAS-2在處理更復雜任務時優于CMAS,這表明具有優化結構的混合框架為復雜多機器人操作提供了更大的可擴展性和適應性。
4 多機器人系統中的LLM應用
在本節中,我們將LLMs在MRS中的應用分為高層次任務分配、中層次運動規劃、低層次動作生成和人機交互場景。高層次任務規劃涉及需要更高智能的任務,如多機器人之間的任務分配和規劃,其中LLM需要展示邏輯推理和決策能力。中層次運動規劃指導航或路徑規劃場景。低層次動作生成使用LLMs生成并直接控制機器人的姿態或運動。另一方面,人機交互涉及使用LLMs與人類操作員互動并指導任務規劃和執行。高層次任務分配和規劃高層次任務規劃利用LLMs的高級推理和決策能力來處理復雜和戰略性任務。這種場景通常需要在機器人團隊之間分配任務、制定全面的任務計劃或解決需要上下文理解和邏輯的問題。在這里,我們探討了展示LLMs在這些復雜領域中能力的研究。最近的研究表明,LLMs能夠在多個機器人之間分配任務。Wu等人提出了一個由兩層組成的層次化LLMs框架,以解決多機器人多目標跟蹤問題。在此場景中,LLMs根據當前機器人目標之間的相對位置、速度和其他相關信息為每個機器人分配目標進行跟蹤。如圖4所示,外部任務LLM接收人類指令和長期信息作為輸入,為機器人團隊提供戰略指導和重新配置。同時,內部動作LLM以短期信息為輸入,并輸出控制參數給控制器。兩個LLMs的輸出通過優化求解器轉換為可執行動作。此外,Brienza等人將VLM和LLM應用于生成機器人足球隊的可執行計劃。他們的方法涉及為VLM教練提供包含視頻幀和相應文本提示的訓練集,詳細說明任務和約束。VLM教練生成視頻幀的示意圖描述以及高層次的自然語言計劃。兩個不同的LLMs進一步細化和同步這些高層次計劃,以生成適用于各種場景的可執行策略。在實際應用中,系統根據與實際情況的相似性選擇預收集的計劃。此外,RAG最小化了提示大小并減輕了幻覺,確保更可靠的輸出。此外,Lykov等人開發了一個MRS,用于收集和分類彩色物體集合并計數球形物體。他們的方法利用微調的LLM生成行為樹(BTs)供機器人執行任務,并向人類操作員提供有關其行為的反饋。他們實現了一個具有兩個LoRA適配器的單一LLM,每個適配器處理特定功能以提高效率和資源緊湊性。此外,Ahn等人引入了一個具有恢復機制的MRS框架。LLM控制器接收自然語言指令和低層次機器人技能庫,以生成任務執行計劃。他們系統的一個關鍵創新是檢測與預期任務進展的偏差,并通過重新規劃或尋求其他機器人或人類操作員的幫助來執行錯誤恢復。該領域的其余研究可以進一步分為兩個關鍵領域:多機器人多任務協調和復雜任務分解,突出了LLMs在MRS中的廣泛應用。
4.1.1 多機器人多任務
在多機器人多任務場景中,一個機器人團隊被分配同時完成多個目標。LLMs在此類設置中發揮著關鍵作用,設計出可執行且高效的任務分配策略。通過解釋高層次指令并理解每個任務的上下文,LLMs可以動態地在機器人之間分配任務,確保資源的優化利用和有效協作。這種能力使多機器人團隊能夠以更高的精度和適應性處理復雜的多面操作。Lakhnati等人提出了一個框架,其中三個異質機器人旨在完成由人類操作員在VR模擬中指示的復雜任務。首先,每個機器人LLM被賦予一個初始提示,以澄清其角色和能力。中央控制器LLM分析人類對任務的描述并將其分發給相應的機器人。人類操作員的指令可以直接指定每個機器人應該做什么(例如,“木星需要移動到啞鈴并撿起它,海王星和冥王星必須移動到冰箱。”)或描述任務而不分配給特定機器人(例如,“三個餐盤必須放入垃圾桶,所有代理必須最終位于垃圾桶旁邊。”)。沿著這條線,Chen等人提出了一個集中式框架,其中LLM控制器將人類指令分發給多機器人團隊。他們的目標是使異質多機器人團隊完成多個異質家庭任務。然而,他們引入的任務分配過程是“中央規劃器”LLM與每個機器人上的機器人專用代理LLM之間的討論形式。原始任務信息是從SLAM系統獲得的幾何表示,并構建為場景上下文以提示LLM。“中央規劃器”LLM首先根據其分析將每個任務分配給每個機器人。然后,每個機器人專用代理LLM根據分配的任務提供反饋,并從機器人的URDF代碼生成機器人簡歷。如果任務與機器人簡歷不匹配,它會提示“中央規劃器”進行重新分配。LLMs之間的討論繼續進行,直到不需要重新分配。Chen等人進一步研究了基于LLM的異質多任務規劃系統的可擴展性。在四個不同環境中比較了四種不同通信架構的效率和準確性,包括BoxNet、倉庫和BoxLift。結果表明,HMAS-2結構實現了最高的成功率,而CMAS是最具令牌效率的。另一方面,Gupte等人提出了一個基于LLM的框架,用于解決多機器人多人類系統的初始任務分配。在此集中式框架中,LLM首先為每個用戶的目標生成規定性規則,然后根據這些規則為每個目標生成經驗。在獲得生成的規則的實際知識后,通過推理評估LLM的性能,其中用戶提供指令,LLM根據規則和經驗分配任務。在推理階段,利用兩個不同的RAG工作流程以充分利用所獲得的知識。此外,Huang等人測試了LLMs解決多機器人旅行商問題(TSP)的能力。通過提供適當的提示,LLM為多個機器人規劃最優路徑并生成Python代碼以控制其運動。研究設置了三個框架:單次嘗試、自我調試(LLM檢查生成的Python代碼是否可以執行)和自我調試與自我驗證(LLM檢查代碼可執行性并驗證執行是否產生正確結果)。他們的工作揭示了LLMs在處理此類問題時表現不佳,只有在特定情況下(如最小-最大多機器人TSP)才能觀察到較高的成功率。
4.1.2 復雜任務分解任務分解是指MRS必須協作完成一個或多個需要仔細規劃和分工的復雜任務的情況。在這種情況下,可以利用LLM將整體任務分解為與團隊中每個機器人能力相符的較小、可管理的子任務。通過設計有效的提示,LLMs可以生成邏輯且可執行的任務分解,確保工作負載高效分配,并且機器人能夠無縫協作以實現總體目標。Kannan等人引入了SMART-LLM,這是一個利用LLMs將高層次人類指令分解為子任務并根據其預定義技能集分配給異質機器人的框架。與Chen等人不同,其中機器人能力是從其URDF代碼中推斷出來的,SMART-LLM采用更傳統的方法,通過明確定義每個機器人的技能集來進行異質任務分配。該過程涉及將指令分解為子任務,分析每個子任務所需的技能以形成聯盟,并相應地分配機器人以確保高效的任務執行。Wang等人提出了依賴感知的多機器人任務分解和執行LLMs(DART-LLM),這是一個旨在解決MRS中復雜任務依賴和并行執行問題的系統,如圖5所示。該框架利用LLMs解析高層次自然語言指令,將其分解為相互關聯的子任務,并使用有向無環圖(DAG)定義它們的依賴關系。通過建立依賴感知的任務序列,DART-LLM促進了邏輯任務分配和協調,使機器人能夠高效協作。值得注意的是,該系統在較小模型(如Llama 3.1 8B)下表現出魯棒性,同時在處理長期和協作任務方面表現出色。這種能力增強了MRS在管理復雜組合問題中的智能和效率。Xu等人提出了一個兩步框架,利用LLMs將復雜的自然語言指令轉換為MRS的分層線性時序邏輯(LTL)表示。第一步,LLM將指令分解為分層任務樹,捕捉子任務之間的邏輯和時間依賴關系以避免順序錯誤。第二步,微調的LLM將每個子任務轉換為平面LTL公式,使用現成的規劃器實現精確執行。該框架強調了時間推理在分解復雜指令中的重要性,確保長期和相互依賴的多機器人任務的準確任務分配和執行。與上述方法不同,Obata等人采用了一種略有不同的方法,提出了LiP-LLM,這是一個將LLMs與線性規劃相結合的多機器人任務規劃框架。LiP-LLM不提供端到端的任務分配和執行,而是利用LLMs生成技能集和依賴圖,映射任務之間的關系和順序約束。然后使用線性規劃優化任務分配,以優化機器人之間的任務分配。這種混合方法通過結合LLMs的解釋能力和優化技術的精確性,提高了任務執行的效率和成功率。結果表明,將LLMs與傳統優化技術相結合,可以提高MRS的性能和協調性。另一方面,Liu等人提出了COHERENT框架,該框架利用提案-執行-反饋-調整(PEFA)機制進行異質MRS中的任務規劃。PEFA過程涉及一個集中式任務分配器LLM,它將高層次人類指令分解為子目標并將其分配給個體機器人。每個機器人評估分配的子目標,確定其可行性,并向任務分配器提供反饋,從而實現任務計劃的動態調整和迭代改進。該過程與Chen等人提出的EMOS框架中的機器人討論機制相似,其中任務分解和分配利用基于機器人簡歷的具身感知推理。然而,COHERENT強調實時、反饋驅動的方法來處理任務分配和執行,使其特別適合動態和復雜的多機器人環境。不同地,Mandi等人提出了RoCo,這是一個用于多機器人協作的分散式通信架構,專注于高層次任務規劃和低層次運動規劃。在RoCo框架中,每個機器人配備一個LLM,與其他機器人進行對話以討論和完善任務策略。此對話過程產生一個提議的子任務計劃,該計劃由環境驗證其可行性。如果計劃失敗(例如,由于碰撞或無效配置),反饋將納入后續對話中以迭代改進計劃。一旦驗證通過,子任務計劃生成機器人手臂的目標配置,集中式運動規劃器計算無碰撞軌跡。RoCo強調多機器人協作中的靈活性和適應性,并使用RoCoBench基準進行評估,展示了其在多樣化任務場景中的魯棒性能。這種方法突出了分散式LLM驅動推理與集中式運動規劃在復雜動態環境中的協同作用。中層次運動規劃MRS中的中層次運動規劃包括導航和路徑規劃等任務,重點是使機器人能夠在環境中高效地移動或協調。這些場景比高層次應用更直接和實用,但對于多機器人團隊的無縫操作至關重要。LLMs通過利用其上下文理解和學習模式生成魯棒和自適應的解決方案,為該領域做出了重大貢獻。通過解釋環境數據并動態適應變化,LLMs使機器人能夠協作規劃路徑、避開障礙物并優化在共享空間中的移動。將LLMs集成到中層次運動規劃中提高了效率和彈性,使MRS在動態和不可預測的環境中更具能力。Yu等人提出了Co-NavGPT框架,將LLMs集成為多機器人協作視覺語義導航的全局規劃器,如圖6所示。每個機器人捕獲RGB-D視覺數據,將其轉換為語義地圖。這些地圖與任務指令和機器人狀態合并,構建LLMs的提示。然后,LLMs將未探索的邊界分配給個體機器人以進行高效目標探索。通過利用語義表示,Co-NavGPT增強了對環境的理解并指導協作探索。在此框架中,LLMs僅限于為每個機器人分配未探索的邊界進行導航,主要作為任務分配機制。Morad等人進一步提出了一種將LLMs與離線強化學習(RL)相結合的新框架,以解決MRS中的路徑查找挑戰。他們的方法涉及利用LLMs將自然語言命令轉換為潛在嵌入,然后與智能體觀察結果編碼以創建狀態任務表示。使用離線RL,在這些表示上訓練策略以生成理解并遵循高層次自然語言任務的導航策略。該框架的一個關鍵優勢是其能夠完全在真實世界數據上訓練策略,而無需模擬器,確保直接適用于物理機器人。LLMs的集成增強了任務指令解釋的靈活性,而RL促進了低延遲和反應性控制策略的生成,從而實現高效的多機器人導航。沿著這條線,Godfrey等人開發了MARLIN(多智能體強化學習通過基于語言的機器人間談判引導),這是一個將LLMs與多智能體近端策略優化(MAPPO)相結合的框架,以提高多機器人導航任務中的訓練效率和透明度。在MARLIN中,配備LLMs的機器人通過自然語言談判協作生成任務計劃,然后用于指導策略訓練。這種混合方法在LLM引導的規劃和標準MAPPO強化學習之間動態切換,利用LLMs的推理能力提高訓練速度和樣本效率而不犧牲性能。實驗結果表明,與傳統的MARL方法相比,MARLIN能夠實現更快的收斂和更一致的性能,并在模擬和物理機器人環境中驗證了應用。這種基于談判的規劃集成突出了將LLMs與MARL相結合以實現可擴展、可解釋的多機器人協調的潛力。另一方面,Garg等人利用LLMs解決連接的多機器人導航系統中的死鎖問題。在障礙物密集的環境中,此類系統可能會遇到低層次控制策略無法解決的死鎖。為了解決這個問題,LLM選擇一個領導者機器人并規劃其到達目標的路徑點。系統重新配置為領導者-跟隨者編隊,基于GNN的低層次控制器引導領導者沿著路徑點移動。類似地,Wu等人提出了一個中層次動作LLM,它使用短期輸入(如跟蹤誤差和控制成本)生成優化型機器人控制器的參數,使其能夠有效地跟隨規劃的路徑點。雖然上述研究主要采用集中式系統,其中LLMs處理所有機器人的規劃,但Wu等人開發了一個用于家庭任務的分散式多機器人導航系統。在此框架中,每個機器人配備一個LLM以實現通信和協作。機器人動態識別并接近分布在多個房間中的目標物體。通過通信觸發機制動態分配領導權,領導者機器人根據其收集的全局信息發出命令。這種靈活且分散的領導策略增強了協作導航場景中的適應性和效率。低層次動作生成低層次動作生成側重于在硬件級別控制機器人運動或姿態,將高層次目標轉換為精確的控制命令。這些任務對于確保在動態環境中的平穩和高效操作至關重要。雖然LLMs提供了上下文推理和適應性,但它們在低層次任務中的表現通常有限,這些任務需要高精度和實時響應能力。結合LLMs與基于優化的控制器或強化學習的混合方法顯示出在利用LLMs靈活性的同時保持可靠機器人動作所需精度的潛力。Chen等人利用LLMs解決多智能體路徑查找(MAPF)問題,其中LLMs通過逐步生成動作來主動導航機器人。每個步驟都以高層次沖突檢查器結束,以識別與機器人或障礙物的碰撞。雖然在無障礙環境中有效,但LLMs在迷宮式地圖中面臨挑戰,原因是推理能力有限、上下文長度受限以及難以理解障礙物位置。除了路徑查找,大多數關于使用LLMs進行動作生成的研究都集中在編隊控制問題上。例如,Venkatesh等人提出了一個集中式架構,其中LLMs將自然語言指令轉換為機器人配置,使群體能夠形成特定模式。盡管作為集中式控制器具有優勢,但Li等人強調了LLMs在分散式系統中的局限性。在分散式設置中,每個機器人配備自己的LLM,通過與其他機器人協調實現期望的編隊。然而,LLMs在此任務中仍然面臨挑戰。在一個測試場景中,如圖7所示,智能體被要求形成一個間距為5個單位的圓圈,智能體的LLM誤解了指令,移動到圓圈的中心而不是周邊。這種誤解導致智能體執行基于共識的行為而不是預期的群體行為,揭示了LLMs在分布式協調中的困難。Strobel等人引入了LLM2Swarm,這是一個通過兩種方法將LLMs與機器人群體集成的系統:集中式控制器合成和分散式直接集成。在集中式方法中,LLMs用于設計和驗證部署前的控制器,從而實現高效和自適應的行為生成。在分散式方法中,每個機器人都有自己的LLM實例,實現本地化推理、規劃和協作,以增強動態環境中的靈活性。結果突出了LLMs在群體機器人中的潛力,展示了它們在集中式和分散式控制范式中的適用性。Lykov等人進一步展示了LLMs在群體控制中的潛力,提出了FlockGPT,這是一個用于協調無人機群體以實現期望幾何編隊的框架。在此系統中,LLM生成有符號距離函數(SDF)以指導無人機相對于目標表面的移動,而專用控制算法管理碰撞避免等實際約束。這些研究強調了LLMs在增強集中式和分散式群體行為中的多功能性。人機交互在MRS中,LLMs通常專注于根據人類提供的指令執行任務,強調指令的解釋和自主任務完成。一旦指令交付,人類參與通常被最小化。然而,新興研究探索了需要LLMs與人類之間持續互動的場景,強調在整個任務執行過程中的合作、決策或外部觀察。這些研究突出了動態人機交互的潛力,以應對意外挑戰、完善任務策略或確保關鍵應用中的安全性。通過實現迭代式人機協作,這些方法增強了LLM驅動的MRS的適應性和可靠性。最簡單的人機交互形式由Lakhnati等人展示,其中機器人以簡單的循環運行:接收人類命令,執行相應任務,報告完成狀態,并等待下一個指令。在此基礎上,Lykov等人引入了LLM-MARS框架,使人類能夠隨時查詢每個機器人的當前狀態和任務進度。在此系統中,響應生成和任務執行均由單個LLM處理,并通過不同的LoRA適配器增強以提高效率。Hunt等人提出了一個更具交互性的方法,要求在通過LLM驅動討論生成的任何計劃執行之前獲得人類批準。如果提議的計劃被認為不合理,人類主管可以提供反饋,促使LLMs通過進一步對話完善其方法。Ahn等人引入了VADER系統,進一步增強了人類參與。當機器人遇到任務相關問題時,它會在人機艦隊編排服務(HRFS)上發布協助請求,這是一個人類操作員和機器人代理均可訪問的共享平臺。任何代理或人類都可以響應請求,一旦問題解決,機器人將恢復其任務。這些例子展示了LLM驅動的MRS中不同程度的人類參與,從簡單的命令執行到主動協作和動態問題解決。
5 應用
LLMs在MRS中的集成推動了各種應用領域的進步,每個領域都有獨特的挑戰和機遇。這些應用利用LLMs在理解、規劃和協調任務方面的能力,提供了從室內到室外場景的解決方案。LLMs的適應性推動了在需要精確導航、任務分配和動態決策的任務中的創新,展示了其在結構化和非結構化環境中解決問題的潛力。在本節中,我們根據應用場景對研究進行分類,重點關注兩個主要領域。首先,家庭領域突出了MRS在室內挑戰中的應用,如導航、任務分解和物體操作。這些系統通常強調異質機器人之間的協作,以執行復雜的任務,從在多房間設置中識別目標到組織家用電器。其次,建筑、編隊、目標跟蹤和游戲中的應用展示了LLMs在專業領域中的多功能性。這些研究展示了MRS在戶外或競爭環境中解決復雜問題的能力,如無人機編隊用于搜索和救援任務、機器人足球策略以及在危險區域中的導航。這些領域共同強調了LLMs在推動MRS能力在多樣化現實世界應用中的日益增長的影響。家庭。家庭領域代表了具有明確應用場景的研究的重要焦點,解決了諸如導航、任務分配和任務分解等挑戰。例如,Wu等人和Yu等人研究了在復雜室內環境中的導航和多目標定位,如識別分布在多個房間中的物體,展示了在空間意識和適應性方面的進步。此外,Mandi等人、Yu等人、Kannan等人和Xu等人探索了任務分解和多機器人協作,以執行復雜的任務,如準備三明治或組織洗碗機。Chen等人強調了在多層室內環境中異質MRS的任務分配,解決了動態環境中的協調挑戰。值得注意的是,他們提出了EMOS框架,這是一個具身感知的操作系統,通過新穎的“機器人簡歷”方法促進異質機器人之間的有效協作,使機器人能夠從其URDF文件中自主解釋其物理約束,而不是依賴預定義的角色。這些研究在利用多樣化機器人能力的同時解決了子任務的時間序列問題,展示了MRS在家庭環境中解決復雜現實世界問題的潛力。其他包括建筑、編隊、目標跟蹤和游戲。一些研究專注于開放世界環境中的應用,突出了LLM集成機器人系統的多功能性和創新潛力。例如,Wang等人和Sueoka等人探索了使用LLMs協調機器人系統進行挖掘和運輸任務,展示了其在建筑和復雜地形救援操作中的適用性。在無人機編隊應用中,Lykov等人強調了協調和適應性,用于戶外任務,如搜索和救援任務以及環境監測。類似地,Wu等人通過集成危險區域識別解決了開放世界目標跟蹤問題,為在危險環境中自主導航提供了魯棒的解決方案。這些場景進一步展示了LLMs在動態和結構化環境中的潛力。Brienza等人引入了LLCoach,這是一個用于機器人足球應用的框架,其中LLMs增強了戰略決策和團隊協調。這些研究共同強調了LLM驅動的MRS在解決各種復雜挑戰中的潛力。
6 LLMs、模擬和基準測試
LLMs和VLMsLLMs和VLMs通過實現高級決策、通信和感知驅動的協作,在MRS中發揮著越來越重要的作用。不同的模型提供了獨特的優勢,使其適用于特定的MRS應用。表1提供了在討論的研究中使用的LLMs和VLMs的比較總結,突出了它們在多機器人協調、規劃和感知中的貢獻。GPT是使用最廣泛的語言模型之一,如表1所示,它構成了許多引用研究的核心。其通用推理和適應性使其能夠集成到多機器人協調任務中,如任務分配和規劃、多機器人通信和人機協作。此外,GPT已擴展到VLM,用于需要整合文本和視覺輸入的應用。通過結合微調技術和視覺編碼器,GPT可以分析圖像、生成詳細描述,并無縫結合文本推理與視覺理解。這些能力使其非常適合圖像字幕、視覺問答和多模態翻譯等復雜感知驅動應用。Llama提供了一系列從輕量級小模型到強大的大規模模型的開源模型,滿足多樣化應用需求。較小模型(如Llama 3-8B)因其輕量級設計和靈活性而特別受歡迎,非常適合計算資源有限的嵌入式或分散式MRS架構。另一方面,較大模型(如Llama 3-70B)提供了增強的能力和更高的準確性,非常適合需要高級推理和詳細自然語言理解的復雜任務。Claude則優先考慮安全性、倫理AI和透明決策,使其非常適合受監管的多機器人應用。此外,Claude已擴展為VLM,進一步擴展了其多功能性。其對安全性和倫理考量的強烈關注使其成為涉及敏感視覺數據(如醫學成像或內容審核)任務的引人注目的選擇。與GPT不同,Claude的VLM實現采用以人為本的設計,強調決策透明度并最小化視覺解釋中的偏見。GPT、Llama和Claude表現出一定程度的可互換性,如幾項研究所證明的,這些研究測試了具有多個模型的架構,從而能夠對其性能進行比較分析。Falcon強調實用性,針對資源受限的環境進行了優化。例如,唯一使用Falcon的研究因其在每個機器人上運行的微計算機的計算限制而選擇它作為首選模型。PaLM以其多任務和多模態能力脫穎而出,擅長復雜推理和跨領域任務,如翻譯和圖像處理。然而,其部分閉源性質和在Google生態系統中的集成使其主要在Google DeepMind的研究中使用。此外,最近的研究探索了幾種VLMs,包括PaLI、CLIP和ViLD。PaLI由Google開發,是一個多模態模型,專為多語言和跨視覺任務(如圖像字幕和視覺問答)而設計,利用廣泛的多模態數據。同樣,CLIP由OpenAI創建,通過對比學習將圖像和文本對齊到一個共享嵌入空間中,使其特別適合零樣本任務,如圖像分類和檢索。相比之下,ViLD是Google的另一個模型,專注于零樣本物體檢測,通過將視覺特征與CLIP風格的語言對齊集成,使其能夠精確識別未見過的物體類別。模擬環境我們總結了相關工作中使用的模擬平臺,突出了它們在評估和推動該領域發展中的貢獻。AI2-THOR已在[13, 38, 81, 87]中適應MRS,以評估在復雜室內環境中操作的具身AI智能體。雖然最初設計用于單智能體任務(如物體操作和場景理解),但最近的研究擴展了其用途,包括在受限環境中的協作物體檢索、共享感知和協作規劃。物理啟發的交互使研究人員能夠在動態和物理基礎的環境中測試LLM驅動的協調策略,其中多個智能體必須導航、操作物體并動態解決沖突。PyBullet是一個廣泛用于模擬機器人系統的開源物理引擎,包括關節式機械手、輪式機器人和多智能體交互。它提供實時物理模擬,支持碰撞檢測、剛體動力學和機器人學中的強化學習。在MRS的背景下,PyBullet能夠準確建模分散式協作、物體操作和動態環境交互。BEHAVIOR-1K由Liu等人使用,作為COHERENT框架的基礎,該框架專注于大規模異質多機器人協作。該平臺促進了在復雜家庭環境中不同機器人(如機械手、移動底座)必須協調完成日常任務(如餐桌布置、物體交接和多步驟組裝過程)的訓練和評估。該基準確保LLM增強的系統能夠處理動態任務依賴性和模糊的角色分配。Pygame平臺是一個跨平臺的Python模塊集,用于編寫視頻游戲。機器人被建模為點質量實體,專注于編隊控制、分散式共識算法和無需避障的運動協調。該平臺特別適用于分析群體中的涌現行為,其中基于LLM的控制器通過簡單的局部交互引導自組織編隊。Habitat-MAS是Habitat的擴展,引入了明確的多智能體通信,用于室內導航和探索。與其前身的單智能體焦點不同,Habitat-MAS支持合作搜索、同時定位和地圖構建(SLAM)以及智能體間策略適應的研究,這對于在災難響應和服務機器人中部署多機器人探索團隊至關重要。ROS-based simulation是一個廣泛用于MRS的中間件框架,支持機器人間通信、分散式控制和實時數據共享。它提供了群體協調、協作地圖構建和分布式任務分配的基本工具。借助內置的模擬環境(如Gazebo和RViz),ROS使研究人員能夠開發和測試MRS策略,用于探索、目標跟蹤和協作操作。VR平臺引入了沉浸式模擬,用于人機協作和強化學習。這些環境用于測試人類在環控制策略,如通過自然語言指令協調倉庫物流中的機械臂和移動機器人。GAMA提供了一個適合大規模機器人交互的多智能體建模環境。它支持分布式群體智能、多智能體任務談判和行為適應在非結構化環境中的評估,使其成為測試分散式LLM驅動控制器在物流和自主車隊管理中的理想選擇。SimRobot由Brienza等人使用,專門用于機器人足球中的多機器人團隊合作。LLCoach框架使用SimRobot進行訓練,通過處理比賽數據并動態優化多智能體角色分配來增強機器人協調和戰略規劃。ARGoS由Strobel等人選擇,是一個可擴展的群體機器人研究平臺。它支持對分散式控制機制的受控實驗,包括聚集-分散行為、領導者選舉和涌現自組織。集成到ARGoS中的LLMs評估其生成自適應通信協議和處理動態環境中任務劃分的能力。這些多樣化平臺為評估LLM驅動的MRS在不同規模上提供了基本工具,從小型協作團隊到大型自主群體。通過利用這些環境,研究人員改進了多智能體協調、通信和決策策略,推動了LLMs在MRS中的集成,以實現現實世界應用。
7 挑戰與機遇
盡管LLMs在多機器人系統(MRS)中的集成取得了一定進展,但仍然存在限制其廣泛采用和有效性的重大挑戰。這些挑戰涵蓋了推理能力、實時性能和適應動態環境等多個方面。解決這些問題對于釋放LLMs在MRS中的全部潛力至關重要。本節將識別該領域面臨的關鍵挑戰,并概述未來研究的有前景的機遇,為增強LLM驅動的MRS的效用和魯棒性提供一條研究路線圖。
7.1 挑戰
數學能力不足LLMs在處理需要精確計算或邏輯推理的任務時表現較差,例如多機器人路徑規劃或軌跡優化。這一局限性降低了它們在需要高量化精度的場景中的有效性。Mirzadeh等人[60]對幾種先進的LLM進行了詳細比較和研究,調查了它們的數學理解和問題解決能力。具體來說,LLMs在回答同一問題的不同變體時表現出顯著的差異,當僅改變數值時,性能顯著下降。此外,它們的推理能力較為脆弱,通常只是模仿訓練數據中觀察到的模式,而非進行真正的邏輯推理。這種脆弱性在問題中條款數量增加時尤為明顯,即使添加的條款與推理鏈無關,性能也會下降最多65%。這些弱點在多機器人系統中尤其具有挑戰性,因為精確計算和穩健推理對于避免碰撞、空間規劃和高效任務執行至關重要。解決這些局限性對于在數學密集型應用中可靠地部署LLMs至關重要。幻覺問題LLMs容易生成看似合理但缺乏事實準確性的內容,這種現象被稱為幻覺。在MRS中,這一問題尤為嚴重,因為精確和可靠的輸出對于有效的協作和操作至關重要。根據Huang等人[32]對LLMs幻覺的全面調查,幻覺可以分為兩種主要類型:事實幻覺和忠實幻覺。事實幻覺涉及生成內容與可驗證的現實世界事實之間的差異,導致輸出不正確;忠實幻覺則發生在生成的內容偏離用戶的指令或提供的上下文時,導致輸出無法準確反映預期的信息。在MRS的背景下,這種幻覺可能導致誤解、錯誤決策和機器人之間的協調錯誤,進而可能影響任務的成功和安全。解決這些挑戰需要開發檢測和減輕幻覺的方法,確保LLMs生成的輸出既真實準確,又符合上下文。現場部署困難目前使用LLMs的選項包括基于服務器的模型,這些模型通常是封閉源代碼的,和可以在本地部署的開源模型。基于服務器的模型包括OpenAI GPT[1]、Anthropic Claude[7]和Google Gemini(前身為Bard)[25],而可以本地運行的開源LLM包括Meta Llama[17]、Falcon[3]、Alibaba Qwen[89]以及DeepSeek V3[51]和R1[27]等。基于服務器的模型需要可靠的互聯網連接來發送查詢并接收響應,因此使得在遠程位置(例如典型的現場機器人系統中)部署MRS與LLMs變得不可實現。此外,基于服務器的LLM嚴重依賴服務器的性能,服務器的故障可能會完全中斷基于LLM的系統。這一問題對于多機器人團隊尤其重要,因為LLM負責指導機器人之間的協作和決策。另一方面,本地模型雖然避免了對服務器的依賴,但需要足夠強大的硬件來本地運行LLM。相對較高的延遲實時信息交換和決策對于MRS在現實場景中的有效操作至關重要。然而,使用LLMs的一個顯著挑戰在于它們相對較高且可變的響應時間,這可能依賴于模型復雜性、硬件能力和服務器的可用性。例如,Chen等人[12]報告稱,在使用OpenAI的GPT-4進行多智能體路徑尋找的場景中,每步的響應時間在15到30秒之間,顯著影響了實時可行性。雖然在更強大的硬件上進行本地處理可以減少延遲,但這種方法成本較高,且隨著機器人數量的增加,擴展性較差。解決這一挑戰需要探索優化的LLM架構、高效的推理技術和可擴展的解決方案,在平衡計算需求與實時操作要求之間找到一個合理的折衷。缺乏基準測試性能評估對于LLMs在MRS中的新研究至關重要。然而,現有的基準測試系統主要針對室內環境和家用應用設計,這限制了它們在MRS操作的多樣化和不斷變化的場景中的適用性。由于當前的研究往往代表了將LLMs應用于MRS的初步嘗試,因此性能比較通常側重于通過與傳統方法對比來展示可行性。雖然這種方法對于建立基線具有重要意義,但未來的進展很可能會帶來顯著的性能和功能提升。一個專門針對多機器人應用的統一基準測試框架,將為研究人員提供一致的度量標準,以評估和量化進展。這樣的系統不僅能夠幫助更清晰地理解新研究的影響,還能推動標準化和跨研究的可比性,加速這一新興領域的創新。
7.2 機遇
微調與RAG在領域特定數據集上對LLM進行微調,并結合RAG技術,是提升其在多機器人應用中表現的有前景的途徑。微調允許研究人員根據特定任務調整預訓練的LLM,提高其上下文理解能力并減少幻覺等問題。RAG通過集成外部知識檢索機制,在運行時動態地為LLM提供相關信息。這些技術結合使用,能顯著提升LLMs在多樣化和復雜的多機器人場景中的準確性、可靠性和適應性。高質量的任務特定數據集創建高質量的任務特定數據集對于推動LLMs在MRS中的能力至關重要。利用更強大的模型,如最新的LLM,生成合成數據集,可以加速為特定任務或環境量身定制訓練材料的開發。這些數據集應包括多樣化的場景、注重推理的標簽和上下文特定的知識,以提高LLMs的問題解決和決策能力。任務特定數據集對于為MRS在開放世界或非結構化環境中操作做好準備尤為重要。高級推理技術提升LLMs的推理能力對于解決其在邏輯和數學任務中的當前局限性至關重要。鏈式思維(CoT)提示、帶有顯式推理標簽的微調、集成符號推理以及與強化學習(RL)的結合等技術,都能增強LLMs處理復雜多步問題的能力。通過提升推理方法,LLMs能夠更好地支持需要精確和邏輯推理的任務,如多機器人路徑規劃和協調。任務特定和輕量化模型雖然大規模的LLM在性能上具有優勢,但它們通常在資源受限的環境中不切實際。開發專門針對多機器人應用的任務特定和輕量化模型,可以緩解這一問題。像SmolVLM、Moondream 2B、PaliGemma 3B和Qwen2-VL 2B等模型,展示了如何通過更小的架構來降低計算需求和延遲,同時在特定任務中保持足夠的性能。模型蒸餾是另一種方法,通過從更強大的LLM中提取知識來增強小模型的能力,例如將DeepSeek R1中的知識蒸餾到一個小型的Qwen2.5-Math-1.5B模型中。在現場機器人部署中,平衡效率與效果是實現LLM大規模應用的關鍵。擴展到非結構化環境目前的大部分應用和基準測試主要集中在室內或結構化環境中,導致在戶外和非結構化場景中的應用存在較大空白。研究應優先擴展MRS的能力,以包括在開放世界中的操作,如農業領域、災區和遠程探索地。這些環境中的獨特挑戰,包括變化性、噪聲和不可預測的動態,將擴大LLM驅動的MRS的適用性。最新更強大的LLMs最先進的LLMs的持續發展為MRS開辟了新的可能性。像PaliGemma、Qwen、GPT o3(迷你版)和DeepSeek V3、R1等模型提供了更強的推理、理解和多任務處理能力。將這些先進的模型融入MRS研究,可以通過提供改進的基線性能并啟用創新應用來加速進展。探索它們與機器人系統的集成可以進一步推動多機器人團隊所能實現的邊界。
8 結論
本次調查提供了關于將LLMs(大語言模型)集成到多機器人系統(MRS)中的首次全面探索,這是一個處于機器人技術與人工智能交匯點的課題,正在迅速獲得關注。與一般的機器人或多智能體系統不同,MRS由于依賴于物理體現和與現實世界的互動,面臨獨特的挑戰和機遇。本文強調了LLMs如何應對這些挑戰,為MRS中的集體智能和協作提供了新的可能性。我們提出了一個結構化框架,以理解LLMs在MRS中的作用,涵蓋了高層任務分配與規劃、中層運動規劃、低層動作執行以及人類干預等內容。這個框架反映了LLMs所啟用的多樣化功能,包括分解復雜任務、協調多機器人多任務場景和促進無縫的人機互動。此外,我們還回顧了MRS在多個領域中的應用,從家務任務到建筑、隊形控制、目標追蹤以及游戲/競賽等,展示了LLMs在這些系統中的多功能性和變革潛力。將LLMs集成到MRS中的意義在于,它們能夠增強個體和集體智能,使機器人能夠在日益復雜的環境中自主運行并協同工作。隨著LLMs在日常應用中展示出其潛力,它們在機器人領域的應用承諾將為MRS帶來創新和效率的新可能性。展望未來,短期和長期的研究和發展前景都充滿了激動人心的機會。在短期內,解決基準測試、推理能力和實時性能等挑戰將是彌合實驗室模擬與現實應用之間差距的關鍵。長期的前景包括利用LLMs實現更復雜的任務,例如災難響應、太空探索和大規模自主操作,從而拓展MRS的能力邊界。我們希望本次調查能為研究人員提供有價值的資源,概述當前的進展,識別研究空白,并突出未來探索的機遇。通過推動我們對LLMs在MRS中應用的理解,我們旨在激發創新,促進跨學科合作,加速從理論研究到實際部署的轉變,造福社會。
當前的人工智能(AI)模型通常通過精細的參數調整和優化技術來提升性能。然而,模型背后的基本設計原則相對較少受到關注,這可能限制我們對其潛力和局限性的理解。本綜述探討了塑造現代AI模型的多樣化設計靈感,即腦啟發的人工智能(BIAI)。我們提出了一個分類框架,將BIAI方法分為物理結構啟發型和人類行為啟發型模型。我們還審視了不同BIAI模型在實際應用中的表現,突出其實際優勢和部署挑戰。通過深入探討這些領域,我們提供了新的見解,并提出了推動創新和解決當前領域內空白的未來研究方向。本綜述為研究人員和從業者提供了BIAI領域的全面概覽,幫助他們利用其潛力,加速AI開發的進步。
1 引言
人工智能(AI)的一個基本目標是創造能夠像人類一樣學習和思考的機器。為了實現這一目標,人工學習器在多個領域中取得了顯著的里程碑,包括目標和語音識別【131, 151】、圖像處理【115】、機器人技術【50】、醫學數據分析【161】、自然語言處理(NLP)【114】等。這些成功加速了AI的發展,使其在某些領域能夠與人類匹敵甚至超越。例如,AI模型現在在某些特定任務中表現優于人類,如語言翻譯【134】、圖像識別【63】甚至戰略游戲如國際象棋和圍棋【155】。最近,許多公司提出了一系列能夠理解圖像、音頻、視頻和文本的多模態模型,其能力類似于人類【3, 7, 169】。這種快速的進步彰顯了AI在各個領域中的變革潛力,推動了技術能實現的邊界。然而,旨在創造具有類似人類思維和推理能力的機器的一般AI方法在可擴展性、魯棒性、能效、可解釋性、學習效率和適應性方面仍然存在局限性【98】。 人類大腦被認為是最復雜的信息處理系統,能夠解決諸如學習、推理和感知等復雜任務。基于對人腦研究的最新進展,研究人員正在將神經科學的見解整合到AI系統中,旨在開發能夠更接近人類行為的感知、推理和行動的腦啟發人工智能(BIAI)系統【128, 163】。這一努力源于對生物智能的基本原理的理解,并希望利用這些原理來構建更智能、適應性更強和更魯棒的AI系統。什么是腦啟發人工智能(BIAI)?BIAI指的是從人類大腦和神經系統的生物結構、功能和原理中獲得靈感的AI系統和算法。它專注于復制或模仿生物體中觀察到的復雜過程和功能,以在人工系統中實現更類似于人類或大腦的行為【197】。與一般AI算法相比,BIAI通常集中于人類行為的特定方面,如從經驗中學習、適應新環境以及關注重要信息。在這篇全面綜述中,BIAI文獻大致分為物理結構(PS)啟發型模型和人類行為(HB)啟發型模型。PS啟發型模型是指模仿生物神經元、突觸和神經回路結構的模型,用于執行諸如學習、推理和決策等任務。代表性模型包括多層感知器(MLP)、人工神經網絡(ANNs)以及最近的脈沖神經網絡(SNNs)。HB啟發型模型被定義為復制人類行為中觀察到的生物機制和過程的模型。這些模型旨在捕捉生物系統的動態,同時提供對人類如何感知、學習、適應和與環境互動的見解。注意力機制、遷移學習和強化學習是常見的人類行為啟發的深度學習方法。BIAI與一般AI的區別在于它們在AI領域中的不同方法和目標【31, 77】。具體而言,一般AI并不一定受到人類大腦具體工作方式的啟發,而是旨在更廣泛的意義上達到或甚至超越人類水平的智能。相反,設計BIAI系統的目的是復制或模仿人類認知背后的生物機制和過程。這些系統通常在圖像識別和機器人控制等任務中表現出色,但它們可能不具備人類智能的全方位能力。BIAI與傳統AI的更全面比較見表1。為什么BIAI重要?BIAI的重要性主要體現在兩個方面。一方面,BIAI在適應性、泛化能力和可解釋性等許多方面有潛力超越傳統的AI方法。另一方面,BIAI模型旨在模仿大腦的結構和功能,從而增加其生物學的合理性。這種與生物學原理的契合不僅加深了我們對智能的科學理解,也為神經科學和AI研究之間的合作創造了新的機會。本質上,通過從人類大腦——最先進的信息處理系統——中汲取靈感,研究人員正在為開發可能達到甚至超越人類能力的智能系統奠定基礎【47, 103, 125】。
人類大腦是生物復雜性的頂峰。它不僅調節所有身體功能和過程,還使高級認知能力得以實現,如思維、記憶和情感【16】。將神經科學與AI系統相結合有助于解決許多現實應用中的緊迫問題和某些瓶頸【204】。一方面,人類大腦在處理大量信息時效率極高,同時消耗的能量相對較少。模仿其架構和過程可以使AI系統在操作上同樣高效和優雅。例如,傳統機器人無法在復雜環境中及時獲取環境知識,這限制了其做出準確快速決策的能力。此外,在該領域中,低學習效率、泛化能力差、難以制定目標導向的策略以及對動態環境的慢適應性等問題仍然存在。將BIAI整合到機器人系統中可以顯著提高機器人的運動和操控能力【132】。此外,BIAI還可以應用于解決許多其他現實問題,如醫學診斷、自動駕駛汽車、聊天機器人和虛擬助手、網絡威脅檢測、輔導系統、供應鏈優化、內容創作和個性化推薦。這些應用突顯了BIAI在不同方面的廣泛影響和相關性。另一方面,理解大腦的機制不僅為我們提供了有關智能如何產生的見解,還為解決AI中的復雜問題提供了線索。通過研究生物神經網絡,研究人員可以開發更好地捕捉認知和感知復雜性的算法和架構。例如,神經網絡作為AI的基礎和基本模型之一,汲取了大腦結構和計算過程的靈感。作為現代AI的基石,神經網絡推動了醫療、金融、交通和娛樂等領域的進步。它們從數據中學習并揭示有價值的見解的能力使其成為解決復雜挑戰和推動AI創新的關鍵。此外,人類大腦具有顯著的魯棒性和適應性,能夠從經驗中學習,處理噪聲和不確定數據,并將知識泛化到新情境【41】。通過模仿大腦的彈性和適應性,BIAI旨在創造更為魯棒和多功能的AI系統。這種方法還強調了透明性、可解釋性和責任感,從而優先考慮倫理AI的發展。以生物系統為模型的智能化推動了可信賴且符合人類價值觀的AI的創建。盡管BIAI在推動AI和機器人技術方面具有巨大的潛力【102】,但它也面臨著一些挑戰和局限性。人類大腦是一個極其復雜的器官,擁有數十億的神經元和數萬億的突觸,這些神經元和突觸組織成復雜的網絡,控制著認知、感知和行為。在人工神經網絡(ANNs)中復制這種復雜性帶來了巨大的計算和工程挑戰【160】。由于人腦的復雜性,盡管經過了數十年的研究,我們對大腦的理解仍然不完整。許多大腦功能方面,如學習、記憶和意識,仍然理解不充分【152】。這種理解的缺乏使得將神經科學的見解轉化為BIAI的實際算法和架構的努力變得更加復雜。此外,BIAI模型的復雜性和不透明性妨礙了我們理解其決策過程的能力。這種明顯缺乏可解釋性和透明性的情況在安全關鍵型應用(如醫療保健和自動駕駛車輛)中引發了對責任感、偏見和可信賴性方面的重大擔憂【78, 91】。這些不足促使我們對BIAI進行全面研究。在文獻中,已有幾篇綜述論文從不同的應用場景和不同的視角調查了BIAI的算法。然而,大多數研究僅關注某一特定方面,如算法、應用場景或代價函數,缺乏對當前BIAI研究進展的詳細介紹和討論的全面綜述。在這篇綜述文章中,我們基于算法的靈感來源和學習機制對當前BIAI研究進行了分類和審視。對于每個BIAI算法,在介紹其特點和適用場景后,我們討論了其優缺點。然后,我們討論了當前BIAI模型的開放問題,并列出了幾個未來的研究方向。我們希望這篇全面綜述能為相關領域的研究人員提供有用的見解。
之前的研究涵蓋了腦啟發/類腦學習或計算范圍內的類似主題【62, 74, 132, 149】,但沒有一篇集中探討神經科學為AI模型帶來的具體知識,也沒有全面詳細地介紹BIAI系統。在【132】中,作者試圖總結腦啟發算法在智能機器人中的進展,深入探討了視覺認知、情感調節決策、肌肉骨骼機器人技術和運動控制等關鍵領域。Ou等人【122】介紹了類腦計算模型和芯片、它們的演變歷史、常見應用場景和未來前景。Hassabis等人【62】探討了AI與神經科學之間的歷史聯系,并研究了受人類和其他動物神經計算研究啟發的AI的最新進展。在【106】中,作者展示了機器學習和神經網絡如何改變動物行為和神經成像研究領域。關于人工神經網絡中的腦啟發學習,可以在【149】中找到生物學基礎和算法介紹。這篇綜述主要集中在如何從人類大腦的物理結構中學習。然而,沒有一篇綜述注意到并審視了受人類行為和學習機制啟發的AI模型。此外,他們也未全面討論AI可以從人類大腦和神經系統中學習哪些部分來設計模型。在本綜述中,我們主要回答以下問題:什么是BIAI?BIAI與一般AI有什么區別?BIAI能為我們帶來哪些優勢?我們可以從人類大腦的哪些角度來設計AI模型?哪些BIAI模型已經在現實世界中使用?引入BIAI可以進一步推動哪些研究領域?當將神經科學與AI模型相結合時,研究人員面臨哪些挑戰?當前BIAI技術中存在哪些差距,未來可以在哪些方面開展工作?通過回答這些問題,我們希望研究人員能夠加深對BIAI系統的理解,并提高他們為不同應用設計更合適的BIAI算法的能力。
本文的覆蓋范圍如圖1所示。我們的主要貢獻總結如下:
摘要——大型語言模型(LLMs)的快速進展有潛力革新各個領域,但其迅猛發展在監督、倫理開發和建立用戶信任方面帶來了顯著挑戰。本綜述全面調研了LLMs中的關鍵信任問題,重點關注意外傷害、缺乏透明性、易受攻擊、人類價值觀對齊和環境影響等問題。我們強調了可能破壞用戶信任的諸多障礙,包括社會偏見、決策過程中的不透明性、潛在的濫用以及技術快速演變帶來的挑戰。隨著LLMs在金融、醫療、教育和政策等敏感領域的普及,解決這些信任差距至關重要。 為了解決這些問題,我們建議采用綜合方法,包括倫理監督、行業問責、監管和公眾參與。我們主張重塑AI開發規范、對齊激勵措施,并在整個機器學習過程中整合倫理考量,這需要技術、倫理、法律和政策等不同領域專業人士的密切合作。我們的綜述通過提供一個評估LLMs信任的強大框架和對復雜信任動態的深入分析,為該領域作出了貢獻。我們提供了上下文化的指南和標準,旨在負責任地開發和部署這些強大的AI系統。 本綜述識別了在開發可信AI過程中面臨的關鍵限制和挑戰。通過應對這些問題,我們的目標是創建一個透明、負責的AI生態系統,在帶來社會利益的同時將風險降至最低。我們的研究成果為研究人員、政策制定者和行業領導者提供了寶貴的指導,幫助他們在各類應用中建立對LLMs的信任,并確保其負責任地使用造福社會。 關鍵詞——AI治理、算法偏見、可解釋的AI、大型語言模型、可信的AI。
人工智能(AI)的發展顯著受到了作出基礎性貢獻的關鍵人物的影響。AI的創始人約翰·麥卡錫提出了“人工智能”一詞,并倡導使用數學邏輯來表示知識,開創了知識表示領域。他還開發了LISP,這是一種對AI進展至關重要的編程語言[1]。麻省理工學院計算機科學與人工智能實驗室的聯合創始人馬文·明斯基通過理論AI研究推動了對機器智能和推理的理解[2]。由麥卡錫、明斯基、內森尼爾·羅切斯特和克勞德·香農提出的1956年達特茅斯會議是AI歷史上的一個關鍵時刻,將該領域從理論概念轉向實際應用[3]。這一時期見證了啟發式搜索技術和早期機器學習模型的進步,展示了AI向實際應用的轉變。
1970年代后期,AI進展放緩,被稱為“第一次AI寒冬”。這是由于未能達到預期和計算能力有限導致資金和興趣的減少。1980年代見證了向實際AI應用的轉變,如專家系統和自然語言處理,為大型語言模型(LLMs)奠定了基礎,推進了AI對語言理解和生成的能力。盡管在AI寒冬期間面臨挑戰,早期的專家系統在AI商業化方面起到了關鍵作用[4]。
最近的AI進展歸因于廣泛的數據集和日益增加的計算能力,特別是GPU的使用。這些因素在推動深度學習技術的發展中起到了關鍵作用,顯著影響了計算機視覺和語音識別[5],[6]。另一個重要的里程碑是語言模型的創建,這些模型能夠處理和生成類人文本,從而擴展了AI的能力。深度神經網絡(DNNs)和LLMs的有效性導致了AI在醫療、金融、交通和零售等各個行業的廣泛采用,提高了效率和數據處理能力[8]-[10]。神經網絡(NNs)用于分析大量數據集并識別模式,而LLMs則用于為自動化客戶服務的聊天機器人提供動力[11]-[14]。這些技術革新了不同領域的技術互動,凸顯了深度學習和語言模型對AI進展的重大影響[9]。 DNN架構,包括LLMs,導致了“黑箱”問題,使得理解其工作原理及其結果變得困難[15]。雖然像決策樹這樣的簡單AI模型是透明的,但LLMs缺乏透明性,這在用于決策時引發了倫理問題。挑戰在于使這些系統更透明和可理解,同時考慮到潛在的偏見和錯誤。解決這些問題的努力包括開發使算法過程更透明的方法,但這在AI倫理和治理中仍然是一個重大挑戰[16]。要更好地理解這一點,請參見圖1,它展示了AI的演變和信任挑戰。
時間軸展示了AI在醫療、金融、交通、零售和電子商務領域的日益擴大影響。LLMs在利用先進的語言生成技術變革內容創建方面處于領先地位。時間軸強調了AI中的信任和監督挑戰以及建立信任策略的重要性[17],[18]。它揭示了AI進展與政策和治理發展之間的差距。
LLMs的最新進展改善了其語言生成能力,但其復雜性阻礙了我們對其決策過程的理解。黃和王在2023年的調查[19]強調了解釋性對LLMs的重要性,特別是在需要透明度和信任的關鍵行業。主要發現包括:a)用于基于神經網絡的NLP模型的事后解釋工具如InSeq工具包;b)模型校準和不確定性估計技術;c)用于擴展和推理的指令微調LLMs研究,問題回答中的元推理;d)LLMs的數學推理能力,語義解析魯棒性研究,減少LLM使用危害的舉措,Aug-imodels等框架[19]用于高效和可解釋的模型,評估代碼訓練的LLMs,以及e)改進LLM推理性能的Chain-of-Thought樞紐措施。他們的研究強調了解釋性對LLMs的倫理和實際重要性。在LLMs被集成到多種應用中時,提供可理解和可解釋的響應是重要的。增強模型設計和交互、提高魯棒性和效率、指導訓練技術都是理解LLM操作的好處。他們的調查是揭開LLM復雜性的一個重要貢獻,為在醫療、金融和法律領域透明和倫理部署LLM奠定了基礎。它為未來研究奠定了基礎,以彌合原始LLM輸出與人類可理解解釋之間的差距。持續開發LLM解釋性對推進AI技術的可信性和可及性至關重要。
A. 構建大型語言模型的信任
黃和王的調查工作[19]及更廣泛的解決“黑箱”問題的努力指明了清晰的前進方向。然而,我們需要一種綜合方法,考慮倫理、技術和政策,以構建AI系統的信任,尤其是像LLMs這樣復雜的模型。 1)LLMs的倫理問題:LLMs在醫療、金融、政策制定和法律系統等領域的日益使用引發了關于隱私、偏見、公平和問責的倫理問題,原因是它們具有先進的自然語言能力。 LLMs可能會因為訓練文本數據中包含敏感信息而損害隱私。這可能導致隱私泄露,例如暴露醫療保健中的機密患者數據或在數據分析中泄露敏感的客戶記錄。為減少這些風險,有必要避免將個人可識別信息納入模型,并評估其隱私影響。確保LLM系統中的透明性和用戶對其數據的控制至關重要。明確的數據隱私指南和法規對于與用戶建立信任至關重要[20]-[30]。 偏見是LLMs的另一個倫理問題。它指的是LLMs在訓練數據中反映和延續的偏見,這可能導致偏見輸出或決策,損害邊緣化群體。性別、種族或文化偏見可能影響LLM模型,導致不公平或刻板印象的輸出和歧視性決策。例如,一個以人力資源為重點的LLM助手可能會對某些群體不利。為解決這一問題,公司應建立多元化的審查委員會,并定期使用偏見檢測工具審核LLM輸出[31]-[33]。 LLMs的另一個倫理問題是公平性,指的是公正待遇。LLM系統必須避免偏見并確保公平,通過公正對待每個人來實現。不公平的LLM模型可能會加劇不平等并造成傷害。例如,在公共政策中使用LLMs評估貸款或抵押申請可能會加劇經濟不平等。實現LLMs的公平性需要防止數據和算法中的偏見,使用對抗性去偏技術,并使用明確定義的指標持續評估公平性[34]-[37]。 問責在LLM系統中至關重要[38]-[40]。由于其復雜的推理過程,LLMs在醫療、司法和就業等影響人們生活的領域中尤其難以追究責任。用戶和利益相關者應知道誰對開發、部署和維護負責。他們應有錯誤、偏見或傷害的申訴機制。組織應建立明確的責任制和透明的治理,包括AI倫理委員會、模型性能的詳細記錄和跟蹤,以及關于LLM系統開發和部署的全面報告。 訓練和運行如GPT-3之類的LLMs需要大量的計算資源,導致高能耗和碳排放[41]。例如,GPT-3的訓練消耗了大約1287 MWh的電力,產生了502公噸的CO2排放,相當于112輛燃油車一年的排放。推理過程可能比訓練消耗更多的能量,估計約60%的AI能量用于推理,40%用于訓練[42]。一次ChatGPT請求的能耗可能是一次谷歌搜索的100倍。盡管LLMs目前對整個ICT行業的排放貢獻不到0.5%,對全球總排放的貢獻不到0.01%,但其影響正在迅速增加[43],[44]。為了促進AI的可持續性,行業應優先透明測量能耗和排放,利用可再生能源數據中心,開發更高效的AI硬件和算法,啟用排放跟蹤功能,并考慮轉向較小的專用模型而非大型通用LLMs。盡管LLMs目前對全球排放的貢獻很小,但其日益廣泛的使用需要積極努力減輕其環境影響,確保AI發展惠及世界而不加劇氣候變化。AI社區、政府和科技公司之間的合作對于實現更可持續的AI未來至關重要[45],[46]。
2)信任基礎上的LLMs技術進步:LLM系統需要解決技術挑戰以建立信任,例如解釋性。解釋性指的是理解和解釋LLM系統的決策過程。透明性通過使用戶理解系統的推理并識別潛在的偏見或錯誤來建立信任。可解釋的LLM系統可以幫助識別倫理問題并提供決策見解[20],[47],[48]。 可解釋AI(XAI)技術對于理解LLMs及建立其復雜系統的信任至關重要。注意力機制提供了對模型預測的見解[49],但其解釋可能存在爭議[50]。更可靠的方法如綜合梯度[51]和代理模型[52]提供了特征相關性的量化指標,增強了我們對模型決策的理解。最新進展應用電路分析[53]來分解復雜的黑箱LLMs為可解釋的元素,提供了模型操作的詳細見解。使用提示技術生成的模型解釋允許全面的因果敘述[54]。然而,重要的是嚴格評估這些解釋的準確性和有用性[55]。使用各種XAI方法對于LLM的負責任使用至關重要。清晰的解釋通過描述模型的能力、局限性和風險來幫助建立終端用戶的信任[56]。它們對于調試[57]、識別偏見[58]和促進倫理使用至關重要。隨著LLMs的進步,開發可解釋的LLMs至關重要。這在技術上具有挑戰性,但在倫理和研究上必不可少。定制的XAI技術需要在各個層次提供解釋,反映模型的邏輯以增強用戶信心、確保安全并指導AI的倫理使用。
另一個技術挑戰是數據偏見。數據偏見指的是LLM訓練數據中的不公平偏向或歧視。它可能導致有偏見的結果并延續社會不平等。解決數據偏見需要采取措施,如數據審計、預處理以減輕偏見以及多樣化訓練數據集以實現代表性和包容性。明確定義的指標可以幫助評估LLM系統的公平性、準確性、可靠性和透明性,提供其倫理表現的量化指標[20],[37],[47],[48]。
最新研究探索了通過解決幻覺和缺乏可解釋性等問題來提高LLMs可信度的技術[59]。他們提出了一種稱為圖上的推理(RoG)的方法,通過知識圖譜與LLMs協同進行真實和可解釋的推理。在其檢索-推理優化方法中,RoG使用知識圖譜檢索推理路徑,以便LLMs生成答案。RoG中的推理模塊使LLMs能夠識別重要的推理路徑并提供可解釋的解釋,增強了AI系統的可信度。通過專注于知識圖譜中的推理過程并提供透明的解釋,像RoG這樣的方法展示了建立LLMs信任的有希望的方向[59]。
具有可靠日志記錄的可解釋系統增強了透明性、審計和問責制[60]。文檔和日志記錄提供了對決策過程的見解,支持錯誤解決,并確保遵守倫理和法規標準,從而建立用戶信任。這些機制使技術和非技術利益相關者能夠理解AI系統的內部運作,并確定影響其輸出的因素。
3)用戶信任的心理因素:用戶對LLMs的信任在很大程度上取決于心理因素,而不僅僅是技術的可靠性[61]-[65]。用戶必須對LLM系統的可靠性、準確性和可信度有信心。通過有效的溝通和透明性可以實現這一點。組織應清楚地傳達LLM系統的能力和局限性,提供有關系統工作原理和決策方式的信息。此外,組織應對其數據收集和使用實踐保持透明,讓用戶了解他們的數據如何被使用和保護。
4)信任基礎上的LLMs政策與治理:有效的治理對于管理部署LLM系統相關的倫理、技術和問責問題至關重要[36],[40],[47],[61],[66]-[69]。應建立結構和流程,以確保LLM系統的倫理和負責任開發、部署和監控。涉及關鍵利益相關者,如AI倫理委員會、監管機構和行業專家,可以提供指導和監督。為了確保公平和無偏見的決策,必須包括用戶反饋和多樣化的觀點。為了建立對LLMs的信任,我們必須解決解釋性和數據偏見等技術問題,同時建立強有力的治理框架。
5)社會經濟影響:必須評估LLMs的社會經濟影響,以了解其對勞動力和社會的影響。LLMs可能會取代人類工人,導致失業和社會動蕩。需要投資于技能發展,以幫助工人適應變化。再培訓計劃和其他培訓可以使工人能夠與LLMs協同工作或從事新角色。應實施優先考慮工作保障和社會支持的政策,以減輕影響。探索LLMs的潛在社會福利,如增加信息獲取,可以促進更包容的社會。在設計和實施LLMs時,倫理考量和負責任的部署至關重要。應建立促進透明、問責和公平的政策和法規。對LLMs影響的仔細考慮、技能發展的投資和負責任的部署對于對社會產生積極影響至關重要[70]-[72]。
B. 本綜述的主要貢獻
本綜述對AI系統的信任進行了全面分析,重點關注LLMs。通過審查倫理、技術和社會因素,我們為負責任的AI開發討論作出了貢獻。我們的綜述提供了應對構建AI系統信任挑戰的見解和建議,特別是LLMs。主要貢獻如下所述。
? 綜合評估框架:本綜述提供了一個用于分析高級AI系統,特別是LLMs中的算法偏見和漏洞的分類法。該框架由八個視角組成,涵蓋透明性、魯棒性、人類價值對齊和環境影響等方面。此方法使得能夠對LLMs的信任進行徹底評估,解決其開發和部署中的問題。通過整合多種視角,該框架提供了LLM可信度的全貌,對負責任的AI作出了重要貢獻。 ?** 綜合信任動態分析**:本綜述審查了影響用戶對AI系統信任的因素,包括心理、倫理、技術和政策方面。通過分析AI能力、法規和社會接受度的交叉點,識別了實現可信AI的障礙。此研究揭示了信任動態,為從事負責任的AI開發和實施的研究人員、政策制定者和行業專業人士提供了指導。 ? 針對LLMs的上下文化指南和標準:本綜述審查了現代AI系統,特別是不透明模型如LLMs的倫理指南和政策標準的應用。倫理指南在確保AI使用的責任方面發揮重要作用。然而,LLMs由于其類人文本生成和缺乏透明性,面臨獨特的挑戰,這使得理解和解釋其行為變得困難。本綜述探討了在實際LLM部署中實施倫理原則的實際意義,考慮了技術限制、社會影響和潛在風險。它識別了局限性并提供了解釋和操作化LLM開發和部署倫理指南的見解。目標是通過突出差距并倡導完善LLM特定指南來促進AI治理,促進AI使用的透明性、公平性和問責制。
C. 本綜述的局限性
本綜述對AI信任進行了全面審查,特別關注LLMs。然而,重要的是要承認我們研究的局限性。我們的分析基于現有的AI倫理和信任領域的文獻和研究,包括專門針對LLMs的相關工作。因此,本綜述可能無法完全捕捉這些快速發展的領域中最新的想法或進展。
我們的分析范圍限于學術出版物和行業報告,這限制了所考慮的觀點范圍。對于LLMs,這尤為相關,因為本綜述可能未包括未出版的研究或不太知名的觀點,這些觀點可能提供寶貴的見解。此外,鑒于AI技術發展和LLMs倫理考慮不斷演變的速度,本綜述中提出的一些討論和結論可能會隨著時間的推移而變得不再相關。盡管我們的綜述旨在涵蓋AI,包括LLMs,越來越多部署在高風險領域中的情況,但它并未詳盡地解決所有與LLMs相關的信任方面或行業特定挑戰。本綜述中提出的解釋和分析基于撰寫時可獲得的最佳數據和研究。讀者在評估這些發現和建議時應考慮這些局限性。
需要強調的是,本綜述的目標是對AI和LLMs的信任進行全面審查,同時保持對分析范圍的透明度。我們旨在通過探索現有的指南和框架、討論構建LLMs信任的方法和挑戰以及提出未來研究方向,為AI信任和倫理的持續對話作出貢獻。我們鼓勵在可能探索較少或快速發展的領域進行進一步研究和對話,因為這些討論對于AI系統負責任的開發和部署至關重要。在本綜述中,我們創建了一個敘述,捕捉了AI信任的當前狀態及其領域中的潛在發展。然而,AI倫理和信任的領域是復雜和多面的,我們的綜述可能未涵蓋每一個細微差別或觀點。盡管如此,我們希望這項工作能為研究人員、政策制定者和從業人員在應對與AI和LLMs信任相關的挑戰和機遇時,提供有價值的資源。
近年來,大型語言模型(LLM)的集成徹底改變了機器人技術領域,使機器人能夠以類似人類的熟練程度進行交流、理解和推理。本文探討了LLM對機器人學的多方面影響,討論了利用這些模型的關鍵挑戰和機遇。通過對LLM在機器人核心元素——通信、感知、規劃和控制中的應用進行分類和分析,我們旨在為尋求將LLM集成到其機器人系統中的研究者提供可行的見解。
我們的研究主要集中在GPT-3.5之后開發的LLM上,主要是基于文本的模式,同時也考慮了用于感知和控制的多模態方法。我們提供全面的指導原則和示例,以便初學者能夠輕松接觸基于LLM的機器人解決方案。通過教程級別的示例和結構化的提示構建,我們展示了如何將LLM引導的增強功能無縫集成到機器人應用中。本綜述為研究人員在不斷發展的LLM驅動的機器人技術領域中的導航提供了路線圖,提供了全面的概述和實用的指導,以利用語言模型在機器人開發中的潛力。
在過去的十年中,我們見證了機器人學領域在應用語言模型(LMs)方面取得了顯著的進展。這些進展不僅包括類似人類的交流能力,還包括機器人的理解和推理能力,從而顯著提高了它們在從家庭雜務到工業操作等各種任務中的效率。在早期工作中,這些成功源于統計模型分析和預測語言表達中的詞匯。這些模型使機器人能夠解釋人類命令,理解上下文,表征世界,并與人類互動,盡管理解的深度有限。隨后,采用了具有自我注意機制的Transformer架構,尤其是像BERT這樣的預訓練語言模型,提高了捕捉復雜模式的能力,同時為特定任務進行微調。然而,這些模型的性能通常取決于有限的數據集,限制了它們把握更深層次上下文理解和在不同場景中泛化的能力。
隨著大型語言模型(LLMs)的發展,基于語言的機器人引入了各個領域的創新變化,如信息檢索、推理任務、環境適應、持續學習和改進等。這些LLMs,以其龐大的參數規模和在互聯網規模數據集上的訓練為特征,為下游任務提供了零次和少次學習能力,而不需要額外的參數更新。這些顯著的進步來自于文獻中定義為“在小模型中不存在但在大模型中出現的能力”的突現能力。這些能力顯著增強了機器人在理解、推斷和響應開放式指令方面的性能,利用了廣泛的常識知識。此外,稱為提示工程的提示創建技術使LLMs能夠通過自由形式的語言描述或互動對話,整合更豐富的上下文信息,促進了泛化推理。引入上下文學習能力使LLMs能夠根據提供的指示或示例中的提示生成預期格式的輸出,如JSON、YAML或PDDL,甚至代碼。最近的LLMs,如GPT-4,通過與外部機器人工具(如規劃器或翻譯器)的整合,進一步擴展了能力。
盡管LLMs具有多樣的能力,但它們的利用面臨幾個挑戰。首先,LLMs經常生成不準確或意外的響應。由于機器人執行的安全性是最重要的部署因素,基于LLM的機器人應用需要過濾和糾正機制以確保安全。其次,如上下文學習等突現能力尚不可預測且不一致。即使是對輸入文本的輕微更改也可能導致響應的不可預測變化。第三,精心設計的提示使機器人能夠有效地利用LLMs的能力,但缺乏支持機器人系統關鍵組件的系統化指導,阻礙了無縫集成。因此,我們需要研究LLMs在機器人中的逐部件參與,以了解其限制和安全性。 當前,各種綜述已開始探索LLMs與機器人的交集,主要關注LLM驅動的機器人應用或互動維度。然而,仍然存在在機器人系統的關鍵元素,包括通信、感知、規劃和控制方面提供全面評論和可操作見解的空白。此外,研究者們還在探索廣泛的預訓練大容量模型領域,稱為基礎模型,尋求跨模態Transformer模型的泛化能力。然而,這一廣闊領域涵蓋了廣泛的機器人學和多樣的方法論,使得新興研究者錯過深入的評論和指導。 在本文中,如圖1所示,我們旨在分類和分析LLMs如何增強機器人系統的核心元素,以及我們如何指導新興研究者在每個領域內整合LLMs,以促進智能機器人的發展。我們根據三個關鍵問題結構化本文: ? Q1: LLMs在每個機器人領域中如何被利用? ? Q2: 研究人員如何克服LLMs的集成限制? ? Q3: 在每個領域產生最低功能所需的基本提示結構是什么?
為了回答這些問題,我們專注于在引入GPT-3.5之后開發的LLMs。我們主要考慮基于文本的模式,但也審查了感知和控制領域的多模態。然而,為了進行深入審查,我們將調查限制在LLMs而非基礎模型上。 此外,我們提供了全面的提示工程指南和示例,旨在使初學者能夠訪問基于LLM的機器人解決方案。我們的教程級示例展示了如何通過引入四種類型的示例提示——對話提示用于互動定位,指令提示用于場景圖生成,計劃提示用于少次計劃,以及代碼生成提示用于獎勵生成——增強或替換機器人組件的基本功能。通過提供提示構建的規則和技巧,我們概述了生成預期格式輸出的良好設計提示的過程。這些原則確保了機器人應用中有效的LLM引導增強,無需參數調整。
本文的其余部分安排如下。第2節概述了機器人學中LMs和LLMs的歷史背景。第3節評審了LLMs賦能機器人通過語言理解和生成進行交流的方式。第4節調查了LLMs如何感知各種傳感器模態并推進感知行為。第5節和第6節分別組織了基于LLM的計劃和控制研究。在第7節中,我們提供了提示工程的全面指南,作為LLM在機器人中集成的起點。最后,第8節總結了這篇綜述。
近期在基礎模型上的發展,如大型語言模型(LLMs)和視覺-語言模型(VLMs),它們基于大量數據訓練,促進了跨不同任務和模態的靈活應用。它們的影響覆蓋了多個領域,包括健康護理、教育和機器人技術。本文提供了基礎模型在現實世界機器人應用中的概覽,主要強調在現有機器人系統中替換特定組件。總結包括了基礎模型中輸入輸出關系的視角,以及它們在機器人技術領域內的感知、運動規劃和控制中的作用。本文最后討論了實際機器人應用面臨的未來挑戰和含義。
近期在人工智能領域的進步顯著擴展了機器人的操作能力,使它們能夠承擔多種多樣的活動【1-5】。雖然最初機器人的部署主要限于大規模生產環境【6-11】,但現在工業機器人的適用性已經擴展到小批量和高多樣性生產領域,包括室內空間和災難現場【12-15】。這種擴散不僅僅限于環境多樣性的增加;它還擴展到了任務范圍的擴大,包括日常活動,如整理【16-18】、洗滌【19,20】、擦拭【21,22】和烹飪【23,24】。機器學習為滿足這些機器人系統的需求提供了一種方式。然而,僅僅在特定領域數據上訓練每個模型對于多樣的機器人、任務和環境來說是不夠的。越來越多地需要開發可以使用單一的、預訓練的系統或模塊應用于各種機體、任務和環境的機器人。 解決這一挑戰的一個方案是引入基礎模型【25】。基礎模型是在大量數據上訓練的模型,可以通過上下文學習、微調或甚至零樣本的方式輕松應用于廣泛的下游任務【26,27】。顯著的例子包括大型語言模型(LLMs)如GPT【27】和視覺-語言模型(VLMs)如CLIP【28】,其中語言是結合各種類型模態的粘合劑。這些基礎模型的影響是顯著的,有幾篇綜述文章討論了它們在不同領域的影響【29-32】。Wang等人【29】和Zeng等人【30】進行了關于大型語言模型在機器人學中應用的綜述,而Firoozi等人【31】和Hu等人【32】進行了更廣泛的綜述,關注于基礎模型在機器人學中的應用。在本文中,我們總結了基礎模型對現實世界機器人的適用性,旨在加速它們在實際機器人應用中的采用。與其他綜述文章相比,我們提供了如何從基礎模型的輸入輸出關系以及機器人學中的感知、運動規劃和控制的角度,用基礎模型替換現有機器人系統中的特定組件的總結。 本研究的結構如圖1所示。在第2節中,我們將描述基礎模型本身。特別地,我們將根據它們使用的模態類型,例如視覺【33,34】、語言【35-41】等,以及它們可以應用的下游任務類型進行分類。在第3節中,我們將基于當前應用【2,3,42】描述如何將基礎模型應用于機器人學。一般來說,機器人需要配備感知模塊、規劃模塊和控制模塊。從這個角度,我們分類了可以將基礎模型應用于現實世界機器人學的方式,包括低級感知、高級感知、高級規劃和低級規劃。此外,我們還將解釋在訓練直接連接低級感知和低級規劃的映射時,對機器人學的數據增強。在第4節中,我們將描述包括機器人實體在內的基礎模型,即機器人基礎模型,包括關于如何就模型架構、數據集和學習目標制作這些機器人基礎模型的討論。在第5節中,我們將描述使用基礎模型的機器人、任務和環境。我們將任務分類為導航、操縱、帶有操縱的導航、運動和交流。最后,我們將討論未來的挑戰并提出我們的結論。
“基礎模型”一詞最初在【25】中被引入。在這項綜述中,我們將簡單描述在機器人應用中使用的基礎模型的類型,以及下游任務,將關于基礎模型本身的討論推遲到【25】。在2012年,深度學習因ILSVRC-2012比賽的獲勝模型而獲得機器學習社區的主流關注【43】。2017年,由【44】介紹的Transformer模型,促進了自然語言處理(NLP)【45】和計算機視覺【46】領域的重大進步。到2021年,一個經過大量數據訓練、能夠輕松應用于廣泛下游任務的模型被稱為“基礎模型”【25】。基礎模型的特點主要有三個:
上下文學習 * 規模定律 * 同質化
上下文學習使得僅用幾個例子就能完成新任務成為可能,無需重新訓練或微調。規模定律允許隨著數據、計算資源和模型大小的增加而持續提升性能。同質化允許某些基礎模型架構以統一的方式處理多種模態。 在這一章中,我們從在機器人學中的適用性的角度對基礎模型進行分類。機器人利用基礎模型的最關鍵標準是選擇使用哪些模態。本章從語言、視覺、音頻、3D表示和各種其他模態的角度討論了基礎模型的類型和它們可以執行的下游任務。在利用每種模態的背景下,我們進一步從網絡輸入和輸出的角度對基礎模型進行分類。概覽顯示在圖2中。請注意,我們的目標不是在這里全面覆蓋基礎模型;我們的重點仍然在于解決模態差異和基礎模型的分類。
通常,機器人的行為由感知、規劃和控制組成。在本研究中,我們將感知分為兩個類別:低級感知和高級感知。同時,我們將規劃和控制分別稱為高級規劃和低級規劃。加上對學習這些組成部分的數據增強,我們將機器人對基礎模型的利用分為以下五個類別。 * 低級感知 * 高級感知 * 高級規劃 * 低級規劃 * 數據增強
這些類別之間的關系如圖3所示。用于低級感知的基礎模型包括在圖像或3D表示中的語義分割和邊界框提取,以及在各種模態中的特征提取。用于高級感知的基礎模型涉及將從低級感知獲得的結果轉換和利用成如地圖、獎勵和運動約束等形式。用于高級規劃的基礎模型執行更高級別的抽象任務規劃,不包括直接控制。用于低級規劃的基礎模型執行較低級別的運動控制,包括關節和末端執行器控制。用于數據增強的基礎模型在執行連接低級感知和低級規劃的學習時,通過數據增強增強魯棒性。 在實踐中,通過組合這五種利用方法創建了各種應用。主要分為四種類型,如圖4所示。 (i) 進行低級感知,然后用高級規劃規劃行為。 (ii) 通過低級感知和高級感知提取獎勵和運動約束,并用于強化學習和軌跡優化。 (iii) 通過低級感知和高級感知生成地圖、場景圖等,并將它們作為任務規劃的基礎。 (iv) 使用數據增強,穩健地進行直接關聯低級感知的特征提取和控制輸入的端到端學習。 值得注意的是,也有一些研究方法不適用于這一框架。 從這些角度出發,我們選取了幾篇具有代表性的論文并在表1中進行了總結。