可解釋人工智能(XAI)在生物醫學圖像分析中變得越來越重要,以促進透明度、信任和深度學習模型的臨床應用。盡管已有多篇綜述回顧了XAI技術,但它們往往缺乏基于模態的視角,忽視了多模態和視覺-語言范式的最新進展,并且在實踐指導上提供的內容有限。本綜述通過全面且有結構的總結,填補了這一空白,專門針對生物醫學圖像分析的XAI方法進行探討。我們系統地對XAI方法進行了分類,分析了它們在生物醫學背景下的基本原理、優點和局限性。提出了一種以模態為中心的分類法,將XAI方法與特定的影像類型對接,突出了不同模態間的可解釋性挑戰。我們還進一步探討了多模態學習和視覺-語言模型在可解釋生物醫學AI中的新興作用,這是前期研究中較少涉及的話題。我們的貢獻還包括對廣泛使用的評估指標和開源框架的總結,以及對持續存在的挑戰和未來方向的深入討論。本綜述為推動生物醫學圖像分析中的可解釋深度學習提供了及時且深入的基礎。
城市系統是復雜系統的典型代表,其中基于物理建模與人工智能(AI)的融合為提升預測精度、可解釋性與決策支持能力提供了極具前景的新范式。在這一背景下,人工智能擅長捕捉復雜的非線性關系,而物理模型則確保結果符合現實世界的物理規律,并提供可解釋的見解。 本文系統回顧了物理引導人工智能(Physics-Informed AI)在城市應用中的研究進展。我們提出了一種分類體系,將現有方法劃分為三種主要范式:物理-融合AI(Physics-Integrated AI)、物理與AI混合集成(Physics-AI Hybrid Ensemble)、AI-融合物理模型(AI-Integrated Physics),并進一步詳述了七類具有代表性的方法。這一分類體系厘清了物理與AI融合的不同程度與方向,為基于具體應用需求和數據可用性選擇與發展合適的方法提供指導。 我們系統梳理了物理引導AI在八大關鍵城市領域中的應用:能源、環境、經濟、交通、信息、公共服務、應急管理以及城市系統整體層面。分析表明,這些方法通過結合物理規律與數據驅動模型,有效應對城市挑戰,提升了系統的可靠性、效率與適應性。 通過綜述現有方法及其城市應用,我們識別出當前研究中的關鍵空白,并提出未來的研究方向,為構建新一代智能城市系統建模方法奠定基礎。
附加關鍵詞:城市系統,物理引導人工智能,人工智能,物理理論
物理學與人工智能(AI)的融合正推動科學研究范式的重大轉變。2024年諾貝爾物理學獎和化學獎分別授予與人工智能相關的成果和科學家【115】【114】,突顯了這一趨勢。這不僅體現了AI方法的深遠影響,也進一步強調了將物理與數據科學相結合在解決復雜系統問題方面的巨大潛力。
物理學通過嚴謹的數學表達與理論體系為解釋世界提供了堅實基礎,而人工智能則憑借其強大的模式提取與預測建模能力,已成為現代科學研究中的重要工具。這兩種范式在不同領域中各有優勢:例如,牛頓力學通過精確的數學公式表達自然規律【112】,而蛋白質結構預測【114】與天氣預報【15】等領域則高度依賴高效的數據驅動建模【54】。
城市系統具有多維復雜性和動態交互特性,傳統基于物理模型的方法或純粹的數據驅動方法往往難以應對這些挑戰【39, 202】。尤其是在涉及非線性關系的任務中,如交通流動或人口遷移,AI方法展現出強大的能力,能夠從大規模歷史數據中提取復雜模式并實現高精度預測。AI在處理大規模異構數據方面也表現出色,廣泛應用于智能交通、電力系統和應急響應等領域,支持實時決策并增強系統響應能力【138】。
值得注意的是,許多城市問題在本質上受物理機制的主導,例如流體力學【172】、熱傳導【144】、污染物擴散【106】、重力驅動流動【153, 210】等。因此,在城市系統中開發物理引導AI方法具有重要意義。本文提出了一個系統的融合框架,用以梳理和分析物理引導AI在城市系統中的發展。
此外,我們將城市系統劃分為七大核心子系統,涵蓋從能源與環境等基礎層,到公共服務和應急管理等上層服務領域。我們系統性地考察了各子系統中物理機制與數據特征之間的交互關系,并探討相應的融合建模需求。
本文結構安排如下:第二章介紹物理引導AI方法的整體框架,并詳述七類代表性融合方法;第三章闡述七大關鍵城市子系統及其背后的物理原理,突出在復雜城市建模中引入物理知識的必要性;第四章按子系統展開綜述,探討主要研究挑戰并總結現有融合方法的實際應用;第五章討論并展望未來研究方向;第六章為全文結語。
大型語言模型(LLMs)的快速發展為多機器人系統(MRS)開辟了新的可能性,提升了通信、任務規劃和人機交互等方面的能力。與傳統的單機器人和多智能體系統不同,多機器人系統面臨著獨特的挑戰,包括協調性、可擴展性以及實際應用中的適應性。本綜述首次全面探討了大型語言模型在多機器人系統中的集成應用。它系統地將這些應用歸類為高層任務分配、中層運動規劃、低層行動生成和人類干預等方面。我們重點介紹了多個領域中的關鍵應用,如家用機器人、建筑、編隊控制、目標跟蹤和機器人游戲,展示了大型語言模型在多機器人系統中廣泛的應用潛力和變革性價值。此外,我們還分析了限制大型語言模型在多機器人系統中應用的挑戰,包括數學推理的局限性、幻覺、延遲問題以及對強大基準測試系統的需求。最后,我們概述了未來研究的機會,強調了微調技術、推理方法和任務特定模型的進展。本綜述旨在為研究人員提供指導,助力基于大型語言模型的多機器人系統的智能化與實際部署。考慮到該領域研究的快速發展,我們將在開源Github倉庫中持續更新相關論文。 關鍵詞:大型語言模型、多機器人系統、任務分配與規劃、運動規劃、行動生成
1 引言
大型語言模型(LLMs)的快速發展已對多個領域產生了顯著影響,包括自然語言處理和機器人技術。最初,LLMs是為文本生成和補全任務設計的,但隨著時間推移,它們已發展出理解問題和解決問題的能力[83, 95]。這種發展對于提升機器人智能尤為關鍵,使得機器人能夠處理信息并據此做出協調和行動決策[36, 40]。憑借這些能力,機器人能夠更有效地解讀復雜指令、與人類互動、與機器人隊友協作,并適應動態環境[79]。隨著機器人系統向更復雜的應用發展,將LLMs集成到其中已成為一個變革性的步驟,架起了高層推理與現實世界機器人任務之間的橋梁。
另一方面,多機器人系統(MRS)由多個自主機器人協同工作組成[8, 66],在環境監測[18, 58, 74]、倉庫自動化[50, 68, 75]和大規模探索[10, 20]等應用中展現出巨大潛力。與單機器人系統不同,MRS利用集體智能實現了高可擴展性、韌性和高效性[66]。任務在多個機器人之間的分布特性使得這些系統可以通過依賴于較為簡單且專業化的機器人來降低成本,而不需要依賴單個高度通用的機器人。此外,MRS還具有更強的魯棒性,因為集體的冗余性和適應性常常可以緩解個別機器人出現故障的影響[52, 96]。這些特性使得MRS在規模、復雜性或風險超出單個機器人能力范圍的場景中變得不可或缺。
盡管如此,MRS也帶來了獨特的挑戰,例如確保機器人間的通信、在動態和不確定環境中保持協調、以及根據實時條件做出集體決策[6, 23]。研究人員正在努力將LLMs集成到MRS中,以應對與部署和協調MRS相關的獨特挑戰[13, 59]。例如,機器人間的有效溝通對于MRS而言至關重要,因為它有助于共享知識、協調任務并保持個別機器人之間在動態環境中的凝聚力[23]。LLMs可以為機器人間的通信提供自然語言接口,使得機器人能夠更直觀、更高效地交換高層信息,而不再依賴于預定義的通信結構和協議[59]。此外,LLMs的問題理解和問題解決能力可以在沒有具體指令的情況下增強MRS的適應性。當給定一個特定目標時,LLMs能夠理解任務,將其分解為子任務,并根據每個機器人團隊成員的能力將這些子任務分配給各個機器人[11, 53]。LLMs在不同背景下的泛化能力也使得MRS能夠適應新的場景,而無需進行大量的重新編程,從而在部署過程中展現出高度的靈活性[82, 92]。
LLMs在MRS中的應用也與日益增長的人機協作需求相契合[35]。由于操作員通常不具備機器人系統的專業知識,使用LLMs作為共享接口可以使操作員通過自然語言與機器人進行溝通和指令下達,從而使機器人能夠做出決策并完成復雜的現實任務[2]。這些能力提升了MRS的效率,并擴展了其在需要緊密人機協作的領域中的應用。我們的研究受到綜述文章[28]的啟發,該文章全面回顧了用于多智能體系統的LLMs,其中抽象的智能體主要扮演虛擬角色。與多機器人系統不同,多智能體系統更強調智能體的角色,而MRS則專注于機器人與物理世界之間的交互。我們發現該文章對于MRS的涵蓋較為有限,主要集中在LLM化智能體的相關工作,但仍然只是略作提及,且缺乏詳細的總結。因此,我們認為有必要總結近期在決策、任務規劃、人機協作以及任務執行方面,將LLMs應用于MRS的研究成果。圖1展示了本綜述文章中所提到的四個類別。我們希望這篇綜述能幫助研究人員了解在MRS中應用LLMs的當前進展、面臨的挑戰以及提升多機器人集體智能的潛在機會。
為了更好地為有意將LLMs應用于MRS的研究人員提供全面的介紹,我們將本綜述論文的結構安排如下:第2節介紹MRS和LLMs的背景,幫助讀者更好地理解相關主題。同時,我們還總結并比較了其他現有的關于LLMs在機器人系統和多智能體系統中應用的綜述論文,并解釋了我們在MRS領域開展研究的必要性。接下來,第3節回顧了MRS中LLMs的通信結構。第4節我們將回顧LLMs在三個層級中的應用:(1)高層任務分配與規劃,(2)中層運動規劃,以及(3)低層行動執行。接著,我們將在第5節中基于實際應用回顧LLMs在MRS中的應用。第6節總結了現有的評估LLMs在MRS中表現的基準標準以及相關的仿真環境。第7節則識別了我們面臨的挑戰與局限性,并探討了未來方向和機會,以提升LLMs在MRS協調和決策中的能力。最后,第8節為論文的總結部分。
2 背景
本節提供了關于MRS和LLMs的背景知識。盡管已有一些研究論文討論了LLMs在機器人系統中的應用,但它們并未特別關注MRS。我們將總結這些研究的貢獻,并討論為什么我們關于LLMs在MRS中的應用的綜述是必要且有影響力的。多機器人系統MRS由多個機器人組成,它們協作完成特定任務。與單機器人系統不同,MRS利用多個機器人的組合能力,以更高效、可靠和靈活的方式執行復雜任務。這些系統通常用于搜索和救援、環境監測、倉庫自動化和探索等應用,其中任務的規模或復雜性超出了單個機器人的能力。當團隊中的所有機器人相同且具有相同功能時,該團隊稱為同質多機器人團隊。相反,異質多機器人團隊由不同類型的機器人組成。MRS的優勢包括增強的可擴展性,因為任務可以分配給多個機器人,以及增加的彈性,因為一個機器人的故障通常可以由其他機器人緩解。與設計單一、高度通用的機器人相比,MRS通常依賴于更簡單、任務特定的機器人,從而降低了單個單元的成本和復雜性,同時受益于集體智能。然而,這些系統也帶來了獨特的挑戰,特別是在通信、協調和決策方面,因為機器人必須在動態和不確定的環境中協同工作。兩種主要的控制范式通常用于管理MRS中的交互和任務分配:集中式和分散式控制器。在集中式控制器中,單個控制器接收所有信息并指導系統中所有機器人的行動,從而實現優化的協調和全局規劃。然而,當團隊規模增加時,集中式系統可能成為瓶頸,并且容易受到單點故障的影響。另一方面,分散式控制器將決策分配給各個機器人,使機器人能夠彈性地操作。這種方法增強了可擴展性和彈性,但通常需要額外的復雜性來確保機器人之間的無縫通信和協調。選擇集中式還是分散式控制取決于具體的應用需求、環境條件以及效率和魯棒性之間的平衡。大型語言模型LLMs是具有數百萬到數十億參數的深度學習模型。最初,LLMs的應用是基于上下文的文本補全或從用戶指令生成文本。LLMs使用來自書籍、文章、網站和其他書面來源的大量文本進行訓練。在此訓練過程中,LLMs學習預測句子中的下一個單詞或使用注意力機制填補缺失信息。這種預訓練階段使LLMs能夠發展出對語言、語法、事實知識和推理技能的廣泛理解。
2.2.1 微調和RAG雖然LLMs在多樣化數據集上進行了預訓練以應對一般任務,但在專門任務中的表現可能不理想,因為訓練數據集可能未完全覆蓋特殊用途。人們可以準備專門用于特定任務的數據集并重新訓練模型。然而,由于計算資源有限且模型參數眾多,重新訓練整個模型通常具有挑戰性。解決此問題的一種方法是使用低秩適應(LoRA)等技術,以有限的計算資源對LLMs進行微調。LoRA凍結預訓練模型的權重,并將可訓練的秩分解矩陣注入到Transformer架構的每一層中,從而顯著減少下游任務的可訓練參數數量。另一方面,檢索增強生成(RAG)是一種替代技術,它集成了外部知識源,以提高LLMs在專門任務中的零樣本準確性。RAG解決了LLMs依賴預訓練靜態知識的關鍵限制,這些知識可能不包括特定領域或最新信息。通過將檢索機制與LLMs的生成能力相結合,RAG允許模型在運行時查詢外部數據庫或知識庫以檢索相關信息。然后,這些檢索到的數據用于指導模型的響應,從而增強其在專門上下文中的準確性和適用性。例如,RAG可以為機器人提供實時訪問任務特定知識或環境更新,從而在動態場景中實現更好的決策。盡管RAG引入了額外的復雜性,如管理檢索延遲和確保數據相關性,但它提供了一種強大的方法,彌合了靜態預訓練知識與現實世界應用動態需求之間的差距。
2.2.2 多模態LLMs傳統的LLMs擅長處理和生成文本,但在需要理解多種數據類型的場景中表現不佳。最近在多模態LLMs方面的進展通過整合多種模態解決了這一限制,使它們能夠將文本輸入與視覺、聽覺或其他感官數據結合起來。這些模型將來自不同模態的信息對齊到一個共享的語義空間中,從而實現無縫集成和上下文理解。例如,多模態LLM可以處理來自機器人攝像頭的視覺數據以及文本命令,以識別物體、導航環境或執行復雜任務。這種跨模態信息綜合能力顯著增強了它們的適用性,特別是在需要整合多種數據類型的機器人學中。通過利用多模態能力,這些模型突破了LLMs的界限,提供了新的靈活性和適應性。
3 多機器人系統中的LLM通信類型
LLMs在理解和推理復雜信息方面表現出顯著的能力。然而,它們的性能可能因所采用的通信架構而異。這種變異性在涉及具身智能體的場景中尤為明顯,其中每個智能體都使用自己的LLM進行自主決策。這些LLMs的獨立性在保持MRS的一致性、協調性和效率方面引入了獨特的挑戰。理解這些動態對于優化基于LLM的通信和決策框架在MRS中至關重要。Liu等人提供了LLM增強的自主智能體(LAAs)的全面比較,分析了將LLMs集成到智能體中的架構。雖然他們的工作主要集中在多智能體系統而非MRS,但他們對LLM架構和智能體編排的見解為多機器人應用提供了寶貴的靈感。他們的研究從一個基本結構開始,其中LLMs僅基于任務指令和觀察進行零樣本推理。然后,通過將先前的行動和觀察納入后續決策輪次中,增強了自我思考循環,以提高上下文一致性。他們通過引入少樣本提示擴展了架構,包括示例行動以增強LLMs生成有效決策的能力。關于多智能體編排,Liu等人提出了一個集中式架構,具有消息分發器,將信息傳遞給配備自己LLMs的個體智能體。這些智能體獨立處理分發的消息以生成行動。正如第4節所討論的,幾項研究采用了類似的自我思考策略來提高LLMs在協作系統中的決策一致性和可靠性。此外,Chen等人提出了四種通信架構:完全分散式框架(DMAS)、完全集中式框架(CMAS)以及兩種結合分散式和集中式框架的混合框架(HMAS-1和HMAS-2)。他們的研究評估了這些結構在倉庫相關任務中的性能,揭示了它們之間的顯著差異。對于涉及六個或更少智能體的場景,CMAS和HMAS-2表現出相當的性能,盡管CMAS需要更多的步驟來完成任務。相比之下,DMAS和HMAS-1的性能明顯較差。此外,他們的實驗表明,HMAS-2在處理更復雜任務時優于CMAS,這表明具有優化結構的混合框架為復雜多機器人操作提供了更大的可擴展性和適應性。
4 多機器人系統中的LLM應用
在本節中,我們將LLMs在MRS中的應用分為高層次任務分配、中層次運動規劃、低層次動作生成和人機交互場景。高層次任務規劃涉及需要更高智能的任務,如多機器人之間的任務分配和規劃,其中LLM需要展示邏輯推理和決策能力。中層次運動規劃指導航或路徑規劃場景。低層次動作生成使用LLMs生成并直接控制機器人的姿態或運動。另一方面,人機交互涉及使用LLMs與人類操作員互動并指導任務規劃和執行。高層次任務分配和規劃高層次任務規劃利用LLMs的高級推理和決策能力來處理復雜和戰略性任務。這種場景通常需要在機器人團隊之間分配任務、制定全面的任務計劃或解決需要上下文理解和邏輯的問題。在這里,我們探討了展示LLMs在這些復雜領域中能力的研究。最近的研究表明,LLMs能夠在多個機器人之間分配任務。Wu等人提出了一個由兩層組成的層次化LLMs框架,以解決多機器人多目標跟蹤問題。在此場景中,LLMs根據當前機器人目標之間的相對位置、速度和其他相關信息為每個機器人分配目標進行跟蹤。如圖4所示,外部任務LLM接收人類指令和長期信息作為輸入,為機器人團隊提供戰略指導和重新配置。同時,內部動作LLM以短期信息為輸入,并輸出控制參數給控制器。兩個LLMs的輸出通過優化求解器轉換為可執行動作。此外,Brienza等人將VLM和LLM應用于生成機器人足球隊的可執行計劃。他們的方法涉及為VLM教練提供包含視頻幀和相應文本提示的訓練集,詳細說明任務和約束。VLM教練生成視頻幀的示意圖描述以及高層次的自然語言計劃。兩個不同的LLMs進一步細化和同步這些高層次計劃,以生成適用于各種場景的可執行策略。在實際應用中,系統根據與實際情況的相似性選擇預收集的計劃。此外,RAG最小化了提示大小并減輕了幻覺,確保更可靠的輸出。此外,Lykov等人開發了一個MRS,用于收集和分類彩色物體集合并計數球形物體。他們的方法利用微調的LLM生成行為樹(BTs)供機器人執行任務,并向人類操作員提供有關其行為的反饋。他們實現了一個具有兩個LoRA適配器的單一LLM,每個適配器處理特定功能以提高效率和資源緊湊性。此外,Ahn等人引入了一個具有恢復機制的MRS框架。LLM控制器接收自然語言指令和低層次機器人技能庫,以生成任務執行計劃。他們系統的一個關鍵創新是檢測與預期任務進展的偏差,并通過重新規劃或尋求其他機器人或人類操作員的幫助來執行錯誤恢復。該領域的其余研究可以進一步分為兩個關鍵領域:多機器人多任務協調和復雜任務分解,突出了LLMs在MRS中的廣泛應用。
4.1.1 多機器人多任務
在多機器人多任務場景中,一個機器人團隊被分配同時完成多個目標。LLMs在此類設置中發揮著關鍵作用,設計出可執行且高效的任務分配策略。通過解釋高層次指令并理解每個任務的上下文,LLMs可以動態地在機器人之間分配任務,確保資源的優化利用和有效協作。這種能力使多機器人團隊能夠以更高的精度和適應性處理復雜的多面操作。Lakhnati等人提出了一個框架,其中三個異質機器人旨在完成由人類操作員在VR模擬中指示的復雜任務。首先,每個機器人LLM被賦予一個初始提示,以澄清其角色和能力。中央控制器LLM分析人類對任務的描述并將其分發給相應的機器人。人類操作員的指令可以直接指定每個機器人應該做什么(例如,“木星需要移動到啞鈴并撿起它,海王星和冥王星必須移動到冰箱。”)或描述任務而不分配給特定機器人(例如,“三個餐盤必須放入垃圾桶,所有代理必須最終位于垃圾桶旁邊。”)。沿著這條線,Chen等人提出了一個集中式框架,其中LLM控制器將人類指令分發給多機器人團隊。他們的目標是使異質多機器人團隊完成多個異質家庭任務。然而,他們引入的任務分配過程是“中央規劃器”LLM與每個機器人上的機器人專用代理LLM之間的討論形式。原始任務信息是從SLAM系統獲得的幾何表示,并構建為場景上下文以提示LLM。“中央規劃器”LLM首先根據其分析將每個任務分配給每個機器人。然后,每個機器人專用代理LLM根據分配的任務提供反饋,并從機器人的URDF代碼生成機器人簡歷。如果任務與機器人簡歷不匹配,它會提示“中央規劃器”進行重新分配。LLMs之間的討論繼續進行,直到不需要重新分配。Chen等人進一步研究了基于LLM的異質多任務規劃系統的可擴展性。在四個不同環境中比較了四種不同通信架構的效率和準確性,包括BoxNet、倉庫和BoxLift。結果表明,HMAS-2結構實現了最高的成功率,而CMAS是最具令牌效率的。另一方面,Gupte等人提出了一個基于LLM的框架,用于解決多機器人多人類系統的初始任務分配。在此集中式框架中,LLM首先為每個用戶的目標生成規定性規則,然后根據這些規則為每個目標生成經驗。在獲得生成的規則的實際知識后,通過推理評估LLM的性能,其中用戶提供指令,LLM根據規則和經驗分配任務。在推理階段,利用兩個不同的RAG工作流程以充分利用所獲得的知識。此外,Huang等人測試了LLMs解決多機器人旅行商問題(TSP)的能力。通過提供適當的提示,LLM為多個機器人規劃最優路徑并生成Python代碼以控制其運動。研究設置了三個框架:單次嘗試、自我調試(LLM檢查生成的Python代碼是否可以執行)和自我調試與自我驗證(LLM檢查代碼可執行性并驗證執行是否產生正確結果)。他們的工作揭示了LLMs在處理此類問題時表現不佳,只有在特定情況下(如最小-最大多機器人TSP)才能觀察到較高的成功率。
4.1.2 復雜任務分解任務分解是指MRS必須協作完成一個或多個需要仔細規劃和分工的復雜任務的情況。在這種情況下,可以利用LLM將整體任務分解為與團隊中每個機器人能力相符的較小、可管理的子任務。通過設計有效的提示,LLMs可以生成邏輯且可執行的任務分解,確保工作負載高效分配,并且機器人能夠無縫協作以實現總體目標。Kannan等人引入了SMART-LLM,這是一個利用LLMs將高層次人類指令分解為子任務并根據其預定義技能集分配給異質機器人的框架。與Chen等人不同,其中機器人能力是從其URDF代碼中推斷出來的,SMART-LLM采用更傳統的方法,通過明確定義每個機器人的技能集來進行異質任務分配。該過程涉及將指令分解為子任務,分析每個子任務所需的技能以形成聯盟,并相應地分配機器人以確保高效的任務執行。Wang等人提出了依賴感知的多機器人任務分解和執行LLMs(DART-LLM),這是一個旨在解決MRS中復雜任務依賴和并行執行問題的系統,如圖5所示。該框架利用LLMs解析高層次自然語言指令,將其分解為相互關聯的子任務,并使用有向無環圖(DAG)定義它們的依賴關系。通過建立依賴感知的任務序列,DART-LLM促進了邏輯任務分配和協調,使機器人能夠高效協作。值得注意的是,該系統在較小模型(如Llama 3.1 8B)下表現出魯棒性,同時在處理長期和協作任務方面表現出色。這種能力增強了MRS在管理復雜組合問題中的智能和效率。Xu等人提出了一個兩步框架,利用LLMs將復雜的自然語言指令轉換為MRS的分層線性時序邏輯(LTL)表示。第一步,LLM將指令分解為分層任務樹,捕捉子任務之間的邏輯和時間依賴關系以避免順序錯誤。第二步,微調的LLM將每個子任務轉換為平面LTL公式,使用現成的規劃器實現精確執行。該框架強調了時間推理在分解復雜指令中的重要性,確保長期和相互依賴的多機器人任務的準確任務分配和執行。與上述方法不同,Obata等人采用了一種略有不同的方法,提出了LiP-LLM,這是一個將LLMs與線性規劃相結合的多機器人任務規劃框架。LiP-LLM不提供端到端的任務分配和執行,而是利用LLMs生成技能集和依賴圖,映射任務之間的關系和順序約束。然后使用線性規劃優化任務分配,以優化機器人之間的任務分配。這種混合方法通過結合LLMs的解釋能力和優化技術的精確性,提高了任務執行的效率和成功率。結果表明,將LLMs與傳統優化技術相結合,可以提高MRS的性能和協調性。另一方面,Liu等人提出了COHERENT框架,該框架利用提案-執行-反饋-調整(PEFA)機制進行異質MRS中的任務規劃。PEFA過程涉及一個集中式任務分配器LLM,它將高層次人類指令分解為子目標并將其分配給個體機器人。每個機器人評估分配的子目標,確定其可行性,并向任務分配器提供反饋,從而實現任務計劃的動態調整和迭代改進。該過程與Chen等人提出的EMOS框架中的機器人討論機制相似,其中任務分解和分配利用基于機器人簡歷的具身感知推理。然而,COHERENT強調實時、反饋驅動的方法來處理任務分配和執行,使其特別適合動態和復雜的多機器人環境。不同地,Mandi等人提出了RoCo,這是一個用于多機器人協作的分散式通信架構,專注于高層次任務規劃和低層次運動規劃。在RoCo框架中,每個機器人配備一個LLM,與其他機器人進行對話以討論和完善任務策略。此對話過程產生一個提議的子任務計劃,該計劃由環境驗證其可行性。如果計劃失敗(例如,由于碰撞或無效配置),反饋將納入后續對話中以迭代改進計劃。一旦驗證通過,子任務計劃生成機器人手臂的目標配置,集中式運動規劃器計算無碰撞軌跡。RoCo強調多機器人協作中的靈活性和適應性,并使用RoCoBench基準進行評估,展示了其在多樣化任務場景中的魯棒性能。這種方法突出了分散式LLM驅動推理與集中式運動規劃在復雜動態環境中的協同作用。中層次運動規劃MRS中的中層次運動規劃包括導航和路徑規劃等任務,重點是使機器人能夠在環境中高效地移動或協調。這些場景比高層次應用更直接和實用,但對于多機器人團隊的無縫操作至關重要。LLMs通過利用其上下文理解和學習模式生成魯棒和自適應的解決方案,為該領域做出了重大貢獻。通過解釋環境數據并動態適應變化,LLMs使機器人能夠協作規劃路徑、避開障礙物并優化在共享空間中的移動。將LLMs集成到中層次運動規劃中提高了效率和彈性,使MRS在動態和不可預測的環境中更具能力。Yu等人提出了Co-NavGPT框架,將LLMs集成為多機器人協作視覺語義導航的全局規劃器,如圖6所示。每個機器人捕獲RGB-D視覺數據,將其轉換為語義地圖。這些地圖與任務指令和機器人狀態合并,構建LLMs的提示。然后,LLMs將未探索的邊界分配給個體機器人以進行高效目標探索。通過利用語義表示,Co-NavGPT增強了對環境的理解并指導協作探索。在此框架中,LLMs僅限于為每個機器人分配未探索的邊界進行導航,主要作為任務分配機制。Morad等人進一步提出了一種將LLMs與離線強化學習(RL)相結合的新框架,以解決MRS中的路徑查找挑戰。他們的方法涉及利用LLMs將自然語言命令轉換為潛在嵌入,然后與智能體觀察結果編碼以創建狀態任務表示。使用離線RL,在這些表示上訓練策略以生成理解并遵循高層次自然語言任務的導航策略。該框架的一個關鍵優勢是其能夠完全在真實世界數據上訓練策略,而無需模擬器,確保直接適用于物理機器人。LLMs的集成增強了任務指令解釋的靈活性,而RL促進了低延遲和反應性控制策略的生成,從而實現高效的多機器人導航。沿著這條線,Godfrey等人開發了MARLIN(多智能體強化學習通過基于語言的機器人間談判引導),這是一個將LLMs與多智能體近端策略優化(MAPPO)相結合的框架,以提高多機器人導航任務中的訓練效率和透明度。在MARLIN中,配備LLMs的機器人通過自然語言談判協作生成任務計劃,然后用于指導策略訓練。這種混合方法在LLM引導的規劃和標準MAPPO強化學習之間動態切換,利用LLMs的推理能力提高訓練速度和樣本效率而不犧牲性能。實驗結果表明,與傳統的MARL方法相比,MARLIN能夠實現更快的收斂和更一致的性能,并在模擬和物理機器人環境中驗證了應用。這種基于談判的規劃集成突出了將LLMs與MARL相結合以實現可擴展、可解釋的多機器人協調的潛力。另一方面,Garg等人利用LLMs解決連接的多機器人導航系統中的死鎖問題。在障礙物密集的環境中,此類系統可能會遇到低層次控制策略無法解決的死鎖。為了解決這個問題,LLM選擇一個領導者機器人并規劃其到達目標的路徑點。系統重新配置為領導者-跟隨者編隊,基于GNN的低層次控制器引導領導者沿著路徑點移動。類似地,Wu等人提出了一個中層次動作LLM,它使用短期輸入(如跟蹤誤差和控制成本)生成優化型機器人控制器的參數,使其能夠有效地跟隨規劃的路徑點。雖然上述研究主要采用集中式系統,其中LLMs處理所有機器人的規劃,但Wu等人開發了一個用于家庭任務的分散式多機器人導航系統。在此框架中,每個機器人配備一個LLM以實現通信和協作。機器人動態識別并接近分布在多個房間中的目標物體。通過通信觸發機制動態分配領導權,領導者機器人根據其收集的全局信息發出命令。這種靈活且分散的領導策略增強了協作導航場景中的適應性和效率。低層次動作生成低層次動作生成側重于在硬件級別控制機器人運動或姿態,將高層次目標轉換為精確的控制命令。這些任務對于確保在動態環境中的平穩和高效操作至關重要。雖然LLMs提供了上下文推理和適應性,但它們在低層次任務中的表現通常有限,這些任務需要高精度和實時響應能力。結合LLMs與基于優化的控制器或強化學習的混合方法顯示出在利用LLMs靈活性的同時保持可靠機器人動作所需精度的潛力。Chen等人利用LLMs解決多智能體路徑查找(MAPF)問題,其中LLMs通過逐步生成動作來主動導航機器人。每個步驟都以高層次沖突檢查器結束,以識別與機器人或障礙物的碰撞。雖然在無障礙環境中有效,但LLMs在迷宮式地圖中面臨挑戰,原因是推理能力有限、上下文長度受限以及難以理解障礙物位置。除了路徑查找,大多數關于使用LLMs進行動作生成的研究都集中在編隊控制問題上。例如,Venkatesh等人提出了一個集中式架構,其中LLMs將自然語言指令轉換為機器人配置,使群體能夠形成特定模式。盡管作為集中式控制器具有優勢,但Li等人強調了LLMs在分散式系統中的局限性。在分散式設置中,每個機器人配備自己的LLM,通過與其他機器人協調實現期望的編隊。然而,LLMs在此任務中仍然面臨挑戰。在一個測試場景中,如圖7所示,智能體被要求形成一個間距為5個單位的圓圈,智能體的LLM誤解了指令,移動到圓圈的中心而不是周邊。這種誤解導致智能體執行基于共識的行為而不是預期的群體行為,揭示了LLMs在分布式協調中的困難。Strobel等人引入了LLM2Swarm,這是一個通過兩種方法將LLMs與機器人群體集成的系統:集中式控制器合成和分散式直接集成。在集中式方法中,LLMs用于設計和驗證部署前的控制器,從而實現高效和自適應的行為生成。在分散式方法中,每個機器人都有自己的LLM實例,實現本地化推理、規劃和協作,以增強動態環境中的靈活性。結果突出了LLMs在群體機器人中的潛力,展示了它們在集中式和分散式控制范式中的適用性。Lykov等人進一步展示了LLMs在群體控制中的潛力,提出了FlockGPT,這是一個用于協調無人機群體以實現期望幾何編隊的框架。在此系統中,LLM生成有符號距離函數(SDF)以指導無人機相對于目標表面的移動,而專用控制算法管理碰撞避免等實際約束。這些研究強調了LLMs在增強集中式和分散式群體行為中的多功能性。人機交互在MRS中,LLMs通常專注于根據人類提供的指令執行任務,強調指令的解釋和自主任務完成。一旦指令交付,人類參與通常被最小化。然而,新興研究探索了需要LLMs與人類之間持續互動的場景,強調在整個任務執行過程中的合作、決策或外部觀察。這些研究突出了動態人機交互的潛力,以應對意外挑戰、完善任務策略或確保關鍵應用中的安全性。通過實現迭代式人機協作,這些方法增強了LLM驅動的MRS的適應性和可靠性。最簡單的人機交互形式由Lakhnati等人展示,其中機器人以簡單的循環運行:接收人類命令,執行相應任務,報告完成狀態,并等待下一個指令。在此基礎上,Lykov等人引入了LLM-MARS框架,使人類能夠隨時查詢每個機器人的當前狀態和任務進度。在此系統中,響應生成和任務執行均由單個LLM處理,并通過不同的LoRA適配器增強以提高效率。Hunt等人提出了一個更具交互性的方法,要求在通過LLM驅動討論生成的任何計劃執行之前獲得人類批準。如果提議的計劃被認為不合理,人類主管可以提供反饋,促使LLMs通過進一步對話完善其方法。Ahn等人引入了VADER系統,進一步增強了人類參與。當機器人遇到任務相關問題時,它會在人機艦隊編排服務(HRFS)上發布協助請求,這是一個人類操作員和機器人代理均可訪問的共享平臺。任何代理或人類都可以響應請求,一旦問題解決,機器人將恢復其任務。這些例子展示了LLM驅動的MRS中不同程度的人類參與,從簡單的命令執行到主動協作和動態問題解決。
5 應用
LLMs在MRS中的集成推動了各種應用領域的進步,每個領域都有獨特的挑戰和機遇。這些應用利用LLMs在理解、規劃和協調任務方面的能力,提供了從室內到室外場景的解決方案。LLMs的適應性推動了在需要精確導航、任務分配和動態決策的任務中的創新,展示了其在結構化和非結構化環境中解決問題的潛力。在本節中,我們根據應用場景對研究進行分類,重點關注兩個主要領域。首先,家庭領域突出了MRS在室內挑戰中的應用,如導航、任務分解和物體操作。這些系統通常強調異質機器人之間的協作,以執行復雜的任務,從在多房間設置中識別目標到組織家用電器。其次,建筑、編隊、目標跟蹤和游戲中的應用展示了LLMs在專業領域中的多功能性。這些研究展示了MRS在戶外或競爭環境中解決復雜問題的能力,如無人機編隊用于搜索和救援任務、機器人足球策略以及在危險區域中的導航。這些領域共同強調了LLMs在推動MRS能力在多樣化現實世界應用中的日益增長的影響。家庭。家庭領域代表了具有明確應用場景的研究的重要焦點,解決了諸如導航、任務分配和任務分解等挑戰。例如,Wu等人和Yu等人研究了在復雜室內環境中的導航和多目標定位,如識別分布在多個房間中的物體,展示了在空間意識和適應性方面的進步。此外,Mandi等人、Yu等人、Kannan等人和Xu等人探索了任務分解和多機器人協作,以執行復雜的任務,如準備三明治或組織洗碗機。Chen等人強調了在多層室內環境中異質MRS的任務分配,解決了動態環境中的協調挑戰。值得注意的是,他們提出了EMOS框架,這是一個具身感知的操作系統,通過新穎的“機器人簡歷”方法促進異質機器人之間的有效協作,使機器人能夠從其URDF文件中自主解釋其物理約束,而不是依賴預定義的角色。這些研究在利用多樣化機器人能力的同時解決了子任務的時間序列問題,展示了MRS在家庭環境中解決復雜現實世界問題的潛力。其他包括建筑、編隊、目標跟蹤和游戲。一些研究專注于開放世界環境中的應用,突出了LLM集成機器人系統的多功能性和創新潛力。例如,Wang等人和Sueoka等人探索了使用LLMs協調機器人系統進行挖掘和運輸任務,展示了其在建筑和復雜地形救援操作中的適用性。在無人機編隊應用中,Lykov等人強調了協調和適應性,用于戶外任務,如搜索和救援任務以及環境監測。類似地,Wu等人通過集成危險區域識別解決了開放世界目標跟蹤問題,為在危險環境中自主導航提供了魯棒的解決方案。這些場景進一步展示了LLMs在動態和結構化環境中的潛力。Brienza等人引入了LLCoach,這是一個用于機器人足球應用的框架,其中LLMs增強了戰略決策和團隊協調。這些研究共同強調了LLM驅動的MRS在解決各種復雜挑戰中的潛力。
6 LLMs、模擬和基準測試
LLMs和VLMsLLMs和VLMs通過實現高級決策、通信和感知驅動的協作,在MRS中發揮著越來越重要的作用。不同的模型提供了獨特的優勢,使其適用于特定的MRS應用。表1提供了在討論的研究中使用的LLMs和VLMs的比較總結,突出了它們在多機器人協調、規劃和感知中的貢獻。GPT是使用最廣泛的語言模型之一,如表1所示,它構成了許多引用研究的核心。其通用推理和適應性使其能夠集成到多機器人協調任務中,如任務分配和規劃、多機器人通信和人機協作。此外,GPT已擴展到VLM,用于需要整合文本和視覺輸入的應用。通過結合微調技術和視覺編碼器,GPT可以分析圖像、生成詳細描述,并無縫結合文本推理與視覺理解。這些能力使其非常適合圖像字幕、視覺問答和多模態翻譯等復雜感知驅動應用。Llama提供了一系列從輕量級小模型到強大的大規模模型的開源模型,滿足多樣化應用需求。較小模型(如Llama 3-8B)因其輕量級設計和靈活性而特別受歡迎,非常適合計算資源有限的嵌入式或分散式MRS架構。另一方面,較大模型(如Llama 3-70B)提供了增強的能力和更高的準確性,非常適合需要高級推理和詳細自然語言理解的復雜任務。Claude則優先考慮安全性、倫理AI和透明決策,使其非常適合受監管的多機器人應用。此外,Claude已擴展為VLM,進一步擴展了其多功能性。其對安全性和倫理考量的強烈關注使其成為涉及敏感視覺數據(如醫學成像或內容審核)任務的引人注目的選擇。與GPT不同,Claude的VLM實現采用以人為本的設計,強調決策透明度并最小化視覺解釋中的偏見。GPT、Llama和Claude表現出一定程度的可互換性,如幾項研究所證明的,這些研究測試了具有多個模型的架構,從而能夠對其性能進行比較分析。Falcon強調實用性,針對資源受限的環境進行了優化。例如,唯一使用Falcon的研究因其在每個機器人上運行的微計算機的計算限制而選擇它作為首選模型。PaLM以其多任務和多模態能力脫穎而出,擅長復雜推理和跨領域任務,如翻譯和圖像處理。然而,其部分閉源性質和在Google生態系統中的集成使其主要在Google DeepMind的研究中使用。此外,最近的研究探索了幾種VLMs,包括PaLI、CLIP和ViLD。PaLI由Google開發,是一個多模態模型,專為多語言和跨視覺任務(如圖像字幕和視覺問答)而設計,利用廣泛的多模態數據。同樣,CLIP由OpenAI創建,通過對比學習將圖像和文本對齊到一個共享嵌入空間中,使其特別適合零樣本任務,如圖像分類和檢索。相比之下,ViLD是Google的另一個模型,專注于零樣本物體檢測,通過將視覺特征與CLIP風格的語言對齊集成,使其能夠精確識別未見過的物體類別。模擬環境我們總結了相關工作中使用的模擬平臺,突出了它們在評估和推動該領域發展中的貢獻。AI2-THOR已在[13, 38, 81, 87]中適應MRS,以評估在復雜室內環境中操作的具身AI智能體。雖然最初設計用于單智能體任務(如物體操作和場景理解),但最近的研究擴展了其用途,包括在受限環境中的協作物體檢索、共享感知和協作規劃。物理啟發的交互使研究人員能夠在動態和物理基礎的環境中測試LLM驅動的協調策略,其中多個智能體必須導航、操作物體并動態解決沖突。PyBullet是一個廣泛用于模擬機器人系統的開源物理引擎,包括關節式機械手、輪式機器人和多智能體交互。它提供實時物理模擬,支持碰撞檢測、剛體動力學和機器人學中的強化學習。在MRS的背景下,PyBullet能夠準確建模分散式協作、物體操作和動態環境交互。BEHAVIOR-1K由Liu等人使用,作為COHERENT框架的基礎,該框架專注于大規模異質多機器人協作。該平臺促進了在復雜家庭環境中不同機器人(如機械手、移動底座)必須協調完成日常任務(如餐桌布置、物體交接和多步驟組裝過程)的訓練和評估。該基準確保LLM增強的系統能夠處理動態任務依賴性和模糊的角色分配。Pygame平臺是一個跨平臺的Python模塊集,用于編寫視頻游戲。機器人被建模為點質量實體,專注于編隊控制、分散式共識算法和無需避障的運動協調。該平臺特別適用于分析群體中的涌現行為,其中基于LLM的控制器通過簡單的局部交互引導自組織編隊。Habitat-MAS是Habitat的擴展,引入了明確的多智能體通信,用于室內導航和探索。與其前身的單智能體焦點不同,Habitat-MAS支持合作搜索、同時定位和地圖構建(SLAM)以及智能體間策略適應的研究,這對于在災難響應和服務機器人中部署多機器人探索團隊至關重要。ROS-based simulation是一個廣泛用于MRS的中間件框架,支持機器人間通信、分散式控制和實時數據共享。它提供了群體協調、協作地圖構建和分布式任務分配的基本工具。借助內置的模擬環境(如Gazebo和RViz),ROS使研究人員能夠開發和測試MRS策略,用于探索、目標跟蹤和協作操作。VR平臺引入了沉浸式模擬,用于人機協作和強化學習。這些環境用于測試人類在環控制策略,如通過自然語言指令協調倉庫物流中的機械臂和移動機器人。GAMA提供了一個適合大規模機器人交互的多智能體建模環境。它支持分布式群體智能、多智能體任務談判和行為適應在非結構化環境中的評估,使其成為測試分散式LLM驅動控制器在物流和自主車隊管理中的理想選擇。SimRobot由Brienza等人使用,專門用于機器人足球中的多機器人團隊合作。LLCoach框架使用SimRobot進行訓練,通過處理比賽數據并動態優化多智能體角色分配來增強機器人協調和戰略規劃。ARGoS由Strobel等人選擇,是一個可擴展的群體機器人研究平臺。它支持對分散式控制機制的受控實驗,包括聚集-分散行為、領導者選舉和涌現自組織。集成到ARGoS中的LLMs評估其生成自適應通信協議和處理動態環境中任務劃分的能力。這些多樣化平臺為評估LLM驅動的MRS在不同規模上提供了基本工具,從小型協作團隊到大型自主群體。通過利用這些環境,研究人員改進了多智能體協調、通信和決策策略,推動了LLMs在MRS中的集成,以實現現實世界應用。
7 挑戰與機遇
盡管LLMs在多機器人系統(MRS)中的集成取得了一定進展,但仍然存在限制其廣泛采用和有效性的重大挑戰。這些挑戰涵蓋了推理能力、實時性能和適應動態環境等多個方面。解決這些問題對于釋放LLMs在MRS中的全部潛力至關重要。本節將識別該領域面臨的關鍵挑戰,并概述未來研究的有前景的機遇,為增強LLM驅動的MRS的效用和魯棒性提供一條研究路線圖。
7.1 挑戰
數學能力不足LLMs在處理需要精確計算或邏輯推理的任務時表現較差,例如多機器人路徑規劃或軌跡優化。這一局限性降低了它們在需要高量化精度的場景中的有效性。Mirzadeh等人[60]對幾種先進的LLM進行了詳細比較和研究,調查了它們的數學理解和問題解決能力。具體來說,LLMs在回答同一問題的不同變體時表現出顯著的差異,當僅改變數值時,性能顯著下降。此外,它們的推理能力較為脆弱,通常只是模仿訓練數據中觀察到的模式,而非進行真正的邏輯推理。這種脆弱性在問題中條款數量增加時尤為明顯,即使添加的條款與推理鏈無關,性能也會下降最多65%。這些弱點在多機器人系統中尤其具有挑戰性,因為精確計算和穩健推理對于避免碰撞、空間規劃和高效任務執行至關重要。解決這些局限性對于在數學密集型應用中可靠地部署LLMs至關重要。幻覺問題LLMs容易生成看似合理但缺乏事實準確性的內容,這種現象被稱為幻覺。在MRS中,這一問題尤為嚴重,因為精確和可靠的輸出對于有效的協作和操作至關重要。根據Huang等人[32]對LLMs幻覺的全面調查,幻覺可以分為兩種主要類型:事實幻覺和忠實幻覺。事實幻覺涉及生成內容與可驗證的現實世界事實之間的差異,導致輸出不正確;忠實幻覺則發生在生成的內容偏離用戶的指令或提供的上下文時,導致輸出無法準確反映預期的信息。在MRS的背景下,這種幻覺可能導致誤解、錯誤決策和機器人之間的協調錯誤,進而可能影響任務的成功和安全。解決這些挑戰需要開發檢測和減輕幻覺的方法,確保LLMs生成的輸出既真實準確,又符合上下文。現場部署困難目前使用LLMs的選項包括基于服務器的模型,這些模型通常是封閉源代碼的,和可以在本地部署的開源模型。基于服務器的模型包括OpenAI GPT[1]、Anthropic Claude[7]和Google Gemini(前身為Bard)[25],而可以本地運行的開源LLM包括Meta Llama[17]、Falcon[3]、Alibaba Qwen[89]以及DeepSeek V3[51]和R1[27]等。基于服務器的模型需要可靠的互聯網連接來發送查詢并接收響應,因此使得在遠程位置(例如典型的現場機器人系統中)部署MRS與LLMs變得不可實現。此外,基于服務器的LLM嚴重依賴服務器的性能,服務器的故障可能會完全中斷基于LLM的系統。這一問題對于多機器人團隊尤其重要,因為LLM負責指導機器人之間的協作和決策。另一方面,本地模型雖然避免了對服務器的依賴,但需要足夠強大的硬件來本地運行LLM。相對較高的延遲實時信息交換和決策對于MRS在現實場景中的有效操作至關重要。然而,使用LLMs的一個顯著挑戰在于它們相對較高且可變的響應時間,這可能依賴于模型復雜性、硬件能力和服務器的可用性。例如,Chen等人[12]報告稱,在使用OpenAI的GPT-4進行多智能體路徑尋找的場景中,每步的響應時間在15到30秒之間,顯著影響了實時可行性。雖然在更強大的硬件上進行本地處理可以減少延遲,但這種方法成本較高,且隨著機器人數量的增加,擴展性較差。解決這一挑戰需要探索優化的LLM架構、高效的推理技術和可擴展的解決方案,在平衡計算需求與實時操作要求之間找到一個合理的折衷。缺乏基準測試性能評估對于LLMs在MRS中的新研究至關重要。然而,現有的基準測試系統主要針對室內環境和家用應用設計,這限制了它們在MRS操作的多樣化和不斷變化的場景中的適用性。由于當前的研究往往代表了將LLMs應用于MRS的初步嘗試,因此性能比較通常側重于通過與傳統方法對比來展示可行性。雖然這種方法對于建立基線具有重要意義,但未來的進展很可能會帶來顯著的性能和功能提升。一個專門針對多機器人應用的統一基準測試框架,將為研究人員提供一致的度量標準,以評估和量化進展。這樣的系統不僅能夠幫助更清晰地理解新研究的影響,還能推動標準化和跨研究的可比性,加速這一新興領域的創新。
7.2 機遇
微調與RAG在領域特定數據集上對LLM進行微調,并結合RAG技術,是提升其在多機器人應用中表現的有前景的途徑。微調允許研究人員根據特定任務調整預訓練的LLM,提高其上下文理解能力并減少幻覺等問題。RAG通過集成外部知識檢索機制,在運行時動態地為LLM提供相關信息。這些技術結合使用,能顯著提升LLMs在多樣化和復雜的多機器人場景中的準確性、可靠性和適應性。高質量的任務特定數據集創建高質量的任務特定數據集對于推動LLMs在MRS中的能力至關重要。利用更強大的模型,如最新的LLM,生成合成數據集,可以加速為特定任務或環境量身定制訓練材料的開發。這些數據集應包括多樣化的場景、注重推理的標簽和上下文特定的知識,以提高LLMs的問題解決和決策能力。任務特定數據集對于為MRS在開放世界或非結構化環境中操作做好準備尤為重要。高級推理技術提升LLMs的推理能力對于解決其在邏輯和數學任務中的當前局限性至關重要。鏈式思維(CoT)提示、帶有顯式推理標簽的微調、集成符號推理以及與強化學習(RL)的結合等技術,都能增強LLMs處理復雜多步問題的能力。通過提升推理方法,LLMs能夠更好地支持需要精確和邏輯推理的任務,如多機器人路徑規劃和協調。任務特定和輕量化模型雖然大規模的LLM在性能上具有優勢,但它們通常在資源受限的環境中不切實際。開發專門針對多機器人應用的任務特定和輕量化模型,可以緩解這一問題。像SmolVLM、Moondream 2B、PaliGemma 3B和Qwen2-VL 2B等模型,展示了如何通過更小的架構來降低計算需求和延遲,同時在特定任務中保持足夠的性能。模型蒸餾是另一種方法,通過從更強大的LLM中提取知識來增強小模型的能力,例如將DeepSeek R1中的知識蒸餾到一個小型的Qwen2.5-Math-1.5B模型中。在現場機器人部署中,平衡效率與效果是實現LLM大規模應用的關鍵。擴展到非結構化環境目前的大部分應用和基準測試主要集中在室內或結構化環境中,導致在戶外和非結構化場景中的應用存在較大空白。研究應優先擴展MRS的能力,以包括在開放世界中的操作,如農業領域、災區和遠程探索地。這些環境中的獨特挑戰,包括變化性、噪聲和不可預測的動態,將擴大LLM驅動的MRS的適用性。最新更強大的LLMs最先進的LLMs的持續發展為MRS開辟了新的可能性。像PaliGemma、Qwen、GPT o3(迷你版)和DeepSeek V3、R1等模型提供了更強的推理、理解和多任務處理能力。將這些先進的模型融入MRS研究,可以通過提供改進的基線性能并啟用創新應用來加速進展。探索它們與機器人系統的集成可以進一步推動多機器人團隊所能實現的邊界。
8 結論
本次調查提供了關于將LLMs(大語言模型)集成到多機器人系統(MRS)中的首次全面探索,這是一個處于機器人技術與人工智能交匯點的課題,正在迅速獲得關注。與一般的機器人或多智能體系統不同,MRS由于依賴于物理體現和與現實世界的互動,面臨獨特的挑戰和機遇。本文強調了LLMs如何應對這些挑戰,為MRS中的集體智能和協作提供了新的可能性。我們提出了一個結構化框架,以理解LLMs在MRS中的作用,涵蓋了高層任務分配與規劃、中層運動規劃、低層動作執行以及人類干預等內容。這個框架反映了LLMs所啟用的多樣化功能,包括分解復雜任務、協調多機器人多任務場景和促進無縫的人機互動。此外,我們還回顧了MRS在多個領域中的應用,從家務任務到建筑、隊形控制、目標追蹤以及游戲/競賽等,展示了LLMs在這些系統中的多功能性和變革潛力。將LLMs集成到MRS中的意義在于,它們能夠增強個體和集體智能,使機器人能夠在日益復雜的環境中自主運行并協同工作。隨著LLMs在日常應用中展示出其潛力,它們在機器人領域的應用承諾將為MRS帶來創新和效率的新可能性。展望未來,短期和長期的研究和發展前景都充滿了激動人心的機會。在短期內,解決基準測試、推理能力和實時性能等挑戰將是彌合實驗室模擬與現實應用之間差距的關鍵。長期的前景包括利用LLMs實現更復雜的任務,例如災難響應、太空探索和大規模自主操作,從而拓展MRS的能力邊界。我們希望本次調查能為研究人員提供有價值的資源,概述當前的進展,識別研究空白,并突出未來探索的機遇。通過推動我們對LLMs在MRS中應用的理解,我們旨在激發創新,促進跨學科合作,加速從理論研究到實際部署的轉變,造福社會。
多年來,漏洞修復和代碼生成一直是軟件開發中的核心研究主題。最近,大語言模型(LLMs)的爆炸式增長徹底改變了這一領域,為兩者提供了強大的工具。本綜述審查了27篇近期論文,并將其分為兩組:一組專注于自動程序修復(APR)與LLM的集成,另一組聚焦于利用LLM進行代碼生成。 第一組涉及針對漏洞檢測與修復的新方法,包括定位語義錯誤、安全漏洞和運行時失敗錯誤。APR中的工作強調了LLM在減少手動調試工作量方面的作用,通過上下文感知的修復方法推動準確性和效率提升,為自動調試帶來了創新。 第二組研究代碼生成,概述了為編程微調的通用LLM和任務特定模型,并提出了提升代碼生成的方法,如識別符感知訓練、指令級微調和語義代碼結構的融合。本綜述對APR與代碼生成中的方法進行了對比,識別了諸如利用LLM、通過反饋循環實現迭代代碼改進以及開源模型的趨勢。 此外,還討論了實現功能正確性與安全性的挑戰,并為基于LLM的軟件開發研究指明了未來的方向。 1 引言
近年來,大語言模型(LLMs)在自動化軟件工程領域中逐漸受到關注,尤其是在漏洞修復 [18][23][19][25][12] 和代碼生成 [15][21][6] 等領域。在過去十年中,自動程序修復(APR)和代碼生成的使用顯著增加 [8][10],從而推動了這一領域的大量研究。許多工具已被開發出來,這些工具結合了APR和自然語言處理,用于代碼生成 [15][21][6],并采用多種技術,包括抽象語法樹(AST)的實現、使用不同的啟發式方法對可能的修復補丁進行排序、模式匹配和上下文匹配等。 在與代碼相關的任務中使用LLMs顯著提升了編程自動化和漏洞發現的質量與速度。這些任務包括總結代碼、根據自然語言請求生成代碼、修復現有代碼中的漏洞,以及理解相對較大和復雜的代碼庫。然而,本文將重點探討在代碼生成與漏洞修復領域的研究與實踐。為便于理解,我們將所涵蓋的工具和論文劃分為這兩個類別。由于LLMs在極大規模的數據集和數十億參數上進行訓練,它們在這些工具中得到了廣泛應用。相比從零開始訓練模型,使用大語言模型可以更輕松地完成與編程相關的特定任務,從而帶來卓越的性能和顯著的優勢 [18][19][25]。 與此同時,將LLMs用于APR和代碼生成任務極其復雜,涵蓋了多個研究領域,如基準測試、修復場景(語法錯誤、語義錯誤等)、修復技術(重新編譯、二進制重寫等)、修復測試(補丁生成、輸入測試、共演化)等。因此,理解這一領域已經完成的工作可能十分復雜且耗時。 本文旨在總結這一快速發展的領域中已經完成的研究和工作,以幫助其他研究人員更好地理解這些工具的工作原理、在實際場景中的性能、應用領域及其局限性。我們收集了27篇論文,并總結了與這些研究相關的各種因素,包括使用的LLMs、支持的編程語言,以及由此衍生的構建語言無關的APR工具的難點、漏洞修復和代碼生成的方法,以及該領域仍在研究中的挑戰。 綜上,本文的目標包括: 1. 收集關于使用LLMs進行APR和代碼生成的研究,概述已取得的成果。 1. 闡明這些工具可用于的修復場景以及支持的編程語言。 1. 解析LLMs在修復和生成代碼工作流中的集成方式及面臨的挑戰。 1. 討論LLMs在與代碼相關的任務中的局限性及仍在研究中的問題。
機器視覺通過使機器能夠解讀和處理視覺數據,增強了工業應用中的自動化、質量控制和運營效率。盡管傳統的計算機視覺算法和方法仍被廣泛使用,但機器學習在當前的研究活動中已變得至關重要。特別是,生成式人工智能(AI)展示了通過數據增強、提高圖像分辨率以及識別質量控制中的異常,從而改善模式識別能力的潛力。然而,由于數據多樣性、計算需求以及對穩健驗證方法的必要性等挑戰,生成式AI在機器視覺中的應用仍處于早期階段。為全面了解生成式AI在工業機器視覺中的現狀,特別是最近的進展、應用和研究趨勢,進行了一次基于PRISMA指南的文獻綜述,分析了超過1200篇關于工業機器視覺中生成式AI的論文。我們的研究發現揭示了當前研究中的各種模式,生成式AI的主要用途是數據增強,用于分類和目標檢測等機器視覺任務。此外,我們收集了一系列應用挑戰及數據需求,以促進生成式AI在工業機器視覺中的成功應用。本綜述旨在為研究人員提供對當前研究中不同領域和應用的深入見解,突出重要進展并識別未來工作的機會。
關鍵詞:機器視覺,生成式人工智能,深度學習,機器學習,制造業 1 引言
視覺檢查由受過培訓的檢查員執行,仍在工業中廣泛使用,但自20世紀70年代以來,自動化機器視覺已被系統地引入[1]。工業機器視覺是現代制造過程中的關鍵組成部分,涉及圖像的處理和分析,以自動化任務,包括質量檢查、物體或缺陷檢測以及過程控制[2]。傳統的計算機視覺系統依賴于需要手工設計特征的經典算法和技術,雖然這些方法在實踐中很有效,但在處理具有顯著變化性和不可預見情況的復雜場景時存在局限性[2, 3]。在20世紀80年代和90年代,隨著數字圖像處理、紋理和顏色分析等技術的進步,并有更好的硬件和軟件支持,機器視覺技術得到了發展[4]。當時,任務如質量檢測和物體識別主要依賴于預定義的算法[3, 5]。 20世紀90年代末和2000年代初,機器學習逐漸興起,支持向量機(SVM)[6]、隨機森林[7]和人工神經網絡(ANN)等模型使系統能夠以數據驅動的方式進行學習,提高了它們應對現實世界中變化和復雜性的能力[2]。機器視覺領域的真正革命出現在2010年代,隨著深度學習(DL)的發展。卷積神經網絡(CNN)在圖像處理任務中表現出極強的能力。CNN使機器能夠從原始圖像數據中自動學習層次特征,大大提高了在圖像分類、圖像分割、目標檢測、缺陷檢測和姿態估計等任務中的性能[4, 9-11]。像AlexNet、VGG和ResNet這樣的里程碑模型展示了深度學習的潛力,迅速在學術研究和工業界得到了廣泛應用[2]。 生成式人工智能(GenAI)代表了機器視覺演變中的最新前沿。與傳統的區分性模型用于分類或識別模式不同,GenAI模型能夠創建新的數據實例。雖然大多數流行的GenAI模型和創新設計是為了與人類互動,但探索GenAI如何改變工業制造領域具有重要的機會。類似于數據生成的替代方法如模擬需要專家領域知識和手動執行,因此在工業制造應用中,它們的使用僅限于預處理和后處理步驟。而GenAI方法一旦訓練完成,具有在制造過程中自動化當前手動處理步驟的潛力。由于其前景廣闊,GenAI已被應用于不同的機器視覺用例,其中每個提出的解決方案都是在特定用例約束下開發的。這些在機器視覺研究領域中積累的發現和經驗為其他從業者提供了寶貴的見解,幫助他們在自己的研究中使用GenAI。盡管已有關于將GenAI應用于各種機器視覺用例的知識,但據我們所知,目前尚無專門針對工業機器視覺中GenAI的綜述,匯總已有的應用經驗。現有的文獻綜述中提及GenAI在工業機器視覺中的應用時,主要關注的是AI在特定制造領域(如印刷電路板[12]、硅片[13]、一般缺陷識別[14]或表面缺陷識別[15])中的應用。 本綜述的貢獻包括:(i)概述了工業機器視覺應用中使用的GenAI方法,(ii)提供了應用GenAI時的工具、潛力和挑戰的概述,以及(iii)展示了GenAI在典型機器視覺應用中的益處,為從業者提供參考。 基于這些目標,我們提出了以下在本綜述中探討的研究問題:
本文結構如下:第2節首先概述了GenAI領域及其方法。第3節介紹了文獻綜述的方法,包括對排除標準的推導和選擇信息提取的詳細理由。第4節展示了搜索結果及其特征,并對提取的數據進行了廣泛分析。第5節討論了文獻綜述的結果,并結合研究問題進行探討。討論還包括對所用文獻綜述方法中的偏見和局限性的反思。最后,本文總結了本綜述的主要結果,并提出了在工業機器視覺任務中應用GenAI的指導原則。
2 生成式人工智能
生成式人工智能(GenAI)領域代表了旨在學習給定數據集 x∈Xx \in Xx∈X 的概率分布 p(x)p(x)p(x) 的半監督和無監督深度學習技術。在深度學習的背景下,GenAI方法使用參數化的人工神經網絡(ANNs)來近似概率分布 p(x)p(x)p(x),這些網絡通過權重 Θ\ThetaΘ 進行參數化,從而得到一個參數化模型 pΘ(x)p_\Theta(x)pΘ(x)。與判別式深度學習技術相比,判別式技術近似的是在給定輸入 xxx 的情況下,屬性(或標簽) yyy 上的概率分布 p(y∣x)p(y|x)p(y∣x),而生成模型 GGG 可以用于從訓練數據分布中抽取類似樣本 x~~pΘ(x~)\tilde{x} \sim p_\Theta(\tilde{x})x~~pΘ(x~) [16]。 對 p(x)p(x)p(x) 的估計可以分為顯式和隱式兩種方法。顯式估計模型嘗試提供概率密度 pΘ(x)p_\Theta(x)pΘ(x) 的參數化,而隱式估計模型則構建一個合成數據的隨機過程[17]。生成式人工智能的分類概述(參見圖1)總結了現有估計 pΘ(x)p_\Theta(x)pΘ(x) 的方法。不論模型類型如何,它們生成逼真高分辨率圖像的能力使得它們在解決諸如圖像修復、圖像去噪、圖像到圖像翻譯以及其他圖像編輯問題等經典計算機視覺任務中得到了廣泛應用。它們在學術基準測試中的出色表現,使其在機器視覺領域中具有重要意義。每種模型架構的進一步描述及其優缺點將在以下小節中進行探討。 3 研究方法
如引言中所述,本篇文獻綜述旨在概述生成式人工智能(GenAI)在工業機器視覺領域中的方法和應用,特別是針對制造業應用。該綜述采用了系統評價和薈萃分析的首選報告項目(PRISMA)方法進行,PRISMA方法旨在以透明、完整和準確的方式呈現和生成系統性綜述[36]。基于該方法,以下各節將介紹系統性綜述的實施方法。首先,介紹了以排除標準形式出現的適用性衡量標準,以及搜索策略和所使用的文獻數據庫(參見第3.1節)。接下來是研究選擇過程(參見第3.2節)和數據提取(參見第3.3節)。
強化學習(RL),特別是與深度神經網絡結合的深度強化學習(DRL),在廣泛的應用中展現了巨大的前景,表明其有望推動復雜機器人行為的發展。然而,機器人問題為RL的應用帶來了根本性的挑戰,這些挑戰源于與物理世界交互的復雜性和成本。本文提供了關于DRL在機器人領域應用的現代綜述,特別關注DRL在實現幾項關鍵機器人能力方面取得的現實世界成功。我們的分析旨在識別這些令人興奮的成功背后的關鍵因素,揭示未充分探索的領域,并對DRL在機器人領域的現狀進行總體描述。我們強調了未來研究的幾個重要方向,包括需要穩定且樣本高效的現實世界RL范式,發現和整合各種能力以應對復雜的長期開放世界任務的整體方法,以及原則性的發展和評估程序。本綜述旨在為RL從業者和機器人學家提供見解,以利用RL的力量創建具有廣泛能力的現實世界機器人系統。
強化學習(RL)(1) 是一類決策問題,其中代理必須通過試錯學習以最大化其累積回報,該回報由標量獎勵函數編碼,映射代理的狀態和行動到即時獎勵。特別是與深度神經網絡結合的深度強化學習(DRL)(2),在解決復雜決策問題方面顯示出卓越的能力,即使是在棋類游戲(3)、視頻游戲(4)、醫療保健(5)和推薦系統(6)等領域的高維觀察中也不例外。這些成功突顯了DRL在控制具有高維狀態或觀察空間和高度非線性動態的機器人系統以執行傳統決策、規劃和控制方法(如經典控制、最優控制、基于采樣的規劃)無法有效處理的挑戰性任務方面的潛力。然而,迄今為止,DRL最顯著的里程碑是在模擬或游戲環境中實現的,在這些環境中,RL代理可以從大量的經驗中學習。相比之下,機器人需要在物理世界中完成任務,這帶來了額外的挑戰。在物理世界中直接通過試錯收集樣本通常效率低下且/或不安全,而且通常不可能在模擬中創建復雜真實世界的精確副本。盡管存在這些挑戰,最近的進展使得DRL在一些現實世界的機器人任務中取得了成功。例如,DRL已實現冠軍級別的無人機競速(7)和集成到生產級四足機器人系統中的多功能四足機器人控制(如ANYbotics1、Swiss-Mile2和Boston Dynamics3)。然而,最先進的DRL解決方案在不同的機器人應用領域的成熟度差異顯著。在某些領域,如城市自動駕駛,基于DRL的解決方案仍然局限于模擬或嚴格限定的現場測試(8)。 本綜述旨在全面評估DRL在現實世界機器人應用中的當前進展,識別最令人興奮的成功背后的關鍵因素以及在較不成熟領域中仍然存在的開放挑戰。具體而言,我們評估了DRL在各種問題領域的成熟度,并對不同領域的DRL文獻進行對比,以確定廣泛適用的技術、未充分探索的領域以及需要解決的共同開放挑戰,以推進DRL在機器人中的應用。我們希望本綜述能為研究人員和從業者提供對DRL在機器人領域現狀的深入理解,提供有價值的見解,以指導未來的研究并促進現實世界機器人任務中廣泛可部署的DRL解決方案。
管之前的一些文章已經綜述了機器人強化學習,但我們在文獻中提供了獨特的視角并填補了知識空白,主要貢獻有三點。首先,我們專注于在現實世界中至少取得了一定成功的工作,旨在評估DRL在現實世界機器人應用中的當前狀態和開放挑戰。大多數現有的關于機器人強化學習的綜述并未明確討論這一主題,例如,Dulac-Arnold等(9)討論了現實世界RL的一般挑戰,但不針對機器人,Ibarz等(10)列出了基于他們自己研究的案例研究中現實世界機器人環境中特有的DRL開放挑戰。相比之下,我們的討論基于對DRL在機器人領域取得的現實世界成功的全面評估,其中一個方面是對現實世界部署水平的評價(見第3.4節)。
其次,我們提出了一個新穎且全面的分類法,從多個角度對DRL解決方案進行分類:通過DRL學習的機器人能力、問題的表述、解決方案的方法以及現實世界成功的水平。以往關于機器人強化學習和更廣泛的機器人學習的綜述通常集中在特定任務(11, 12)或特定技術(13, 14)上。相比之下,我們的分類法允許我們調查在機器人應用領域有效的DRL解決方案的完整圖景,此外,還分別回顧了每個應用領域的文獻。在此框架內,我們對解決方案進行比較和對比,識別共同模式、廣泛適用的方法、未充分探索的領域以及實現成功機器人系統的開放挑戰。
第三,盡管一些過去的綜述分享了我們對該領域進行廣泛分析的動機,但DRL快速而令人印象深刻的進展需要對該領域、其成功和局限性進行重新分析。Kober等(15)的開創性綜述是在深度學習時代之前撰寫的,而Sunderhauf等(16)關于機器人深度學習的一般綜述撰寫時,DRL的成就主要是在模擬中。我們通過專注于DRL提供了該領域的最新概述,DRL是機器人強化學習最顯著的現實世界成功背后的驅動力,特別關注過去五年中發表的論文,因為大多數成功都發生在這段時間內。
本節介紹我們用于分類深度強化學習(DRL)文獻的新分類法。由于我們對DRL在機器人領域現實世界成功的獨特關注,新的分類法可以對文獻進行分類和分析,從而評估DRL解決方案在各種機器人應用中的成熟度,并從成功與失敗中汲取寶貴的經驗教訓。具體而言,我們應識別每篇論文所解決的特定機器人問題,了解其如何抽象為強化學習問題,并總結為解決該問題所應用的DRL技術。更重要的是,我們應評估這些DRL解決方案在實驗中展示的成熟度。因此,我們引入了跨四個軸的分類法:通過DRL學習的機器人能力、問題表述、解決方案方法以及現實世界成功的水平。
我們的主要軸側重于每篇論文研究的目標機器人任務。機器人任務,尤其是在開放的現實世界場景中,可能需要多種能力。可以應用DRL來綜合一個端到端系統以實現所有能力,或者學習子模塊來實現其中的一部分能力。由于我們專注于DRL,因此我們根據通過DRL學習和實現的具體機器人能力對論文進行分類。我們首先將這些能力分類為單機器人——機器人獨立完成任務所需的能力,以及多智能體——與共享工作空間并影響其任務完成的其他智能體交互所需的能力。
當單個機器人在工作空間中完成任務時,它所需的任何能力都可以被視為實現與物理世界交互和影響的具體方式,進一步分為移動性——在環境中移動——和操作性——移動或重新安排(例如抓取、旋轉)環境中的物體(17, 18, 19)。在機器人文獻中,移動性通常分為兩個問題:運動能力和導航能力(18, 20)。運動能力側重于使各種形態的機器人(例如四足機器人、人形機器人、輪式機器人、無人機)能夠穿越不同環境的運動技能,而導航能力側重于引導機器人高效且無碰撞地到達目的地的策略。典型的導航策略生成高層次運動命令,例如質心(CoM)的期望狀態,同時假設有效的運動控制來執行這些命令(18)。有些工作同時解決了運動和導航問題,這對于導航策略受到機器人穿越環境能力(由機器人動力學和運動控制決定)嚴重影響的任務特別有用,例如穿越困難地形(20)或競速(21)。我們將這些論文與其他導航論文一起審查,因為它們的最終目標是導航。
在機器人文獻中,操作性通常在桌面環境中研究,例如安裝在固定底座上的機器人手臂或手,固定傳感器觀察場景。一些其他現實世界任務進一步要求機器人在移動底座的同時與環境交互(例如家用和倉庫機器人),這需要操作性和移動能力的協同整合。我們在固定操作性類別下審查前一種情況,在移動操作性類別下審查后一種情況。
當任務完成受到工作空間內其他智能體影響時,機器人需要進一步具備與其他智能體交互的能力,我們將其歸入多智能體能力類別。需要注意的是,在機器人與其他智能體交互時,仍可能需要某些單機器人能力,例如人群導航或協作操作。在此類別中,我們重點關注在智能體交互層面進行DRL的論文,即在給定某些單機器人能力的情況下學習交互策略,或學習聯合優化交互和單機器人能力的策略。根據機器人交互的智能體類型,我們將這些工作進一步分為兩個子類別:1)人機交互,關注機器人與人類一起操作的能力。人類的存在帶來了額外的挑戰,因為他們行為復雜且對機器人在其周圍操作有嚴格的安全要求。2)多機器人交互,指機器人與一組機器人交互的能力。通常使用一類強化學習算法——多智能體強化學習(MARL)來解決此問題。在MARL中,每個機器人都是一個學習智能體,根據其與環境和其他機器人的交互來演變其策略,這使得學習機制更加復雜。根據機器人目標是否一致,它們的交互可能是合作的、對抗的或一般總和的。此外,實際場景通常需要在部分可觀測性和有限通信帶寬下進行分散決策。
分類法的第二個軸是強化學習問題的表述,這指定了針對目標機器人能力的最優控制策略。RL問題通常建模為單智能體RL的部分可觀測馬爾可夫決策過程(POMDP)和多智能體RL的分散POMDP(Dec-POMDP)。具體而言,我們根據以下問題表述元素對論文進行分類:1)動作空間:動作是低級別(即關節或電機命令)、中級別(即任務空間命令)還是高級別(即時間延伸的任務空間命令或子例程);2)觀測空間:觀測是高維傳感器輸入(例如圖像和/或LiDAR掃描)還是估計的低維狀態向量;3)獎勵函數:獎勵信號是稀疏的還是密集的。由于篇幅限制,這些術語的詳細定義見補充材料。
另一個與前一個軸密切相關的軸是用于解決RL問題的解決方案方法,它由RL算法和相關技術組成,能夠為目標機器人問題提供實際解決方案。具體而言,我們從以下角度對解決方案方法進行分類:1)模擬器使用:是否以及如何使用模擬器,分為零樣本、少量樣本模擬到現實轉移,或直接在現實世界中離線或無模擬器學習;2)模型學習:是否從機器人數據中學習(部分)過渡動態模型;3)專家使用:是否使用專家(例如人類或預言策略)數據來促進學習;4)策略優化:采用的策略優化算法,包括計劃或離線、離政策或在政策RL;5)策略/模型表示:用于表示策略或動態模型的神經網絡架構類別,包括MLP、CNN、RNN和Transformer。詳細術語定義見補充材料。
為了評估DRL在現實世界機器人任務中的實用性,我們根據其DRL方法的成熟度對論文進行分類。通過比較不同機器人任務中DRL的有效性,我們旨在識別研究原型與現實世界部署之間差距較大或較小的領域。這需要一個量化各任務現實世界成功水平的指標,據我們所知,這在DRL機器人文獻中尚未嘗試過。受自動駕駛等級(22)和機器學習技術成熟度等級(TRL)(23)的啟發,我們引入了現實世界成功等級的概念。我們將論文分為六個等級,基于所驗證方法的情境:1)等級0:僅在模擬中驗證;2)等級1:在有限的實驗室條件下驗證;3)等級2:在多樣的實驗室條件下驗證;4)等級3:在有限的現實世界操作條件下驗證;5)等級4:在多樣、具有代表性的現實世界操作條件下驗證;6)等級5:在商業化產品中部署。我們認為等級1-5至少在某種程度上實現了現實世界的成功。我們可以用來評估現實世界成功等級的唯一信息是作者報告的實驗。然而,許多論文僅描述了單次現實世界試驗。雖然我們努力提供準確的估計,但由于信息有限,這種評估可能具有主觀性。此外,我們使用現實世界成功等級來量化解決方案在其目標問題上的成熟度,而不考慮其復雜性。
結論
深度強化學習(Deep Reinforcement Learning)近年來在開發許多機器人能力方面發揮了重要作用,取得了許多現實世界的成功。在本文中,我們回顧并分類了這些成功案例,基于特定的機器人能力、問題表述和解決方案方法對其進行了描述。通過這些軸向的分析,我們揭示了普遍趨勢和未來工作的重要方向,包括算法和程序的改進、現實世界學習的要素,以及整合本文所討論的所有能力的整體方法。利用強化學習的力量來構建具有能力的現實世界機器人系統,需要解決其應用中的基本挑戰和創新;盡管如此,我們預計強化學習將在開發普遍智能機器人方面繼續發揮核心作用。
隨著ChatGPT和Sora的卓越成就,生成式人工智能(GAI)受到了越來越多的關注。GAI的應用不僅限于內容生成領域,由于其強大的學習和泛化能力,它還廣泛用于解決無線通信場景中的問題。因此,本文討論了GAI在改善無人機(UAV)通信和網絡性能中的關鍵應用。具體來說,我們首先回顧了GAI的關鍵技術和UAV網絡的重要作用。然后,我們展示了GAI如何改善UAV系統的通信、網絡和安全性能。隨后,我們提出了一個用于先進UAV網絡的新型GAI框架,并基于該框架提出了一個UAV啟用的頻譜圖估計和傳輸率優化的案例研究,以驗證GAI啟用的UAV系統的有效性。最后,我們討論了一些重要的未解決方向。
從基于規則的算法到先進的學習模型,人工智能(AI)能夠解決的任務變得越來越復雜,這顯示了它在工業、商業和日常生活中解決問題的巨大潛力。傳統的AI方法,如判別式AI(DAI)或預測式AI(PAI),可以從大規模數據集中學習特定的范式,利用深度神經網絡處理分類和預測任務。雖然這些AI方法為現代數據驅動環境提供了基礎,并在處理動態需求中表現出良好的性能,但它們仍然面臨一些問題,例如依賴廣泛標注的數據集。 幸運的是,生成式AI(GAI)的出現緩解了DAI和PAI面臨的限制,標志著AI發展的新階段。具體來說,GAI可以從訓練數據中學習概率分布而不是類別邊界,然后基于學習到的分布生成可信的新樣本。與傳統AI方法相比,GAI的優勢可以總結如下:
得益于上述優勢,GAI在處理復雜任務中的重要性逐漸顯現。特別是ChatGPT和Sora的巨大成功激發了GAI研究,并催生了包括人機交互、圖像處理和視頻生成在內的多種應用。值得注意的是,除了在內容創作方面表現出色外,強大的生成和探索能力使其在處理復雜的通信和網絡優化問題上具有印象深刻的潛力,例如天線陣列優化[1]。 然而,對于無人機(UAV)通信和網絡的GAI研究還很少。目前,DAI、凸優化和博弈論常用于解決UAV優化問題。然而,這些傳統方法可能在處理UAV網絡問題時有限制,因為UAV的移動性和高度動態的環境。此外,如DAI等學習方法可能無法捕捉數據的潛在結構和特征,從而導致對問題的理解不全面,處理未知情況的能力弱。 GAI顯示出解決上述問題的巨大潛力。特別是,GAI所展示的強大學習和泛化能力可以用來優化UAV網絡的資源管理問題,以提高通信性能。例如,考慮到UAV的資源有限,GAI可以根據從目標區域部分收集的數據準確推斷整個目標區域的狀況,從而進行合理的資源分配和軌跡規劃。盡管將GAI整合到UAV通信和網絡中提供了顯著的優勢,但仍有一些問題需要進一步討論:
因此,我們提供了一個系統的教程來回答上述問題。據我們所知,這是第一項系統展示采用GAI解決UAV通信和網絡優化問題的工作。我們的貢獻總結如下:
GAI與UAV網絡概述在本節中,我們首先介紹GAI的關鍵技術和應用。隨后,介紹了UAV在網絡中的角色。最后,我們在物理層、網絡層和應用層展示了UAV上的GAI應用。 A.** GAI及其應用GAI基于從大規模訓練數據集獲得的廣泛通用知識,能夠執行滿足用戶需求的任務**。此外,它主要依賴于以下關鍵AI技術:
B. UAV通信和網絡UAV通信和網絡系統受到學術界越來越多的關注,并且已在實際應用中取得顯著成果。具體來說,UAV系統在通信和網絡領域的幾個主要角色如圖1所示,可以具體描述如下。
C. GAI在UAV通信和網絡中的應用請注意,DAI方法已廣泛用于解決UAV通信和網絡優化問題。例如,人工神經網絡被用來解決UAV通信的信道行為預測問題,支持向量機被用來解決超密集網絡中UAV輔助的資源分配問題。然而,采用DAI進行UAV網絡仍面臨以下限制:
DAI方法在解決UAV通信和網絡問題中所面臨的限制促使GAI的出現。接下來,我們將從物理層、網絡層和應用層三個角度展示GAI可以為UAV提供的服務,并分析UAV系統與其他無線系統在這些服務中的差異。
這篇系統性文獻綜述全面檢視了大型語言模型(LLMs)在預測和異常檢測中的應用,突出了當前研究的現狀、固有挑戰和未來的潛在方向。LLMs在解析和分析大規模數據集以識別模式、預測未來事件和檢測各個領域中的異常行為方面展示了顯著潛力。然而,本綜述識別了幾個關鍵挑戰,阻礙了它們更廣泛的采用和有效性,包括依賴龐大的歷史數據集、在不同上下文中的泛化問題、模型幻覺現象、模型知識邊界內的限制,以及所需的大量計算資源。通過詳細分析,本綜述討論了克服這些障礙的潛在解決方案和策略,如集成多模態數據、學習方法論的進步,以及強調模型可解釋性和計算效率。此外,本綜述概述了可能塑造LLMs在這些領域發展的關鍵趨勢,包括推向實時處理、可持續建模實踐的重要性,以及跨學科合作的價值。最后,本綜述強調了LLMs在預測和異常檢測方面可能產生的變革性影響,同時強調了實現它們全部潛力需要持續的創新、倫理考慮和實際解決方案的必要性。
這項系統性文獻綜述全面考察了大型語言模型(LLMs)在預測和異常檢測應用中的使用,強調了研究的當前狀態、固有挑戰和未來的潛在方向。LLMs在解析和分析大量數據集以識別模式、預測未來事件和檢測各個領域中的異常行為方面展示了顯著潛力。然而,這項綜述識別了幾個關鍵挑戰,這些挑戰阻礙了它們更廣泛的采用和有效性,包括依賴龐大的歷史數據集、在不同上下文中的泛化問題、模型幻覺現象、模型知識邊界的限制,以及所需的大量計算資源。通過詳細分析,本綜述討論了克服這些障礙的潛在解決方案和策略,例如集成多模態數據、學習方法論的進步,以及強調模型可解釋性和計算效率。此外,本綜述概述了可能塑造LLMs在這些領域發展的關鍵趨勢,包括向實時處理的推進、可持續建模實踐的重要性,以及跨學科合作的價值。總之,這項綜述強調了LLMs在預測和異常檢測方面可能產生的變革性影響,同時強調了實現它們全部潛力需要持續的創新、倫理考慮和實際解決方案的必要性。
預測和異常檢測在數據科學領域是至關重要的組成部分,為從網絡安全到金融市場的多個領域提供了基本見解。這些技術在預測即將到來的趨勢和識別偏離規范預期的非典型模式方面起著核心作用,這些能力在廣泛的應用中促進了預防性策略的發展。預測利用歷史數據來對未來事件或趨勢進行知情預測。它涉及對正在分析的情況進行假設選擇,選擇適當的數據集,分析數據,并確定預測。預測是多個行業戰略規劃和決策制定的基石,使組織和政策制定者能夠預測變化,管理風險,并有效分配資源。異常檢測,也稱為離群點檢測,是旨在識別與典型模式或規范顯著偏離的數據點、實體或事件的分析過程。這種方法在自動監控系統中發揮著關鍵作用,特別是在識別潛在有害的離群點,從而保護數據完整性和安全。
預測和異常檢測是分析過程,天生非常適合時間序列或帶時間戳的數據,因為它們尋求理解和利用的信息具有時間性質。時間序列數據是在時間間隔內收集或記錄的數據點序列,通常展示出趨勢、季節性變化和周期性,這是預測技術旨在捕捉并推測到未來的特征。帶時間戳的數據特別有助于異常檢測,因為它允許識別與建立的時間模式的偏差。例如,在網絡安全中,異常檢測系統可以識別可能表明安全漏洞的不尋常訪問模式。在工業環境中,它可能會標記傳感器讀數的意外下降或飆升,從而可能防止設備故障。
本研究著手全面探索LLMs在預測和異常檢測領域的整合和潛力,這些領域傳統上由定量數據分析主導。LLMs在自然語言處理(NLP)中的迅速發展提供了一個前所未有的機會來增強甚至可能革新這些領域。本文旨在彌合LLMs先進的語言處理能力與預測分析和檢測離群點中涉及的預測分析之間的差距。我們深入探討了從LLMs中獲得的定性見解如何補充傳統的定量方法,從而豐富了在包括金融、網絡安全和醫療保健在內的各個領域的分析深度和準確性。此外,這項調查還討論了在LLMs與這些關鍵數據科學應用交叉點的挑戰、倫理考慮和未來研究方向。我們的目標是提供一個全面的視角,不僅闡明了LLMs在這些領域的應用現狀,還激發了跨學科的對話和研究,導航現代數據環境的復雜性,并為預測分析鋪平了創新解決方案的道路。
貢獻概述如下:
這是第一篇全面的系統性文獻綜述(SLR),專門研究LLMs在預測和異常檢測領域的應用。通過這項綜述,我們闡明了LLMs對這些特定任務中的數值和文本數據的獨特影響。
本研究編制了一套指導方針,概述了LLMs在各種任務中的最佳利用方式,為該領域提供了一種結構化的方法來在實際場景中使用這些先進模型。
這項文獻綜述提供了盡可能深入的理論洞察,特別是LLMs處理復雜模式和傳統模型可能忽略的數據細微差別的能力。
本工作為未來圍繞預測和異常檢測建模的研究開辟了新的路徑。
論文接下來的結構安排如下:第2節概述了進行系統性文獻綜述的方法論。第3節提供了LLMs在預測和異常檢測研究當前狀態的概覽。第4節討論了將LLMs應用于這些領域的挑戰和限制。第5節探討了在基于LLM的預測和異常檢測中使用的數據集和數據預處理技術。第6節介紹了評估LLMs在這些任務中表現的評估指標和方法。第7節深入探討了LLMs在預測中的應用,而第8節專注于它們在異常檢測中的應用。第9節討論了使用LLMs在這些領域中可能面臨的潛在威脅和風險。第10節概述了LLMs在預測和異常檢測應用中的未來方向和潛在研究途徑。第11節提供了相關工作的概覽,第12節總結了本文。
大型語言模型(LLMs)的廣闊領域帶來了前所未有的自然語言處理進步,顯著影響了包括預測和異常檢測在內的各種任務。本節提供了LLMs當前狀態和演化的全面概覽,概述了它們的基礎結構、發展軌跡,以及它們在轉換數據分析和預測建模中所扮演的關鍵角色。從LLMs的背景開始,我們追溯了從初期階段到作為當代應用支柱的復雜預訓練基礎模型的語言模型的演化過程。然后,我們分類了LLMs顯示出顯著效果的任務,特別關注預測和異常檢測,以說明它們適用性的廣度。進一步的探索致力于利用LLMs的力量所采用的多樣化方法,包括基于提示的技術、微調機制、零樣本、少樣本學習的利用、重編程策略,以及結合多種方法以提高性能的混合方法。本節旨在讓讀者全面了解LLMs的復雜景觀,為后續部分更深入探索它們的能力和應用奠定基礎。
大型語言模型(LLMs)的出現顯著擴展了異常檢測的視野,為識別多樣化數據集和領域中的不規則性提供了復雜的解決方案。本節全面檢查了LLMs如何被利用來精確指出可能表明錯誤、欺詐、系統故障或網絡威脅的偏離。這一探索從時間序列異常檢測開始,其中LLMs分析順序數據以偵測不尋常模式,造福于依賴持續監控的行業,如金融、制造和能源。接下來,討論轉向異常日志分析,突出LLMs篩查大量日志數據以識別和分類異常的能力,從而提高IT安全和運營效率。關于微服務異常檢測的部分展示了LLMs在云計算和分布式系統這一日益復雜的領域中的應用,它們通過在微服務級別檢測異常,在維護系統健康和安全方面發揮著關鍵作用。這一詳盡的探索旨在闡明LLMs在異常檢測中的前沿方法論和有影響的應用,強調它們在保護和優化現代數字基礎設施中的關鍵作用。
這篇系統性文獻綜述探索了在預測和異常檢測背景下迅速發展的大型語言模型(LLMs)領域,提供了當前方法論、挑戰和未來方向的全面概覽。正如我們所見,LLMs擁有巨大的潛力來轉變這些領域,提供了能夠解析龐大數據集以預測未來事件和以顯著準確性識別偏離常規的復雜工具。然而,這一旅程充滿挑戰,包括依賴廣泛的歷史數據集、泛化問題、幻覺現象、知識邊界,以及對計算效率的需求。
盡管存在這些障礙,前進的道路被有希望的解決方案和創新所照亮。多模態數據源的整合、轉移和元學習的進步、對可解釋性和可信度的關注、推向實時處理和邊緣計算的推動、跨學科合作,以及對可持續建模實踐的承諾,都代表了將塑造LLMs在預測和異常檢測未來的關鍵趨勢。
本綜述強調了在這一領域繼續研究和發展的重要性,突出了對不僅強大和準確,而且透明、適應性強和易于獲取的模型的需求。隨著技術的進步,我們對倫理考慮的方法也必須進步,確保LLMs的部署對社會產生積極貢獻,并且不會加劇現有的不平等或環境問題。
總之,LLMs革新預測和異常檢測的潛力是明確的,但實現這一潛力需要科學界、行業利益相關者和政策制定者的共同努力。通過解決本綜述中概述的挑戰并利用新興趨勢所提供的機會,我們可以期待一個LLMs在引導我們理解現代世界的復雜性、推動對全社會有益的見解和創新中發揮關鍵作用的未來。
在過去的幾年里,機器學習得到了迅猛的發展,并在各個領域得到了廣泛的應用。這股熱潮始于2009年,當時出現了一種新的模型,即深度人工神經網絡,它開始在一些重要的基準上超越其他已建立的成熟模型。后來,它被廣泛應用于學術界和工業界。從圖像分析到自然語言處理,它充分發揮了它的魔力,現在已經成為最先進的機器學習模型。深度神經網絡在醫學影像技術、醫療數據分析、醫療診斷等醫療保健問題上具有巨大的潛力,并在臨床前甚至臨床階段得到推廣。在這篇綜述中,我們概述了機器學習在醫學圖像分析中的應用的一些新進展和挑戰,特別是在光聲成像中的深度學習。
這篇綜述的目的有三個:(i)介紹了深度學習的一些重要基礎知識,(ii)回顧了近年來在光聲成像的整個生態鏈中應用深度學習的工作,從圖像重建到疾病診斷,(iii)為有興趣將深度學習應用于光聲成像的研究人員提供一些開源材料和其他資源。
深度學習技術發展迅速,在醫學圖像處理領域取得了顯著成果。但是由于醫學圖像樣本少,標注困難,使得深度學習的效果遠未達到預期。近年,利用遷移學習方法緩解醫學圖像樣本不足的問題,提高深度學習技術在醫學圖像領域的效果,成為了研究熱點之一。介紹了遷移學習方法的基本概念、類型、常用策略及模型,根據遷移學習方法的類型,對當前醫學圖像領域具有代表性的相關研究進行了梳理與小結,對該領域的未來發展進行了總結和展望。