亚洲男人的天堂2018av,欧美草比,久久久久久免费视频精选,国色天香在线看免费,久久久久亚洲av成人片仓井空

移動智能體在復雜和動態的移動環境中自動化任務方面至關重要。隨著基礎模型的不斷演進,對能夠實時適應并處理多模態數據的智能體需求也隨之增加。本綜述全面回顧了移動智能體技術,重點關注提升實時適應性和多模態交互的最新進展。近期開發的評估基準更好地反映了移動任務中的靜態和交互式環境,從而對智能體的性能提供更準確的評估。

我們將這些進展分為兩大主要方法:基于提示的方法,利用大型語言模型(LLM)執行基于指令的任務;以及基于訓練的方法,對多模態模型進行微調,以適應特定的移動應用。此外,我們還探討了增強智能體性能的互補技術。通過討論關鍵挑戰并概述未來的研究方向,本綜述為推進移動智能體技術提供了寶貴的見解。完整的資源列表可訪問://github.com/aialt/awesomemobile-agents

1 引言

移動智能體在處理復雜的移動環境中取得了顯著的成功,能夠在各種應用中實現任務執行的自動化,且僅需最少的人為干預 (Zhang等, 2023a; Li等, 2024; Bai等, 2024)。這些智能體被設計用于感知、規劃和執行任務,以適應動態環境,特別適用于需要實時適應性的移動平臺。多年來,關于移動智能體的研究顯著發展,從簡單的基于規則的系統演變為能夠處理多模態和動態環境中復雜任務的先進模型 (Shi等, 2017; Rawles等, 2023)。

在早期階段,移動智能體主要關注通過輕量級的基于規則的系統執行預定義的工作流程,這些系統針對移動設備上的特定任務進行了優化。這些早期智能體通常受限于硬件的計算和存儲約束,主要依賴基本的交互模式和靜態流程。然而,移動技術的快速進步為更先進的智能體架構鋪平了道路,使其能夠執行更豐富的任務。 評估移動智能體面臨獨特的挑戰,因為傳統的靜態評估方法往往無法捕捉現實移動任務的動態和交互特性。為了解決這一問題,最近的基準如AndroidEnv (Toyama等, 2021)和Mobile-Env (Zhang等, 2023a) 提供了交互式環境,以評估智能體在真實條件下的適應性和表現。這些基準不僅測量任務完成情況,還評估智能體在應對不斷變化的移動環境方面的反應能力,從而對其能力進行更全面的評估。

移動智能體研究的最新進展可分為兩種方法:基于提示的方法和基于訓練的方法。基于提示的方法利用大型語言模型(LLM),如ChatGPT (OpenAI, 2023)和GPT-4 (OpenAI, 2023),通過指令提示和鏈式思維(CoT)推理處理復雜任務。OmniAct (Kapoor等, 2024) 和AppAgent (Yang等, 2023)等著名研究展示了基于提示的系統在交互式移動環境中的潛力,但其在可擴展性和穩健性方面仍面臨挑戰。另一方面,基于訓練的方法專注于微調多模態模型,例如LLaVA (Liu等, 2023a)和Llama (Touvron等, 2023),專門用于移動應用。這些模型能夠通過整合視覺和文本輸入來處理豐富的多模態數據,從而提升其在界面導航和任務執行等任務中的表現 (Ma等, 2024; Dorka等, 2024)。

本綜述對移動智能體技術進行了深入分析,重點關注感知、規劃、行動和記憶的基本組成部分。我們將現有研究分為基于提示和基于訓練的方法。此外,我們還探討了用于評估移動智能體性能的基準和指標,并討論了互補技術在增強智能體與移動環境交互中的作用。通過本次綜述,我們旨在識別當前的挑戰和未來在推進移動智能體研究方面的機遇。

付費5元查看完整內容

相關內容

摘要—基礎模型(FM)驅動的代理服務被視為一種有前景的解決方案,用于開發智能化和個性化的應用,推動人工通用智能(AGI)的發展。為了在部署這些代理服務時實現高可靠性和可擴展性,必須協同優化計算和通信資源,從而確保有效的資源分配和無縫的服務交付。為實現這一愿景,本文提出了一個統一框架,旨在提供一個全面的綜述,探討在異構設備上部署基于FM的代理服務,重點是模型和資源優化的集成,以建立一個強大的基礎設施支持這些服務。特別地,本文首先探索了推理過程中的各種低層次優化策略,并研究了增強系統可擴展性的方法,如并行化技術和資源擴展方法。接著,本文討論了幾種重要的基礎模型,并調查了專注于推理加速的研究進展,包括模型壓縮和標記減少等技術。此外,本文還研究了構建代理服務的關鍵組件,并突出了值得關注的智能應用。最后,本文提出了開發具有高服務質量(QoS)實時代理服務的潛在研究方向。 關鍵詞—基礎模型、AI代理、云/邊緣計算、服務系統、分布式系統、AGI。

I. 引言

人工智能(AI)的快速發展使得基礎模型(FM)成為創新的基石,推動了自然語言處理、計算機視覺和自主系統等多個領域的進步。這些模型的特點是參數空間龐大,并在廣泛的數據集上進行了深度訓練,孕育了從自動化文本生成到高級多模態問答和自主機器人服務等眾多應用[1]。一些流行的基礎模型,如GPT、Llama、ViT和CLIP,推動了AI能力的邊界,提供了處理和分析大量數據的復雜解決方案,涵蓋了不同格式和模態。基礎模型的持續進展顯著增強了AI在理解和與世界互動方面的能力,使其在某種程度上類似于人類認知。 然而,傳統的基礎模型通常僅限于提供問答服務,并根據已有知識生成回答,往往無法整合最新信息或利用先進工具。基礎模型驅動的代理服務旨在增強基礎模型的能力。這些代理具備動態記憶管理、長期任務規劃、高級計算工具以及與外部環境的交互功能[2]。例如,基礎模型驅動的代理能夠調用不同的外部API以訪問實時數據,執行復雜的計算,并根據最新的可用信息生成更新的響應。這種方法提高了響應的可靠性和準確性,并使與用戶的互動更加個性化。 開發具有低延遲、高可靠性、高彈性并且資源消耗最小的服務系統,對于向用戶提供高質量的代理服務至關重要。這樣的系統能夠有效地管理不同的查詢負載,同時保持快速響應并減少資源成本。此外,在異構的邊緣-云設備上構建服務系統,是利用邊緣設備的閑置計算資源和云端豐富計算集群的一種有前景的解決方案。邊緣-云設備的協同推理能夠通過根據計算負載和實時網絡條件動態分配任務,提升整體系統效率。 盡管許多研究已經探討了小型模型在邊緣-云環境中的協同推理,但在這種范式下部署基礎模型以支持多樣化的代理服務仍然面臨著一些嚴重挑戰。首先,波動的查詢負載極大地挑戰了模型服務。隨著越來越多的用戶希望體驗基礎模型驅動的智能代理服務,查詢負載急劇增加。例如,截至2024年4月,ChatGPT的用戶約為1.805億,其中每周活躍用戶約為1億[3]。這些用戶在不同時間訪問服務,導致請求速率變化。因此,彈性服務系統應根據當前的系統特性動態調整系統容量。其次,基礎模型的參數空間極為龐大,達到數百億規模,這對存儲系統提出了巨大挑戰。然而,邊緣設備和消費級GPU的存儲容量有限,無法容納整個模型。龐大的參數量導致了顯著的推理開銷和較長的執行延遲。因此,有必要設計模型壓縮方法,并在不同的執行環境中采用不同的并行化方法。此外,用戶在不同應用中有不同的服務需求和輸入。例如,有些應用優先考慮低延遲,而有些則優先考慮高精度。這要求動態資源分配并調整推理過程。此外,AI代理需要在復雜環境中處理大量艱巨任務,這要求有效管理大規模內存、實時處理更新的規則和特定領域知識。此外,代理具有不同的個性和角色,因此需要設計高效的多代理協作框架。

為了解決上述挑戰,并推動實時基礎模型驅動的代理服務的發展,本文提出了一個統一框架,并從不同優化角度調查了多項研究成果。該框架如圖1所示。底層是執行層,邊緣或云設備在此執行基礎模型推理。聯合計算優化、輸入/輸出優化和通信優化被應用于加速推理,并促進構建強大的基礎模型基礎設施。資源層由兩個組件組成,幫助在不同設備上部署模型。并行化方法設計了不同的模型拆分和放置策略,以利用可用資源并協同提高吞吐量。資源擴展根據查詢負載和資源利用情況動態調整硬件資源,從而提高整體可擴展性。模型層專注于優化基礎模型,提出了兩種輕量級方法,包括模型壓縮和標記減少,旨在推動基礎模型的廣泛應用。基于這些基礎模型,構建了許多AI代理來完成各種任務。為了增強代理的四個關鍵組件,提出了許多方法,包括多代理框架、規劃能力、記憶存儲和工具利用。最終,利用上述技術,可以開發各種應用,為用戶提供智能化和低延遲的代理服務。

A. 相關工作

許多研究集中于優化在邊緣-云環境中部署機器學習模型的系統。KACHRIS回顧了一些用于大規模語言模型(LLMs)計算加速的硬件加速器,以解決計算挑戰[4]。Tang等人總結了旨在優化網絡和計算資源的調度方法[5]。Miao等人提出了一些加速方法以提高大規模語言模型的效率[6]。這項綜述涵蓋了系統優化,如內存管理和內核優化,以及算法優化,如架構設計和壓縮算法,以加速模型推理。Xu等人關注人工智能生成內容(AIGC)的部署,并概述了AIGC的移動網絡優化,涵蓋了數據集收集、AIGC預訓練、AIGC微調和AIGC推理過程[7]。Djigal等人研究了機器學習和深度學習技術在多接入邊緣計算(MEC)系統中資源分配的應用[8]。該綜述包括了資源卸載、資源調度和協同分配。許多研究提出了不同的算法來優化基礎模型和代理的設計。[1]、[9]和[10]提出了流行的基礎模型,特別是大規模語言模型。[11]、[12]和[13]總結了大規模語言模型的模型壓縮和推理加速方法。[2]、[14]和[15]回顧了代理開發中的挑戰和進展。 總之,上述研究要么優化了邊緣-云資源分配和調度以支持小型模型,要么為大規模基礎模型設計了加速或效率方法。據我們所知,本文是首篇全面綜述和討論實時基礎模型驅動的代理服務在異構設備上部署的研究,近年來這一研究方向已經變得尤為重要。我們設計了一個統一框架,填補了這一研究空白,并從不同視角回顧當前的研究成果。該框架不僅勾畫了基礎模型部署的關鍵技術,還識別了基礎模型驅動的代理服務的關鍵組件和相應的系統優化方法。

B. 貢獻

本文全面綜述了在邊緣-云環境中部署基礎模型驅動的代理服務,涵蓋了從硬件到軟件層的優化方法。為方便讀者,本文提供了綜述的大綱(見圖2)。本文的貢獻總結如下:

  • 本綜述提出了第一個全面的框架,旨在深度理解在邊緣-云環境中部署基礎模型驅動的代理服務。該框架具有促進人工通用智能(AGI)發展的巨大潛力。
  • 從低層次硬件角度出發,本文展示了各種運行時優化方法和資源分配與調度方法,這些技術旨在為基礎模型構建可靠且靈活的基礎設施。
  • 從高層次軟件角度出發,本文闡述了專注于模型優化和代理優化的研究工作,提供了構建智能化和輕量化代理應用的多種機會。

本文其余部分安排如下:第二節介紹了一些低層次的執行優化方法;第三節描述了資源分配和并行機制;第四節討論了當前的基礎模型及模型壓縮和標記減少技術;第五節闡明了代理的關鍵組件;第六節介紹了批處理方法及相關應用;最后,第七節討論了未來的研究方向并作結論總結。

付費5元查看完整內容

從符號型和反應型智能體到基于強化學習和遷移學習的智能體,再到當前基于大模型 的智能體,AI智能體經歷了三代發展,逐漸成為人工智能研究和應用的核心。其中基于大模型的智能 體是能夠更準確地感知環境、進行反應和判斷、形成并執行決策的智能計算實體,在多個領域展現出 廣泛的應用前景,包括圖像生成、視頻生成、數據分析、圖文修改輔助、談判指導、教育教學、學術 研究、生活助手、網站開發等。OpenAI、Google、Apple、NVIDIA等國外廠商,以及騰訊、百度、商 湯、聯想、訊飛等國內廠家,都在大模型智能體領域進行了積極的探索與實踐,推出了各自的大模型 智能體產品,涵蓋了游戲、生活、線上助手、營銷、教育等多個領域。本文將回顧AI智能體的定義與 發展,著重介紹大模型智能體的概念和發展前沿,以及大模型智能體在產業實踐方面的代表性成果, 為有志于大模型智能體研究和開發的讀者提供參考。

付費5元查看完整內容

人工智能(AI)智能體是一種軟件實體,它根據預定義的目標和數據輸入自主執行任務或做出決策。AI智能體能夠感知用戶輸入、推理和計劃任務、執行動作,并在算法開發和任務性能方面取得了顯著進展。然而,它們所帶來的安全挑戰仍未得到充分探索和解決。本綜述深入探討了AI智能體面臨的新興安全威脅,將其分為四個關鍵知識空白:多步用戶輸入的不可預測性、內部執行的復雜性、操作環境的多變性以及與不可信外部實體的交互。通過系統性地審視這些威脅,本文不僅突出了在保護AI智能體方面所取得的進展,還揭示了現有的局限性。所提供的見解旨在激發進一步的研究,以解決與AI智能體相關的安全威脅,從而促進更加健全和安全的AI智能體應用的發展。

人工智能(AI)智能體是通過自主性、反應性、主動性和社交能力展示智能行為的計算實體。它們通過感知輸入、推理任務、規劃行動和使用內部和外部工具執行任務,與其環境和用戶互動以實現特定目標。以GPT-4等大型語言模型(LLMs)為動力的AI智能體,在包括醫療、金融、客戶服務和智能體操作系統等各個領域的任務完成方式上實現了革命性變化。這些系統利用LLMs在推理、規劃和行動方面的先進能力,使它們能夠以卓越的性能執行復雜任務。

//www.zhuanzhi.ai/paper/2cdbfa599ada6be5d12a7ba7d7606445

盡管AI智能體取得了顯著進展,但其日益復雜化也引入了新的安全挑戰。由于AI智能體部署在各種關鍵應用中,確保其安全至關重要。AI智能體安全指的是旨在保護AI智能體免受可能損害其功能、完整性和安全性的漏洞和威脅的措施和實踐。這包括確保智能體能夠安全處理用戶輸入、執行任務,并與其他實體交互,而不會受到惡意攻擊或意外有害行為的影響。這些安全挑戰源于四個知識空白,如果不加以解決,可能導致漏洞和潛在的濫用。

如圖1所示,AI智能體的四個主要知識GAP分別是:1)多步用戶輸入的不可預測性,2)內部執行的復雜性,3)操作環境的多變性,4)與不可信外部實體的交互。以下幾點詳細說明了這些知識空白。 - 空白1. 多步用戶輸入的不可預測性。用戶在與AI智能體互動中起著關鍵作用,不僅在任務啟動階段提供指導,還通過多輪反饋在任務執行過程中影響方向和結果。用戶輸入的多樣性反映了不同背景和經驗,引導AI智能體完成多種任務。然而,這些多步輸入也帶來了挑戰,尤其是在用戶輸入描述不足時,可能導致潛在的安全威脅。用戶輸入的不充分說明不僅會影響任務結果,還可能引發一系列意外反應,導致更嚴重的后果。此外,存在故意引導AI智能體執行不安全代碼或操作的惡意用戶,這增加了額外的威脅。因此,確保用戶輸入的清晰性和安全性對于AI智能體的有效和安全運行至關重要。這需要設計高度靈活的AI智能體生態系統,能夠理解和適應用戶輸入的多樣性,同時確保有健全的安全措施以防止惡意活動和誤導性用戶輸入。 - 空白2. 內部執行的復雜性。AI智能體的內部執行狀態是一個復雜的鏈式結構,包括從提示的重格式化到LLM任務規劃和工具的使用。許多內部執行狀態是隱含的,難以觀察詳細的內部狀態。這導致許多安全問題無法及時發現。AI智能體安全需要審核單個AI智能體的復雜內部執行。

- 空白3. 操作環境的多變性。在實踐中,許多智能體的開發、部署和執行階段跨越各種環境。這些環境的多變性可能導致行為結果的不一致。例如,執行代碼的智能體可能在遠程服務器上運行給定代碼,可能導致危險操作。因此,跨多個環境安全完成工作任務是一個重大挑戰。

- 空白4. 與不可信外部實體的交互。AI智能體的一個關鍵能力是教大模型如何使用工具和其他智能體。然而,當前AI智能體與外部實體的交互過程假設了一個可信的外部實體,導致了廣泛的實際攻擊面,如間接提示注入攻擊。AI智能體與其他不可信實體交互是一個挑戰。

雖然已有一些研究工作針對這些空白,但針對AI智能體安全的全面回顧和系統分析仍然缺乏。一旦這些空白得到彌補,AI智能體將因更清晰和更安全的用戶輸入、增強的安全性和對潛在攻擊的魯棒性、一致的操作環境行為以及用戶的信任和可靠性增加而受益。這些改進將促進AI智能體在關鍵應用中的更廣泛采用和整合,確保它們能夠安全有效地執行任務。

現有關于AI智能體的綜述主要集中在其架構和應用上,未深入探討安全挑戰和解決方案。我們的綜述旨在填補這一空白,通過詳細回顧和分析AI智能體安全,識別潛在解決方案和緩解這些威脅的策略。所提供的見解旨在激發進一步的研究,以解決與AI智能體相關的安全威脅,從而促進更加健全和安全的AI智能體應用的發展。

在本綜述中,我們基于四個知識空白系統性地回顧和分析了AI智能體安全的威脅和解決方案,覆蓋了廣度和深度方面。我們主要收集了從2022年1月到2024年4月期間在頂級AI會議、頂級網絡安全會議和高度引用的arXiv論文。AI會議包括但不限于NeurIPs、ICML、ICLR、ACL、EMNLP、CVPR、ICCV和IJCAI。網絡安全會議包括但不限于IEEE S&P、USENIX Security、NDSS和ACM CCS。

本文組織如下。第二節介紹了AI智能體的概述。第三節描述了與空白1和空白2相關的單智能體安全問題。第四節分析了與空白3和空白4相關的多智能體安全問題。第五節提出了該領域發展的未來方向。

### 2.1 統一概念框架下的AI智能體概述

術語

為了便于理解,我們在本文中介紹以下術語。如圖2所示,用戶輸入可以使用輸入格式化工具重新格式化,以通過提示工程提升輸入質量。這一步也稱為感知。推理指的是設計用于分析和推導信息的大型語言模型,幫助從給定提示中得出邏輯結論。另一方面,規劃指的是一個大型語言模型,旨在通過評估可能的結果并優化特定目標,幫助制定策略和決策。用于規劃和推理的LLMs的組合被稱為大腦。外部工具調用則統稱為行動。在本綜述中,我們將感知、大腦和行動的組合稱為內部執行。另一方面,除了內部執行,AI智能體還可以與其他AI智能體、記憶和環境互動;我們稱之為交互。這些術語也可以在文獻[186]中詳細探討。 1986年,Mukhopadhyay等人的研究提出了多個智能節點文檔服務器,通過用戶查詢有效地從多媒體文檔中檢索知識。隨后的一項工作[10]也發現了計算機助手在用戶與計算機系統交互中的潛力,突出了計算機科學領域的重要研究和應用方向。隨后,Wooldridge等人[183]將表現出智能行為的計算機助手定義為智能體。在人工智能發展的領域中,智能體被引入為具有自主性、反應性、主動性和社交能力的計算實體[186]。如今,得益于大型語言模型的強大能力,AI智能體已成為幫助用戶高效完成任務的主要工具。如圖2所示,AI智能體的一般工作流程通常包括兩個核心組成部分:內部執行和交互。AI智能體的內部執行通常表示在單一智能體架構內運行的功能,包括感知、大腦和行動。具體來說,感知向大腦提供有效的輸入,而行動則通過LLM的推理和規劃能力處理這些輸入并進行子任務。然后,這些子任務由行動按順序運行以調用工具。①和②表示內部執行的迭代過程。交互指的是AI智能體與其他外部實體互動的能力,主要通過外部資源。這包括在多智能體架構內的合作或競爭、在任務執行過程中檢索記憶,以及從外部工具中部署環境及其數據使用。請注意,在本綜述中,我們將記憶定義為外部資源,因為大多數與記憶相關的安全風險源于外部資源的檢索。 從核心內部邏輯的角度來看,AI智能體可以分為基于強化學習的智能體和基于大型語言模型的智能體。基于RL的智能體使用強化學習,通過與環境互動學習和優化策略,旨在最大化累積獎勵。這些智能體在具有明確目標的環境中效果顯著,例如指令執行[75, 124]或構建世界模型[108, 140],它們通過試錯進行適應。相反,基于LLM的智能體依賴于大型語言模型[92, 173, 195],它們在自然語言處理任務中表現出色,利用大量文本數據掌握語言復雜性,以實現有效的溝通和信息檢索。每種類型的智能體都有不同的能力,以實現特定的計算任務和目標。

### 2.2 AI智能體的威脅概述

目前,有幾篇關于AI智能體的綜述[87, 105, 160, 186, 211]。例如,Xi等人[186]提供了一個針對基于LLM的智能體應用的全面系統回顧,旨在審查現有研究和未來可能性。在文獻[105]中總結了當前AI智能體的架構。然而,它們沒有充分評估AI智能體的安全性和可信度。Li等人[87]未能考慮多智能體場景的能力和安全性。一項研究[160]僅總結了科學LLM智能體固有的潛在風險。Zhang等人[211]則僅調查了AI智能體的記憶機制。

我們的主要關注點是與四個知識空白相關的AI智能體的安全挑戰。如表1所示,我們總結了討論AI智能體安全挑戰的論文。威脅來源列識別了在AI智能體通用工作流程的各個階段使用的攻擊策略,分為四個空白。威脅模型列識別了潛在的對手攻擊者或易受攻擊的實體。目標效果總結了與安全相關問題的潛在結果。 我們還提供了AI智能體威脅的新分類法(見圖3)。具體來說,我們根據其來源位置識別威脅,包括內部執行和交互。

付費5元查看完整內容

近年來,大型語言模型(LLM)的集成徹底改變了機器人技術領域,使機器人能夠以類似人類的熟練程度進行交流、理解和推理。本文探討了LLM對機器人學的多方面影響,討論了利用這些模型的關鍵挑戰和機遇。通過對LLM在機器人核心元素——通信、感知、規劃和控制中的應用進行分類和分析,我們旨在為尋求將LLM集成到其機器人系統中的研究者提供可行的見解。

我們的研究主要集中在GPT-3.5之后開發的LLM上,主要是基于文本的模式,同時也考慮了用于感知和控制的多模態方法。我們提供全面的指導原則和示例,以便初學者能夠輕松接觸基于LLM的機器人解決方案。通過教程級別的示例和結構化的提示構建,我們展示了如何將LLM引導的增強功能無縫集成到機器人應用中。本綜述為研究人員在不斷發展的LLM驅動的機器人技術領域中的導航提供了路線圖,提供了全面的概述和實用的指導,以利用語言模型在機器人開發中的潛力。

在過去的十年中,我們見證了機器人學領域在應用語言模型(LMs)方面取得了顯著的進展。這些進展不僅包括類似人類的交流能力,還包括機器人的理解和推理能力,從而顯著提高了它們在從家庭雜務到工業操作等各種任務中的效率。在早期工作中,這些成功源于統計模型分析和預測語言表達中的詞匯。這些模型使機器人能夠解釋人類命令,理解上下文,表征世界,并與人類互動,盡管理解的深度有限。隨后,采用了具有自我注意機制的Transformer架構,尤其是像BERT這樣的預訓練語言模型,提高了捕捉復雜模式的能力,同時為特定任務進行微調。然而,這些模型的性能通常取決于有限的數據集,限制了它們把握更深層次上下文理解和在不同場景中泛化的能力。

隨著大型語言模型(LLMs)的發展,基于語言的機器人引入了各個領域的創新變化,如信息檢索、推理任務、環境適應、持續學習和改進等。這些LLMs,以其龐大的參數規模和在互聯網規模數據集上的訓練為特征,為下游任務提供了零次和少次學習能力,而不需要額外的參數更新。這些顯著的進步來自于文獻中定義為“在小模型中不存在但在大模型中出現的能力”的突現能力。這些能力顯著增強了機器人在理解、推斷和響應開放式指令方面的性能,利用了廣泛的常識知識。此外,稱為提示工程的提示創建技術使LLMs能夠通過自由形式的語言描述或互動對話,整合更豐富的上下文信息,促進了泛化推理。引入上下文學習能力使LLMs能夠根據提供的指示或示例中的提示生成預期格式的輸出,如JSON、YAML或PDDL,甚至代碼。最近的LLMs,如GPT-4,通過與外部機器人工具(如規劃器或翻譯器)的整合,進一步擴展了能力。

盡管LLMs具有多樣的能力,但它們的利用面臨幾個挑戰。首先,LLMs經常生成不準確或意外的響應。由于機器人執行的安全性是最重要的部署因素,基于LLM的機器人應用需要過濾和糾正機制以確保安全。其次,如上下文學習等突現能力尚不可預測且不一致。即使是對輸入文本的輕微更改也可能導致響應的不可預測變化。第三,精心設計的提示使機器人能夠有效地利用LLMs的能力,但缺乏支持機器人系統關鍵組件的系統化指導,阻礙了無縫集成。因此,我們需要研究LLMs在機器人中的逐部件參與,以了解其限制和安全性。 當前,各種綜述已開始探索LLMs與機器人的交集,主要關注LLM驅動的機器人應用或互動維度。然而,仍然存在在機器人系統的關鍵元素,包括通信、感知、規劃和控制方面提供全面評論和可操作見解的空白。此外,研究者們還在探索廣泛的預訓練大容量模型領域,稱為基礎模型,尋求跨模態Transformer模型的泛化能力。然而,這一廣闊領域涵蓋了廣泛的機器人學和多樣的方法論,使得新興研究者錯過深入的評論和指導。 在本文中,如圖1所示,我們旨在分類和分析LLMs如何增強機器人系統的核心元素,以及我們如何指導新興研究者在每個領域內整合LLMs,以促進智能機器人的發展。我們根據三個關鍵問題結構化本文: ? Q1: LLMs在每個機器人領域中如何被利用? ? Q2: 研究人員如何克服LLMs的集成限制? ? Q3: 在每個領域產生最低功能所需的基本提示結構是什么?

為了回答這些問題,我們專注于在引入GPT-3.5之后開發的LLMs。我們主要考慮基于文本的模式,但也審查了感知和控制領域的多模態。然而,為了進行深入審查,我們將調查限制在LLMs而非基礎模型上。 此外,我們提供了全面的提示工程指南和示例,旨在使初學者能夠訪問基于LLM的機器人解決方案。我們的教程級示例展示了如何通過引入四種類型的示例提示——對話提示用于互動定位,指令提示用于場景圖生成,計劃提示用于少次計劃,以及代碼生成提示用于獎勵生成——增強或替換機器人組件的基本功能。通過提供提示構建的規則和技巧,我們概述了生成預期格式輸出的良好設計提示的過程。這些原則確保了機器人應用中有效的LLM引導增強,無需參數調整。

本文的其余部分安排如下。第2節概述了機器人學中LMs和LLMs的歷史背景。第3節評審了LLMs賦能機器人通過語言理解和生成進行交流的方式。第4節調查了LLMs如何感知各種傳感器模態并推進感知行為。第5節和第6節分別組織了基于LLM的計劃和控制研究。在第7節中,我們提供了提示工程的全面指南,作為LLM在機器人中集成的起點。最后,第8節總結了這篇綜述。

付費5元查看完整內容

智能規劃又叫自動規劃,主要研究在復雜環境下,如何通過自動化的方式生成可行的行動序列,以實現從初始狀態到達目標狀態。大語言模型是指使用大量文本數據訓練的深度學習生成式模型,可以生成自然語言文本或理解語言文本的含義。當前圍繞如何讓大語言模型在強大的常識性知識基礎上獲得生成式智能規劃能力已然成為當下研究的熱潮。本文從大語言模型的視角入手,首先對智能規劃的定義和發展進行概述、簡要介紹了傳統智能規劃的方法;其次基于大語言智能體與智能規劃的緊密關系,介紹了大語言模型的架構和典型的大模型智能體;再次重點圍繞大模型的智能規劃,梳理了規劃語言學習、思維鏈推理、反饋優化和流程自動化共4類規劃方法;最后結合當前的挑戰與困難,介紹大模型進行智能規劃的前沿研究展望。

付費5元查看完整內容

視頻生成是一個迅速發展的研究領域,由于其廣泛的應用范圍而獲得了重大關注。這一領域的一個關鍵方面是長時視頻的生成,這呈現了獨特的挑戰和機遇。本文呈現了對長視頻生成近期進展的第一個綜述,并將其總結為兩個關鍵范式:分而治之或時間自回歸。我們深入探討了每個范式中常用的模型,包括網絡設計和條件技術的方面。此外,我們提供了數據集和評估指標的全面概述和分類,這對于推進長視頻生成研究至關重要。以現有研究的總結結束,我們還討論了這一動態領域中出現的挑戰和未來方向。我們希望這篇綜述能成為長視頻生成領域的研究人員和實踐者的重要參考。

//www.zhuanzhi.ai/paper/6fcdf09712b06f301551fccf2dc693f8

計算機視覺和人工智能領域經歷了變革性的增長,特別是在視頻生成領域。最近,開發出能夠產生高質量和逼真視頻序列的算法激增。值得注意的是,長視頻的生成,以其延長的持續時間和復雜的內容為特征,為社區提出了新的挑戰并激發了新的研究方向。

盡管如此,關于長視頻生成的研究仍存在差距。當前研究中的一個缺口是缺乏長視頻的標準定義。長短視頻之間的區別通常依賴于不同工作中的相對度量,如幀數(例如,512,1024或3376幀)或持續時間(例如,3、5分鐘),與較短視頻(例如,30、48或64幀)相比。考慮到研究標準的多樣性,我們在圖1中總結了現有研究中聲稱的長視頻生成的視頻長度,基于此我們提出了長視頻的定義。具體而言,如果視頻的持續時間超過10秒,假設標準幀率為10fps,或者等價地,如果視頻包含超過100幀,則將視頻分類為“長”視頻。這一定義旨在為各種研究背景中長視頻的識別提供一個明確的基準。

根據這一定義,長視頻長度已取得顯著進展。Yin等人(2023)提出了一種分而治之的擴散結構,專門針對長視頻進行訓練,以消除推理和訓練之間的差距,成功生成長達1024幀的視頻。Zhuang等人(2024)利用大型語言模型(LLM)的強大能力,將輸入文本擴展為腳本,以指導生成分鐘級長視頻。最近,Sora(OpenAI,2024)實現了高保真且無縫生成長達一分鐘的長視頻,特色包括多分辨率和鏡頭轉換等高質量效果。此外,許多杰出的研究在現有視頻生成模型上引入了新的結構和思想,為長視頻生成鋪平了道路。

即便如此,長視頻的生成仍面臨諸多挑戰。其核心是,長視頻的固有多維復雜性對處理和生成的硬件資源提出了巨大的需求,導致訓練和生成成本在時間和資源上的顯著增加。這提出了在現有資源約束下生成長視頻的挑戰。此外,長視頻數據集的稀缺性未能滿足訓練要求,阻止研究人員直接獲得支持長視頻模型生成的最優參數。在這種情況下,當生成的視頻長度超過某些閾值時,難以保持長視頻生成的時間一致性、連續性和多樣性。此外,當前研究表面上出現了幾種偏離現實世界既定物理定律的現象,提出了尚未被現有方法理解或直接操縱的未預見挑戰。因此,長視頻生成研究仍處于早期階段,有許多挑戰待解決,需要進一步的探索和發展。 在這項綜述中,我們對長視頻生成的現有研究進行了全面調查,旨在提供當前發展狀態的清晰概述,并為其未來進展做出貢獻。本文其余部分的組織概述在圖2中。最初,我們在第1節中定義了長視頻持續時間。第2節討論了四種不同類型的視頻生成模型和控制信號。根據第1節和第2節,我們在第3.1節和第3.2節中分別介紹了簡化長視頻生成任務的兩種常見范式:分而治之和時間自回歸。第4節和第5節討論了視頻質量改進和硬件要求。最后,本文以長視頻生成的總結和對新興趨勢及機會的討論結束。

我們詳細介紹了四種流行的視頻生成模型,包括擴散模型、自回歸模型、生成對抗網絡(GAN)和掩碼建模。 擴散模型用于視頻生成,采用了傳統擴散技術的迭代細化過程,這些技術最初是為靜態圖像設計的(Ho等,2020),適應了視頻的動態領域。這些模型的核心是從一系列隨機噪聲開始,通過一系列步驟逐步去噪,以生成一個連貫的視頻序列。每一步都由學習到的梯度指導,這些梯度能夠基于單個幀的空間內容及連續幀之間的時間關系預測性地去噪。這種方法允許生成的視頻不僅每一幀在視覺上與其前序幀一致,而且還有助于整個序列的流暢性。 在視頻生成中,空間自回歸模型(Alex Graves,2013)采用了一種獨特的方法,通過基于補丁的方法合成內容,每個補丁的創建依賴于與之前生成的補丁的空間關系。這個過程類似于遞歸算法,一次生成一個補丁。因此,它一幀一幀地構建視頻,直至完成。在這個框架內,補丁之間的空間關系至關重要,因為每個后續補丁必須與其鄰居無縫對齊,以確保整個幀在視覺上的連貫性。這種方法利用了視頻內容中固有的空間依賴性,確保視頻在時間上進展時,每一幀都與其前序幀保持一致和連續,不僅僅是在時間上,也在空間上。 GAN(生成對抗網絡)(Creswell等,2020)在使用GAN進行視頻生成的過程中,從生成器開始,將簡單的噪聲模式轉換為一系列視頻幀。這個本質上隨機的噪聲作為視頻制作的初始空白狀態。通過神經網絡的層,生成器逐漸將這個噪聲塑造成看起來像視頻幀的圖像,確保每一幀邏輯上緊跟上一幀,創造平滑的動作和可信的敘述。 這種從噪聲到視頻的演變通過來自鑒別器的反饋進行精煉,鑒別器是一個判斷生成的視頻看起來是真實還是假的組件。生成器從這個判斷中學習,隨著時間的推移提高其產生更逼真視頻的能力。最終目標是生成的視頻與真實視頻無法區分,并展示自然的動作和過渡。 掩碼建模在視頻生成中,掩碼建模利用了選擇性遮蓋視頻幀部分區域以增強模型學習過程的概念。這種技術通過在視頻的某些段落應用掩碼開始,有效地在訓練期間將它們隱藏起來。模型隨后學習基于可見的上下文和視頻的時間流動來預測這些遮蓋的部分。這個過程不僅迫使模型理解視頻內容的基本結構和動態,還提高了其生成連貫和連續視頻序列的能力。通過在部分可見數據上進行迭代訓練,模型變得擅長填補缺失的信息,確保生成的視頻保持場景和動作的自然進展。 長視頻生成范式

在長視頻生成的領域中,有限的計算資源的挑戰以及現有模型直接生成顯著持續時間視頻的能力不足,導致提出了兩個不同的范式:分而治之和時間自回歸,如圖3所示。這些范式旨在將長視頻生成的復雜任務解構為更易管理的過程,專注于創建單個幀或短片段,這些片段可以邏輯上組裝以完成長視頻的生成。 分而治之范式首先通過識別概述主要敘事的關鍵幀開始,然后生成介于關鍵幀之間的幀,以編織出一個連貫的長視頻。另一方面,時間自回歸范式,也簡稱為自回歸,采用序列方法基于先前條件生成短視頻段。這一范式旨在確保片段之間的流暢過渡,從而實現連續的長視頻敘述。與分而治之采取層次化方法通過區分故事線關鍵幀和補充填充幀不同,時間自回歸范式放棄了層次結構,轉而專注于直接生成由前序幀信息指導的詳細片段。 在這一部分,討論集中在兩個范式上,考察當前研究如何策略性地將長視頻生成任務簡化為更小、更易管理的任務。此外,它還突出了現有模型是如何被用于生成的,這些輸出隨后被組裝成完整的視頻敘述。

結論與未來方向

本文提供了長視頻生成領域最新研究進展的全面回顧。我們系統地回顧了四種視頻生成模型,并深入探討了基于這些模型生成長視頻的范式,將它們歸類為兩大類型:分而治之和自回歸。此外,我們的工作包括了長視頻生成質量特性的綜合總結。為旨在增強這些質量的現有研究提供了詳細解釋。還討論了聚焦于資源需求解決方案的研究。為了進一步推進該領域,我們識別了幾個未來發展的有希望方向。 數據資源擴展現有方法面臨著在訓練長視頻生成模型時由于長視頻數據集資源不足的挑戰,這些數據集未能滿足通過訓練數據獲得最優模型參數的要求。因此,這導致了如長視頻生成不連貫和內容重復等問題。為了解決這一問題,Gu等人(2023)提出了一種使用大型語言模型并轉換現有視頻內容以擴展數據集的方法,有效解決了數據稀缺問題。未來的研究可以探索更有效的方法來豐富長視頻數據集。 統一生成方法的開發長視頻生成的現有范式被總結為兩大類:分而治之和自回歸。雖然它們能夠利用現有模型生成長視頻,但每種方法都有其缺點。具體而言,分而治之受制于長視頻訓練數據集的稀缺性,需要顯著的生成時間,面臨在長時間跨度上預測關鍵幀的挑戰,且關鍵幀的質量顯著影響填充幀的質量。自回歸傾向于累積錯誤,并在多次推斷后遭受內容退化。總體而言,每種范式都有其優勢和弱點。未來的研究可能旨在開發一種高質量的統一范式,整合兩種范式的優勢以解決它們各自的局限性。 具有靈活長度和寬高比的生成當前的研究主要側重于訓練和創建具有預定尺寸的長視頻內容。然而,對多樣化視頻內容和模擬現實世界的日益增長的需求,要求生成具有可變長度和寬高比的視頻。Sora(OpenAI,2024)和FiT(Lu等人,2024)在這一領域取得了進展,Sora實現了靈活視頻大小的生成,FiT在圖像生成的兩個維度上展示了適應性。未來的研究可能會強調改善視頻生成的靈活性,旨在提高生成模型在現實世界設置中的適用性,并進一步激發視頻內容利用的創新。 超長視頻的生成在圖1中描述的調查中,現有研究中長視頻的最長持續時間為1小時(Skorokhodov等人,2022)。然而,在現實生活中,如電影和駕駛模擬中,視頻持續時間通常為90分鐘甚至更長。我們將這些稱為“超長視頻”。因此,未來的研究可以集中于生成超長視頻,并解決隨著持續時間延長而出現的視角轉換、角色和場景發展以及動作和情節豐富化的挑戰。 增強的可控性和現實世界模擬在長視頻生成中,當前模型在生成過程中和內部操作像黑盒一樣,使得理解錯誤的原因(如違反物理定律的錯誤,由Sora(OpenAI,2024)展示)變得具有挑戰性。現有解決方案缺乏對問題起源的洞察以及直觀、可控的補救措施。因此,需要新的方法和技術來增強我們對生成模型的理解和控制,使它們更適合于現實世界的應用。

付費5元查看完整內容

多模態人機交互旨在利用語音、圖像、文本、眼動和觸覺等多模態信息進行人與計算機之間的信息交換。在生理心理評估、辦公教育、軍事仿真和醫療康復等領域具有十分廣闊的應用前景。本文系統地綜述了多模態人機交互的發展現狀和新興方向,深入梳理了大數據可視化交互、基于聲場感知的交互、混合現實實物交互、可穿戴交互和人機對話交互的研究進展以及國內外研究進展比較。本文認為拓展新的交互方式、設計高效的各模態交互組合、構建小型化交互設備、跨設備分布式交互、提升開放環境下交互算法的魯棒性等是多模態人機交互的未來研究趨勢。

受益于物聯網的發展,人機交互設備在人們的 日常生活中得到了廣泛應用。 近年來,計算機視覺、 手勢識別和人工智能等技術蓬勃發展,頭戴式設備、 顯示屏和傳感器等硬件技術取得了明顯的進步,人 機交互不再局限于單一感知通道(視覺、觸覺、聽 覺、嗅覺和味覺)的輸入輸出模態(Bourguet,2003)。 多模態人機交互旨在利用語音、圖像、文本、眼 動和觸覺等多模態信息進行人與計算機之間的信息 交換。 其中包括人到計算機的多模態信息輸入與計 算機到人的多模態信息呈現,是與認知心理學、人機 工程學、多媒體技術和虛擬現實技術等密切相關的 綜合學科。 目前,多模態人機交互與圖像圖形領域 中的各類學術和技術聯合得越來越緊密。 多模態人 機交互技術作為人—機—物的技術載體,在大數據 與人工智能時代,其學術和技術發展前沿與圖像圖 形學、人工智能、情感計算、生理心理評估、互聯網大 數據、辦公教育和醫療康復等領域發展息息相關。 多模態人機交互研究最早出現在 20 世紀 90 年代, 多項工作提出了將語音和手勢融合在一起的交互方 法 ( Pavlovic 等, 1997; Ando 等, 1994; Cassell 等, 1994)。 近幾年,沉浸式可視化( Jansen 等,2014)的 出現為人機交互提供了一個新的多模態交互界面: 一個融合了視覺、聽覺和觸覺等多個感知通道的沉 浸式環境。

在學術 界, 多 模 態 人 機 交 互 的 學 術 成 果 在 IEEE-TPAMI( IEEE Transactions on Pattern Analysis and Machine Intelligence)、IEEE-TIP( IEEE Transaction on Image Processing)、IEEE-TASLP( IEEE / ACM Transactions on Audio, Speech and Language Processing)、IEEE-TNNLS(IEEE Transactions on Neural Networks and Learning Systems )、 ACM-TOCHI ( ACM Transactions on Computer-Human Interaction) 等國際 期刊和 CHI(Computer-Human Interaction)、UbiComp (Ubiquitous computing)、CSCW(ACM Conference on Computer-Supported Cooperative Work and Social Computing)等國際會議呈現穩步增長,創新成果層 出不窮。 在產業界,語音、人臉和手勢等新型交互的應用 從噱頭轉趨理性,聚焦于車載、直播等特定場景。 觸 屏搭配一種新模態的交互方式,是當前多模態交互 產品落地的主要形態。 增強現實等新型輸出/ 顯示 模態的技術逐漸成為未來多模態人機交互產品新的 主要場景。 各國政府高度重視多模態人機交互。 在“十三 五”期間,我國設立多項重大重點項目支持多模態 人機交互方向的研究。 例如,國家重點研發計劃項 目“基于云計算的移動辦公智能交互技術與系統”、 “多模態自然交互的虛實融合開放式實驗教學環 境”等。 美國海軍開始構建下一代艦艇多模態人機 交互模式,采用全息化的指揮模式,通過佩戴視覺和 觸覺傳感器對艦船進行控制。 英國海軍公布的 T2050 未來水面艦艇概念,以多模態人機交互的方 式,有效提高工作效率。

本文旨在綜述多模態人機交互的最新進展,幫 助初學者快速了解和熟悉多模態人機交互領域;對 多模態人機交互方式進行分類整理,幫助該領域的 研究者更好地理解多模態人機交互中的各種技術; 對多模態人機交互領域面臨的機遇和挑戰進行梳 理,啟發相關研究者做出更有價值的多模態人機交 互工作。 本文將從多模態信息輸入與多模態信息輸出兩 方面對多模態交互技術進行綜述。 其中,多模態信 息輸入過程涉及可穿戴交互技術以及基于聲場感知 的輸入交互技術。 多模態信息呈現過程涉及大數據 可視化交互技術、混合現實交互技術以及人機對話 交互技術。 下面分別從大數據可視化交互、基于聲 場感知的交互、混合現實實物交互、可穿戴交互和人 機對話交互 5 個維度介紹多模態人機交互的研究進 展。 內容框架如圖 1 所示。

付費5元查看完整內容

精準地預判網絡流量變化趨勢可以幫助運營商準確預估網絡的使用情況,合理分配并高效利用網絡資源,以滿足日益增長且多樣化的用戶需求。以深度學習算法在網絡流量預測領域的進展為線索,闡述了網絡流量預測的評價指標和目前公開的網絡流量數據集及應用,具體分析了網絡流量預測中常用的深度信念網絡、卷積神經網絡、循環神經網絡和長短時記憶網絡共四種深度學習方法,并重點介紹了近年來針對不同問題所提出的改進神經網絡模型,總結了各模型特點及應用場景。最后對網絡流量預測未來發展進行了展望。

//cea.ceaj.org/CN/abstract/abstract39601.shtml

付費5元查看完整內容

深度強化學習作為機器學習發展的最新成果,已經在很多應用領域嶄露頭角。關于深度強化學習的算法研究和應用研究,產生了很多經典的算法和典型應用領域。深度強化學習應用在智能制造中,能在復雜環境中實現高水平控制。對深度強化學習的研究進行概述,對深度強化學習基本原理進行介紹,包括深度學習和強化學習。介紹深度強化學習算法應用的理論方法,在此基礎對深度強化學習的算法進行了分類介紹,分別介紹了基于值函數和基于策略梯度的強化學習算法,列舉了這兩類算法的主要發展成果,以及其他相關研究成果。對深度強化學習在智能制造的典型應用進行分類分析。對深度強化學習存在的問題和未來發展方向進行了討論。

付費5元查看完整內容

數據融合是最大程度發揮大數據價值的關鍵,深度學習是挖掘數據深層特征信息的技術利器,基于深度學習的數據融合能夠充分挖掘大數據潛在價值,從新的深度和廣度拓展對世界的探索和認識。本文綜述了近幾年基于深度學習的數據融合方法的相關文獻,以此了解深度學習在數據融合中應用所具有的優勢。首先,分類闡述常見的數據融合方法,同時指出這些方法的優點和不足;接著,從基于深度學習特征提取的數據融合方法、基于深度學習融合的數據融合方法、基于深度學習全過程的數據融合方法三個方面對基于深度學習的數據融合方法進行分析,并做了對比研究與總結;最后,總結全文,討論了深度學習在數據融合中應用的難點和未來需要進一步研究的問題。

//kns.cnki.net/kcms/detail/detail.aspx?dbcode=CAPJ&dbname=CAPJLAST&filename=JSGG20201119008&v=UVJbamaWiqPhx%25mmd2F%25mmd2BOu5dHCwhPPmxv19yW5mC2ZX1%25mmd2Bqh0bZ9gpg2gmEH78ZzOsc7eT

付費5元查看完整內容
北京阿比特科技有限公司