研究背景構建類人化具身智能體是機器人、虛擬現實和沉浸式技術領域的重要目標。盡管并非所有AI系統都需要模仿人類,但具有類人特征的智能體在遠程呈現、輔助機器人和沉浸式游戲等特定應用中具有顯著優勢。類人外觀增強了虛擬環境中的社交存在感和參與度,類人運動使機器人能夠直接從人類演示中學習并在為人類設計的空間中使用人類工具高效操作,而類人推理則提高了可解釋性和決策能力。然而,實現這些能力面臨著重大的技術挑戰。研究內容與方法本論文從外觀、運動和推理三個關鍵方向探索類人化具身智能體的構建:類人外觀:研究重點在于創建數字環境中與人類相似的具身智能體。提出了一種基于逆向物理和逆向渲染的新框架,從視頻數據中重建逼真、可動畫化的數字人類。該方法通過基于物理的模擬器和渲染器,保留了細粒度的視覺細節,同時捕捉衣物的物理動態,實現了逼真的服裝運動和對新動作的魯棒泛化。類人運動:研究提出了HumanPlus系統,通過"影子學習"將人類運動遷移到人形機器人上,使機器人能夠直接從人類演示中學習復雜技能。通過這種方式收集的演示數據進一步促進了自主技能的現實世界模仿學習。類人推理:研究探索了通過基礎模型和思維鏈推理開發更通用策略的方法,以模擬類人推理并提升性能。提出將中間視覺預測作為視覺-語言-動作模型中的"視覺思維鏈",使智能體在多樣化任務中實現更高性能。研究貢獻本論文的主要貢獻包括:提出了一種基于逆向物理和逆向渲染的數字人類重建框架,實現了逼真的外觀和動態衣物模擬。開發了HumanPlus系統,通過影子學習實現人類運動到機器人的高效遷移,推動了機器人技能學習的實際應用。引入了視覺思維鏈的概念,通過中間視覺預測提升了智能體在復雜任務中的推理能力和性能。
隨著人工智能(AI)技術越來越多地改變我們的生活、工作和溝通方式,AI評估必須采取以人為本的方法,以真實反映現實世界中的表現和影響。在本論文中,我展示了通過整合人工智能和人機交互(HCI)領域的知識和方法,推動以人為本的評估,并隨后推動負責任的人工智能發展和部署的研究。 首先,本文以可解釋人工智能為例,討論了人類(而非自動化)評估的挑戰和必要性,并呈現了識別可解釋人工智能研究中新問題和新機會的人類評估研究。接下來,我將情境引入其中,并展示了與真實用戶的情境化研究,提供了對用戶可解釋性需求和對人工智能信任的全面和細致的理解。然后,我通過研究展示了評估人類與人工智能互動的重要性,這些研究考察了不同的人工智能技術特征如何影響用戶的信任、依賴以及其他認知和行為。最后,我討論了這些工作的意義,提出了以人為本評估的建議,并描述了負責任人工智能的未來研究方向。
摘要—對通用人工智能(AGI)的追求使具身智能成為機器人研究的前沿課題。具身智能關注的是能夠在物理世界中感知、推理并行動的智能體。要實現魯棒的具身智能,不僅需要先進的感知與控制能力,還需具備將抽象認知扎根于現實交互中的能力。在這一過程中,兩項基礎技術——物理模擬器與世界模型——已成為關鍵推動力量。物理模擬器為訓練與評估機器人智能體提供了可控、高保真度的環境,使復雜行為的開發變得安全而高效。相比之下,世界模型為機器人賦予了對環境的內部表示能力,從而使其能夠進行預測性規劃和超越直接感知的自適應決策。本文系統回顧了近年來通過物理模擬器與世界模型融合學習具身智能的研究進展。我們分析了這兩者在提升智能體自主性、適應性與泛化能力方面的互補作用,并探討了外部模擬與內部建模之間的協同關系,如何推動從模擬訓練走向真實部署的跨越。通過整合當前的研究成果與開放問題,本文旨在為構建更強大、更具泛化能力的具身智能系統提供全面的視角。我們還維護了一個持續更新的文獻與開源項目倉庫,地址為:
//github.com/NJU3DV-LoongGroup/Embodied-World-Models-Survey。 關鍵詞—具身智能,世界模型,物理模擬器,自動駕駛,機器人學習
隨著人工智能 [1][2] 與機器人技術 [3][4] 的快速發展,智能體與物理世界的交互日益成為研究的核心焦點。通用人工智能(AGI)——即能在多樣領域中匹敵甚至超越人類認知能力的系統——的追求,提出了一個關鍵問題:如何將抽象推理能力扎根于對現實世界的理解與行動之中?
智能機器人作為具身智能體,正在成為通往 AGI 的重要媒介,它們為計算智能與真實環境交互之間架起了物理橋梁。不同于僅在符號或數字數據上運作的“非具身”智能系統,具身智能強調通過與環境的物理交互來實現感知、行動與認知的結合。這一范式使機器人能夠在任務執行過程中持續根據來自物理世界的反饋調整其行為與認知,從而使機器人不再只是人工智能的一個應用場景,而是通向通用智能的關鍵組成部分。 具身智能的意義遠不止于完成物理任務。借助對物理身體的感知與行動 [5],機器人可以通過持續交互實現穩健的經驗學習、假設檢驗與策略優化。這種對感知輸入、運動控制和認知處理的閉環整合,構成了真正自主性與適應性的基礎,使機器人能夠更類人地推理與響應世界 [6]。
隨著智能機器人在現實世界中的廣泛部署,例如老年照護 [7]、醫療輔助 [8]、災害救援 [9] 和教育 [10] 等場景,它們在動態不確定環境中自主、安全運行的能力變得尤為關鍵。然而,應用場景的多樣性與技術進步的高速演化,使得亟需建立一個系統性框架來評估與比較機器人能力。建立一個科學合理的機器人智能分級系統,不僅有助于明確技術發展路線,也為監管、安全評估與倫理部署提供了關鍵指導。 為應對這一需求,近期研究探索了多種機器人能力量化框架,如 DARPA 機器人挑戰賽的評估機制 [11]、服務機器人安全標準 ISO 13482 [12],以及關于自主等級的評述 [13][14]。盡管如此,仍缺乏一個能夠綜合智能認知、自主行為與社會交互維度的完整分級體系。
在本研究中,我們提出了一個針對智能機器人的能力分級模型,系統地定義了從基礎機械執行到高級完全自主社會智能的五個等級(IR-L0 至 IR-L4)。該分級體系涵蓋自主性、任務處理能力、環境適應能力與社會認知等關鍵維度,旨在為智能機器人的技術演進提供統一的評估與指導框架。 推動機器人實現智能行為的核心技術包括兩個方面:物理模擬器與世界模型。二者在提升機器人控制能力與擴展潛能方面發揮著關鍵作用。Gazebo [15]、MuJoCo [16] 等模擬器可對物理世界進行顯式建模,提供可控環境,使機器人在部署前能夠進行訓練、測試與行為調優。這些模擬器如同訓練場,幫助機器人在避免高昂代價與現實風險的前提下實現行為預測與優化。 與此不同,世界模型則為機器人提供了環境的內部表征,使其能夠在自身認知框架中進行模擬、預測與規劃。按照 NVIDIA 的定義,世界模型是“理解真實世界動態(包括物理和空間屬性)的生成式 AI 模型” [17]。這一概念因 Ha 和 Schmidhuber 的開創性研究 [18] 而受到廣泛關注,該研究展示了智能體如何學習緊湊的環境表征以進行內部規劃。 模擬器與世界模型之間的協同作用能夠增強機器人在多種場景下的自主性、適應性與任務性能。本文將探討機器人控制算法、模擬器與世界模型之間的互動機制。通過分析模擬器如何提供結構化外部環境以訓練智能體,以及世界模型如何構建內部表征以實現更具適應性的決策,我們旨在全面闡述這些組件如何協同提升智能機器人的能力。
覆蓋范圍。 本綜述全面分析了機器人控制算法、模擬器與世界模型之間的相互關系,重點關注 2018 年至 2025 年的最新進展。內容涵蓋了傳統基于物理的模擬器與新興的世界模型,重點突出其在自動駕駛與機器人系統中的應用。 本綜述不同于現有文獻,后者通常聚焦于單一組件(如機器人模擬器 [19]–[21] 或世界模型 [22]–[24]),而本研究則系統地探討了物理模擬器與世界模型在推動具身智能發展過程中的協同作用,揭示它們在智能機器人發展中的互補角色。 主要貢獻:
智能機器人能力分級標準: 提出一個涵蓋自主性、任務處理能力、環境適應能力與社會認知能力四個關鍵維度的五級能力分級體系(IR-L0 至 IR-L4)。 * 機器人學習技術分析: 系統回顧智能機器人在腿式運動(如雙足行走、摔倒恢復)、操作控制(如靈巧操作、雙手協調)與人機交互(如認知協作、社會嵌入)方面的最新技術進展。 * 主流物理模擬器分析: 全面對比 Webots、Gazebo、MuJoCo、Isaac Gym/Sim/Lab 等主流模擬器的物理仿真能力、渲染質量與傳感器支持能力。 * 世界模型的最新進展: 首先回顧世界模型的代表性架構及其潛在作用,例如作為可控模擬器、動態建模器與獎勵模型在具身智能中的應用。進一步探討專為自動駕駛與關節型機器人設計的最新世界模型方案。
論文結構如圖 2 所示,具體安排如下: * 第 1 節: 引出具身智能的重要性,并闡述物理模擬器與世界模型在其中的作用。 * 第 2 節: 提出一套完整的智能機器人能力分級體系。
第 2.1 節:分級標準 * 第 2.2 節:分級影響因素 * 第 2.3 節:分級定義 * 第 3 節: 回顧機器人在移動性、操作性與人機交互方面的任務能力進展。
第 3.1 節:相關機器人技術 * 第 3.2 節:機器人運動能力 * 第 3.3 節:機器人操作能力 * 第 3.4 節:人機交互能力 * 第 4 節: 討論主流模擬器在機器人研究中的優缺點。
第 4.1 節:主流模擬器綜述 * 第 4.2 節:物理仿真能力 * 第 4.3 節:渲染能力 * 第 4.4 節:傳感器與關節組件支持 * 第 4.5 節:討論與未來展望 * 第 5 節: 介紹世界模型的代表性架構與核心作用。
第 5.1 節:世界模型架構 * 第 5.2 節:世界模型的核心功能 * 第 6 節: 探討世界模型在自動駕駛與關節型機器人中的應用與挑戰。
第 6.1 節:用于自動駕駛的世界模型 * 第 6.2 節:用于關節型機器人的世界模型 * 第 6.3 節:挑戰與未來方向
本論文圍繞實現通用具身智能體的目標,探討了兩個關鍵研究方向:其一是開發逼真且大規模的基準測試與環境,其二是設計學習框架——尤其是動作空間表示——以支持長時序移動操作任務中的高效策略學習。 第一項工作建立了一個用于基準測試與智能體訓練的閉環生態系統。從 iGibson 1.0 和 2.0 開始,我們開發了可支持復雜物體交互的物理交互式三維仿真平臺,模擬真實的家庭環境。在此基礎上,我們提出了 BEHAVIOR 和 BEHAVIOR-1K 基準測試,分別涵蓋 100 和 1000 項日常家庭活動。這些任務基于人類時間使用數據構建,使用靈活的基于邏輯的語言進行定義,并輔以人類虛擬現實演示。為實現可擴展的數據驅動策略訓練,我們提出了 MoMaGen,這是一種示范生成方法,可基于單一人類演示合成數千條多樣化的軌跡。 第二項工作探討了動作空間設計作為歸納偏置在解決長時序機器人任務中的作用。我們首先提出 HRL4IN,這是一種分層強化學習方法,通過高層末端執行器目標對交互式導航進行分解。隨后我們引入 ReLMoGen,這是一種混合方法,在空間目標空間中進行高層探索,并結合低層運動生成以實現高效執行。最后,Chain of Code 利用大型語言模型(LLMs)生成可執行代碼與偽代碼,使智能體能夠將算法推理與常識推理相結合以完成任務。 綜上所述,這些研究工作共同推進了構建具備物理能力、語義理解能力以及對人類對齊的具身智能體的目標。
機器學習有望在科學、工業和社會等眾多領域產生深遠影響。盡管當前的人工智能(AI)系統仍普遍依賴人類監督,未來的應用將越來越多地要求系統具備高度自治能力。要實現這一轉變,我們必須能夠信任這些日益龐大的模型的行為。為此,本論文圍繞三個關鍵研究方向展開:安全性、魯棒性與可解釋性。 我們首先聚焦于強化學習(Reinforcement Learning, RL)與模仿學習(Imitation Learning, IL)中的安全問題。盡管學習得到的策略在性能上取得了顯著成果,但它們在訓練過程中的探索行為及測試階段環境的變化,常常會導致不安全的決策。為此,我們提出了一種基于模型預測控制(Model Predictive Control, MPC)的安全引導機制,可在用戶指定約束條件下,對基礎 RL 策略的動作進行修正。通過合理的優化建模與損失函數設計,我們從理論上證明了最終優化得到的基礎策略在最優點上具有可證明的安全性。 針對 IL 中獨有的因果混淆(causal confusion)問題,即觀測數據與專家行為之間存在虛假相關,進而可能在部署時引發不安全行為,我們引入結構因果模型(Structural Causal Models, SCMs)的工具來識別并屏蔽存在問題的觀測信息。與此前需依賴專家反饋或專家獎勵函數的做法不同,我們的方法僅需實驗者能對初始狀態進行干預這一更為現實的假設。 論文第二部分關注如何增強分類器對抗擾動下的魯棒性。分類器是眾多 AI 系統的核心組件,但實驗表明其對輸入中的微小擾動極為敏感。我們首先擴展了隨機平滑(randomized smoothing)方法的適用性,從傳統各向同性認證推廣至數據流形子空間的投影,從而在認證體積上獲得數量級的提升。隨后,我們從更基礎的層面重新審視魯棒性問題,提出了非對稱魯棒認證(asymmetric certification)框架。在該二分類場景下,我們僅要求模型在某一特定類別上具備認證魯棒性,符合現實中對抗者主要關注產生“假陰性”(false negatives)的實際需求。我們進一步引入一類特征凸(feature-convex)結構,從而實現高效、確定性、封閉形式的認證半徑計算。 論文的第三部分探討了模型可解釋性的兩個方面:一是大型語言模型(LLMs)如何決定向人類用戶推薦什么,二是如何構建結構上可解釋的學習模型。我們首先分析了對話式搜索引擎中 LLM 對消費產品排序的行為,結果表明,模型在優先考慮產品名稱、網站內容及輸入上下文位置方面存在顯著差異。最后,我們提出了一類新的可解釋模型——結構傳輸網絡(Structural Transport Nets),用于那些潛在表示具備數學結構的領域。通過學習一個到“鏡像代數結構”的雙射映射,我們能夠在潛在空間中執行滿足原始輸入空間代數規律的操作。實驗表明,遵守底層代數規律對于學習準確且自洽的表示操作至關重要。
人類在日常生活中通過多種感官與環境互動:視覺用于感知和理解環境,身體意識用于定位,語言用于交流和語義理解,觸覺則用于接觸反饋。同樣地,機器人在面對非結構化的真實世界環境中的操作任務時,也需要具備類似的多感官整合能力。
本論文探討了如何融合多種感知輸入,以提升機器人在現實世界中操縱物體的能力。通過整合視覺(為機器人提供詳細的空間信息)、本體感覺(提供身體位置反饋)、語言(理解并執行指令)以及觸覺(提供精細接觸信息),我開發了安全、高效且具有良好泛化能力的機器人系統。 論文中的研究貢獻涵蓋多個方向,包括:感知-運動控制、運動規劃、模仿學習、機械搜索、富接觸操作任務以及多模態對齊,整體目標是提升機器人在跨模態感知、推理與行動能力,突破單一感知模態的局限。 研究首先從視覺與本體感知的融合出發,以增強機器人在分布偏移條件下的控制魯棒性,并通過基于擴散模型的軌跡生成方法提升規劃效率。接著,提出了一種基于**“下一個 token 預測”機制的上下文模仿學習方法**,使機器人能通過 prompt(提示)快速適應新任務。 隨后,論文將視覺與語言的融合引入到遮擋物體的機械搜索與通用操作任務中。借助大型視覺-語言模型(Vision-Language Models),實現了更強的語義推理能力,從而獲得更有效的操作策略。 進一步地,我研究了觸覺傳感在高精度操作任務(如工業插接與布料處理)中的應用,提出了自監督策略學習與視覺-觸覺預訓練方法,顯著提升了任務成功率。 最后,我構建了一個新的對齊視覺、觸覺與語言的多模態數據集,以支持機器人領域的多模態學習研究。 通過理論分析、仿真實驗與真實機器人實驗,本論文全面展示了多模態感知如何增強機器人操作任務中的泛化能力、適應性與安全性。 //www2.eecs.berkeley.edu/Pubs/TechRpts/2025/EECS-2025-68.html
多機器人系統的學習型協同感知與控制多機器人系統(MRS)通過多智能體協同可解決復雜現實問題,但受困于維度災難——問題規模擴大時,求解難度呈指數級增長。基于學習的方法為多機器人規劃帶來新機遇:其將昂貴集中式求解器的在線計算負擔轉移至離線學習過程,顯著提升可擴展性。近年研究表明,**圖神經網絡(GNNs)**能學習顯式通信策略以實現復雜多機協同。在MRS中,機器人被建模為圖節點,通信鏈路為邊,各機器人內部狀態為圖信號。通過通信鏈路傳遞消息,每個機器人可獲得比局部觀測更精確的全局狀態估計。然而,將這些策略從理論模型遷移至實際MRS仍面臨關鍵挑戰:專家數據通常生成于仿真環境,但仿真訓練的策略往往難以泛化至現實世界。這種可遷移性缺失被稱為現實鴻溝,而跨越該鴻溝的仿真到現實(sim-to-real)遷移成為核心難題。單機器人領域的sim-to-real遷移主要處理機器人與物理環境的交互,而多機器人領域還需考慮機器人間交互。通信是高效多機協同的關鍵,但現實鴻溝對通信的影響尚未明晰。例如:多機協同訓練通常采用同步通信,而實際部署需異步分布式通信;消息丟包、延遲等隨機因素在同步訓練中常被忽略。現有研究鮮少評估模型對此類因素的魯棒性及其對策略性能的影響。現實MRS需依賴去中心化網狀通信網絡,這為sim-to-real遷移帶來額外挑戰。
研究貢獻本論文提出一系列創新框架,用于去中心化現實MRS的控制與感知策略部署驗證:1. 可學習通信的多機協同控制首次通過可微分通信信道結合強化學習(RL),訓練支持可學習通信的多機協同策略,并在多種仿真場景驗證;構建包含9臺敏捷地面機器人的Cambridge RoboMaster實驗平臺,實證對比集中式與去中心化部署方法,揭示sim-to-real遷移效應。2. 可學習通信的多機協同感知突破依賴外部定位基礎設施的全局狀態協同范式,探索基于單目相機局部感知的策略訓練:開發GNN視覺導航策略,實現無需標定的移動機器人目標引導;融合控制與感知技術,提出多機器人視覺空間基礎模型,支持實時去中心化感知與控制。該模型通過單目圖像預測相對位姿與局部地圖,性能超越需重疊視野與預設網絡架構的傳統方法;在多機編隊控制任務中驗證模型有效性,展示室內外場景下的去中心化部署能力。研究意義本論文彌合了MRS理論學習與實際部署的鴻溝,所提方法為構建高效、自適應的現實MRS奠定基礎。
本論文通過創新性貢獻,推動了序列建模技術的發展,架起了狀態空間模型與深度學習之間的橋梁。序列建模技術能夠識別有序數據中的模式和關系,廣泛應用于時間序列預測、語音和音頻信號處理、文本生成、生物序列建模和神經記錄分析等多個領域。盡管深度學習已經改變了序列建模的格局,但當前的架構在計算效率、建模能力和可解釋性之間面臨著基本的權衡。我們通過三項互補的貢獻,解決了這些挑戰。 首先,我們提出了 S5 層,它重新設計了深度狀態空間方法,以支持并行掃描操作。我們通過與先前方法的數學聯系,解釋了其強大的實驗性能。接著,我們將這些洞察擴展到時空建模領域,提出了 ConvS5,將空間結構整合到狀態空間框架中。最后,我們通過雅可比切換線性動力系統(JSLDS)過程,開發了新的分析工具,為將復雜的非線性動力學分解為可解釋的線性成分提供了系統化的方法。 通過在多個領域的廣泛實驗證明,我們展示了這些方法如何在各自領域顯著推進了當前的技術水平。綜合來看,這些貢獻展示了將經典動力系統方法與現代深度學習技術結合,創造出更強大、高效且具可解釋性的序列模型的廣泛潛力。 序列建模——即學習有序數據中的模式和關系——是科學與工程多個領域的基礎任務。其應用范圍從金融時間序列預測[Salinas et al., 2020]、天氣模式分析[Rasp et al., 2020, Pathak et al., 2022],到語音與音頻信號處理[Oord et al., 2016]、生物序列建模[Jumper et al., 2021]、神經記錄分析[Pandarinath et al., 2018],以及文本[Brown et al., 2020]和視頻[Ho et al., 2022]生成等。序列建模中的關鍵挑戰在于捕捉短期模式和可能跨越數百、數千或數百萬時間步的長期依賴關系。 深度學習通過用學習到的表示代替手工設計的特征和傳統統計模型,已經改變了序列建模。然而,隨著序列模型在規模和能力上的增長,出現了三個基本挑戰:計算效率、建模精度和模型可解釋性。目前的架構在這些目標之間面臨顯著的權衡。遞歸神經網絡(RNNs)[Rumelhart et al., 1986, Elman, 1990]在推理效率方面表現出色,但在處理長期依賴時表現不佳,并且在訓練過程中天生是順序的。Transformer模型[ Vaswani et al., 2017]在捕捉長期模式方面表現優異,但其計算復雜度與序列長度呈二次增長。此外,隨著這些模型的復雜性增加,并且被部署在關鍵應用中,我們對其決策過程的理解變得愈發重要。 在本論文中,我們認為深度狀態空間方法——將經典動力系統理論中的狀態空間模型(SSMs)與現代深度學習相結合——能夠有效解決上述序列建模中的基本挑戰。通過三項互補的貢獻,我們展示了這種經典與現代方法的結合如何提升計算效率、建模精度和模型可解釋性。 首先,我們提出了S5層[Smith et al., 2023a],它簡化了深度狀態空間方法,同時擴展了其能力。通過精心重新設計架構以支持并行掃描,S5在保持線性計算擴展性的同時,達到了最先進的性能,即使是在時間變化的系統中也是如此。我們與先前方法建立的數學聯系解釋了其有效性,并為設計提供了有原則的選擇。 基于這些基礎,我們提出了ConvS5[Smith et al., 2023b],以解決時空建模中的挑戰。該工作展示了如何將S5背后的核心思想擴展到更復雜的領域,通過結合卷積操作處理空間結構,并將狀態空間動態應用于時間建模。ConvS5在有效處理空間依賴性的同時,保持了S5的計算優勢。 我們的第三項貢獻從不同的角度出發,將狀態空間模型作為分析工具,而不是計算構建塊。雅可比切換線性動力系統(JSLDS)[Smith et al., 2021]方法展示了如何通過共同訓練一個切換線性SSM和非線性RNN,提供對RNN計算機制的可解釋性見解。這項工作展示了經典動力系統概念如何幫助彌合深度學習的經驗成功與理論理解之間的差距。 這些貢獻統一在幾個共同主題下:
SSM與深度學習方法的創新整合:每種方法都展示了將經典動力系統與現代深度學習相結合的創新方式,無論是作為計算組件(S5、ConvS5)還是分析工具(JSLDS)。 * 增強的能力:前兩種方法在保持高效并行計算的同時,達到了最先進的性能,而JSLDS為理解RNN動態提供了新的分析能力,同時提升了共同訓練的切換SSM的能力。 * 廣泛的適用性:這些方法在包括語言、語音、視頻和神經數據等多個領域取得了成功,突顯了我們方法的普遍性。
本論文的其余部分組織如下:第二章提供了序列建模、狀態空間模型及相關架構的必要背景。第三章介紹了S5層及其在序列建模中的應用,基于我們在Smith et al. [2023a]中的工作。第四章介紹了ConvS5,并展示了其在時空建模中的有效性,基于我們在Smith et al. [2023b]中的工作。第五章發展了JSLDS框架及其應用,基于我們在Smith et al. [2021]中的工作。最后,第六章探討了本研究的廣泛影響,并概述了未來研究的有希望方向。
隨著先進計算技術和人工智能的快速發展,復雜系統和應用程序迎來了新紀元,尤其是在自動駕駛汽車(AV)和機器人領域。這些系統越來越多地需要在動態和不確定的環境中自主決策。強化學習(RL)在這一背景下成為了關鍵技術,為通過與環境互動來學習最優決策策略提供了框架。然而,確保這些決策的安全性和可信性仍然是一個重要的挑戰,特別是在安全至關重要的應用場景中,如自動駕駛。本論文針對這一挑戰,提出了創新的基于RL的方法,結構分為三個既獨立又相互關聯的部分,每一部分都專注于安全且可信決策制定中的不同方面。論文的主線是探索和改進RL技術,以確保自主決策系統在復雜、動態環境下的安全性和可靠性。首先,本論文奠定了RL在決策制定中的基礎,特別是在不確定和動態的環境下。該部分聚焦于增強RL,以應對現實世界的復雜性,例如在自動駕駛場景中與不可預測的代理(如人類駕駛員)互動,以及在離線RL設置中處理分布偏移問題。這為理解和提升自主系統在不確定條件下的決策能力奠定了基礎。在第一部分的基礎上,第二部分探討了層次化規劃與RL的集成。該部分重點在于創建一種框架,將不同層次的決策制定相結合,平衡即時的低層次安全問題與高層次戰略目標。該方法旨在應對傳統RL在復雜多代理環境和長時間任務中的局限性,從而在實時決策中展示出更好的適應性和效率。第三部分則呈現了對RL的前瞻性方法,重點在于離線和在線學習方法的整合。這一部分解決了在探索可能代價高昂或危險的場景中,安全有效地訓練RL代理的問題。通過將大規模離線數據(如專家示范)的優勢與在線學習相結合,本部分提出了一個新的框架,以增強RL代理在實際應用中的安全性和性能。
觸覺感知在機器人與物理環境交互中扮演著重要角色,這一觀點已被廣泛認可。然而,現有的傳感器中,少有能夠在機器人領域中得到廣泛應用。本文提出了一個將觸覺感知融入機器人學習范式的框架,涵蓋從開發到部署的全過程,并通過ReSkin——一種多功能且可擴展的磁性觸覺傳感器為實例。通過探討ReSkin的設計、集成、策略學習和表示學習,本文旨在為機器人學習中有效的感知系統的實現提供指導。我們首先提出ReSkin——一個低成本、緊湊且多樣化的觸覺感知平臺。我們開發了一種自監督學習技術,使得傳感器具備可替換性,通過適應已學習的模型推廣到新的傳感器實例。接下來,我們在靈巧操作的背景下研究了ReSkin的可擴展性:我們引入了D'Manus,一個廉價、模塊化且堅固的平臺,集成了大面積的ReSkin傳感,旨在滿足機器人學習的大規模數據收集需求。基于ReSkin和D'Manus的開發經驗,我們提出了AnySkin——一種專為機器人學習設計的升級版傳感器,它進一步減少了不同傳感器實例之間的響應差異。AnySkin的集成簡單如同給手機戴上手機殼,無需粘附,并表現出更一致的信號。我們將AnySkin部署在精確操控的策略學習場景中,展示了在補充相機信息后任務性能的提升,并實現了跨傳感器實例的零樣本策略遷移。除了傳感器的設計和部署,我們還探索了包括但不限于ReSkin在內的傳感器的表示學習。傳感數據通常是連續的、序列性的,但大多數現有的序列架構研究(如LSTM和Transformer)主要集中在離散模態,如文本和DNA。為填補這一空白,我們提出了分層狀態空間模型(HiSS),一種概念上簡單的新型連續序列到序列預測(CSP)方法。HiSS通過在時間軸上疊加結構化的狀態空間模型來創建層次結構,并且在現有的序列模型(如因果Transformer、LSTM、S4和Mamba)中表現優異。此外,我們引入了CSP-Bench,一個來自真實感知數據的CSP任務新基準。CSP-Bench旨在解決CSP任務中缺乏真實世界數據集的問題,為從事該領域研究的學者提供了寶貴的資源。最后,我們總結了從ReSkin的開發到部署過程中的經驗教訓,并提出了將觸覺感知帶入主流機器人研究中的潛在方向。
引言
傳感設備在幫助機器人有效理解和響應其周圍環境中起著至關重要的作用。其中,觸覺傳感器尤為重要,因為它們為機器人提供了類似于人類的觸覺感知,使其能夠精確地處理物體、檢測障礙物或危險、調整對物體的握力,并有效操縱環境。盡管這一領域多年來取得了顯著進展,但目前仍缺乏一種普遍適用的機器人觸覺感知解決方案。這主要是由于開發、集成和從觸覺傳感器中學習的復雜多步驟過程——每個步驟都面臨著一系列挑戰。本文通過ReSkin——一種專注于耐用性、可擴展性和適用于機器人學習應用的魯棒性磁性觸覺傳感器,提出了一種應對這些挑戰的方案。
人類靈活性的關鍵在于觸覺反饋 [77, 78, 79],這一點長期以來激發了對機器人觸覺傳感器的廣泛研究,始于機器人學的早期 [67, 91]。多年來,微型化和快速原型制作加速了基于各種換能技術的觸覺傳感器的發展 [52]。電阻式 [128, 147] 和壓阻式 [12, 129] 傳感器通過材料在兩個電極之間的變形引起電阻的變化來測量施加的壓力。電容式傳感器 [53, 133] 類似地依賴于測量傳感器變形引起的電容變化來捕捉交互特性。最近,使用相機與彈性體材料相結合的光學傳感器 [40, 90, 146, 152] 通過一系列彈性體變形的圖像捕捉物理交互,成為一種高分辨率的觸覺感知替代方案。其他解決方案則使用MEMS設備 [105, 132] 和壓電材料 [36, 159] 作為記錄物理接觸信息的換能機制。然而,這些傳感方案中的許多存在缺陷,阻礙了它們在機器人領域的普及。除了光學傳感器外,每種傳感技術都需要電路與軟性彈性體之間的直接電氣連接。盡管軟性彈性體的集成在一定程度上提升了觸覺傳感器的接觸適應性,這種非預期的耦合增加了成本并使集成過程變得復雜。光學傳感器通過將傳感電子元件(相機)與傳感界面(彈性體)分離,克服了這一難題,但它們需要相機和彈性體之間有清晰的視線,嚴重限制了其形狀因素并增加了設計復雜性。此外,由于彈性體界面的柔軟性,彈性體比相關電子元件老化更快,需要頻繁更換。然而,傳感器的可替換性和一致的傳感響應,這些在軟性傳感器背景下很少被討論。此外,軟性傳感器復雜的制造程序使其難以規模化生產,并增加了傳感器實例間的響應差異。鑒于這些不足,本文的重點是使用磁性彈性體進行觸覺感知 [69, 70]。磁性換能的使用使ReSkin的電路與作為傳感界面的磁性彈性體完全獨立分離。這使我們的傳感器具有低成本、可擴展性和靈活的形狀因素等優勢,能夠適應不同形狀和大小的表面。我們的制造過程簡單且可重復,從而減少了不同磁性彈性體皮膚實例之間的響應差異,最小化了彈性體更換帶來的干擾,強化了其作為通用機器人觸覺傳感器的適用性。
類似于觸覺感知,人手的多功能性長期以來激勵了許多關于仿人手能力的機器人手研究 [10, 89, 103]。構建這些設備的復雜性導致當代許多解決方案,如Shadow Hand [82, 139] 和Allegro Hand(Wonik Robotics),價格極為昂貴(超過$25,000)、易碎且難以維修。這些缺點與數據驅動機器人的需求相悖,數據驅動機器人依賴大量數據,這反過來要求硬件廉價且能夠應對大規模數據采集的各種挑戰。LEAP Hand [124] 和Trifinger Hand [151] 等解決方案試圖通過創建廉價、通用且易于組裝的機器人手來填補這一空白。然而,盡管觸覺感知被廣泛認為是人類靈活性的核心 [78, 79],但這些解決方案中沒有一個能夠以合理的價格(<$50,000)提供可擴展的觸覺感知集成。D'Manus——一個開源的手部設計,集成了大面積的觸覺傳感,填補了機器人手部觸覺感知領域的這一關鍵空缺。此外,該手完全可以3D打印,具有輔助靈活性的手掌功能,不同于其他設計 [2, 151],還具備其他商業手部設計中沒有的關鍵功能,如內收和外展能力,并且比大多數商用替代品便宜至少10倍。
許多現實世界的控制系統,如風力渦輪機狀態監測 [130]、MRI識別 [84] 和慣性里程計 [4, 98],通常通過處理噪聲傳感數據來推斷環境狀態。傳統的傳感器響應建模主要依賴于分析技術來建模原始測量量(如電阻、電容、磁通)與感興趣量(如力、扭矩、慣性測量)之間的關系 [96, 120]。雖然分析建模在將測得的換能量映射為可解釋的量(如力或接觸位置)方面很有用,但它通常復雜且/或需要嚴格的假設,這些假設無法完全模擬傳感器的行為 [61]。有限元分析等計算技術 [97] 盡管有效,但速度極慢,限制了傳感器在實時環境中的應用。快速原型和制造技術的進步加快了傳感器開發的速度和多樣性,同時也催生了對間接建模技術的需求,這些技術能夠實現這些傳感器的實時部署。機器學習為解決這一問題提供了一種可行的方案,通過無需明確建模驅動換能機制的復雜物理現象來實現隱式傳感器建模 [32, 75]。盡管在視覺和語言方面的深度學習研究展示了跨任務的強大能力 [1, 41],在傳感數據上的有效機器學習模型仍然寥寥無幾 [86, 154]。盡管某些深度學習解決方案在傳感數據上顯示了令人鼓舞的結果,但它們仍然是針對特定傳感器的研究 [71, 153]。傳感學習中存在的兩難局面導致了這一現象:缺乏統一、標記化的傳感數據集,進而導致缺乏處理傳感數據的神經架構研究,從而缺乏對傳感系統能力的理解,而這本應促使更多數據的收集。為解決這一問題,我們提出了一個兩部分的解決方案:CSP-Bench——一個由六個連續序列預測任務組成的基準數據集,以及分層狀態空間模型(HiSS)——一種擅長對連續傳感數據進行序列推理的神經架構,基于在結構化狀態空間模型(如S4和Mamba)中引入時間層次。我們借鑒了視覺和語言領域的成功案例 [85],這些研究展示了在基于學習的推理中,審慎的神經架構選擇和歸納偏差的重要性。我們展示了在跨三種不同傳感器的六項傳感預測任務中,HiSS相較于傳統序列建模架構(如因果Transformer、LSTM、S4和Mamba)表現出色。
隨著機器人學家解決機器人在非結構化環境中操作的問題,特別是隨著深度學習的興起,機器人學習成為一種極具前景的解決方案。集成了最前沿的神經架構 [68, 117, 142] 與密度估計 [30, 93] 和模仿學習算法的技術,使得抓取 [161]、操作關節物體 [42, 107] 以及雙手操作 [162] 的能力得以實現。然而,與本章的持續主題保持一致,集成觸覺感知的機器人學習模型顯著稀缺。對需要對與環境的物理交互進行推理的復雜精確技能學習的分析大多局限于模擬 [28, 92],幾乎沒有討論如何將這些策略遷移到現實世界。替代方法通常涉及復雜、不現實的攝像機設置,以規避缺乏觸覺感知的問題 [3, 5]。本文對融合視覺和觸覺傳感數據的多模態策略學習進行了控制研究,并交叉驗證了所有可用模態在學習有效機器人策略中的重要性和有效性。
本文其余部分的結構如下:第二章介紹ReSkin——一種磁性觸覺皮膚,它的能力以及學習傳感器模型的潛力;第三章介紹D'Manus——一種開源的集成大面積感知的靈巧手設計;第四章介紹升級版的自粘式傳感器皮膚設計,并展示其在策略學習中的可替換性;第五章討論了一個新的基準數據集和一種針對觸覺及其他傳感數據的序列建模的新型學習架構。我們在第六章總結了主要經驗教訓并探討了未來的研究方向。
在機器學習領域,我們致力于開發能夠學習的算法,即在沒有被特別編程完成某項任務的情況下,積累關于如何完成任務的知識。在這篇論文中,我們從兩個不同的角度來探討學習:我們可以應用高效機器學習者的領域以及我們可以通過更有效地解決底層優化問題來改進學習的方式。機器學習方法通常非常依賴數據。雖然現代機器學習在解決實際問題方面取得了巨大成功,但這些成功案例主要局限于有大量相關領域數據可用的設置。元學習領域旨在通過創建“學會如何學習”的模型(即能夠在給出相對較少的示例時迅速適應新任務的模型)來開發具有改進的樣本效率的模型。在本論文中,我們關注使用超網絡進行任務適應的攤銷元學習者,這些學習者成本非常有效,只需通過超網絡進行一次前向傳播即可學會如何執行新任務。我們展示了這些攤銷元學習者可以以超出其在小樣本學習設置中的典型用途的新方式來利用。
我們針對攤銷元學習者開發了一種基于集合的中毒攻擊,這種攻擊讓我們能夠定制一組協同作用的輸入,用作適應新任務的訓練數據(即作為支持集)時,這些輸入能夠欺騙系統的學習算法。這樣共同制作的對抗性輸入可以協同操縱分類器,對于具有可微適應機制的攤銷學習者來說,這種輸入尤其容易計算。我們還在可解釋性領域利用攤銷學習者進行“數據集調試”,在此過程中,我們開發了一種稱為Meta-LOO的數據價值或樣本重要性策略,可用于檢測噪聲或分布外數據;或者將一組示例提煉到其最有用的元素。
從我們的第二個角度看,機器學習和優化是密切相關的;實際上,學習可以被表述為以模型參數為目標的訓練損失最小化問題——盡管實際上我們還需要我們的算法具有泛化能力,這不是更廣泛優化的關注點。選擇的優化策略影響了算法學習的速度以及找到的解決方案(即模型參數)的質量。通過研究優化,我們可以改善我們的模型的學習效果和速度。
在這篇論文中,我們采取了雙管齊下的方法來實現這一目標。首先,我們開發了一種在線超梯度基礎的超參數優化策略,通過支持廣泛的超參數同時保持可擴展性,改進了現有的最佳技術。值得注意的是,我們的方法支持優化算法的超參數,如學習率和動量,這是文獻中類似方法不支持的。其次,我們開發了一種適用于深度學習的非凸損失景觀的二階優化策略。我們的算法近似了一個鞍點是排斥而非吸引的鞍點自由版本的Hessian,以一種適用于深度學習問題的方式。