亚洲男人的天堂2018av,欧美草比,久久久久久免费视频精选,国色天香在线看免费,久久久久亚洲av成人片仓井空

人類在日常生活中通過多種感官與環境互動:視覺用于感知和理解環境,身體意識用于定位,語言用于交流和語義理解,觸覺則用于接觸反饋。同樣地,機器人在面對非結構化的真實世界環境中的操作任務時,也需要具備類似的多感官整合能力

本論文探討了如何融合多種感知輸入,以提升機器人在現實世界中操縱物體的能力。通過整合視覺(為機器人提供詳細的空間信息)、本體感覺(提供身體位置反饋)、語言(理解并執行指令)以及觸覺(提供精細接觸信息),我開發了安全、高效且具有良好泛化能力的機器人系統。 論文中的研究貢獻涵蓋多個方向,包括:感知-運動控制運動規劃模仿學習機械搜索富接觸操作任務以及多模態對齊,整體目標是提升機器人在跨模態感知、推理與行動能力,突破單一感知模態的局限。 研究首先從視覺與本體感知的融合出發,以增強機器人在分布偏移條件下的控制魯棒性,并通過基于擴散模型的軌跡生成方法提升規劃效率。接著,提出了一種基于**“下一個 token 預測”機制的上下文模仿學習方法**,使機器人能通過 prompt(提示)快速適應新任務。 隨后,論文將視覺與語言的融合引入到遮擋物體的機械搜索與通用操作任務中。借助大型視覺-語言模型(Vision-Language Models),實現了更強的語義推理能力,從而獲得更有效的操作策略。 進一步地,我研究了觸覺傳感在高精度操作任務(如工業插接與布料處理)中的應用,提出了自監督策略學習視覺-觸覺預訓練方法,顯著提升了任務成功率。 最后,我構建了一個新的對齊視覺、觸覺與語言的多模態數據集,以支持機器人領域的多模態學習研究。 通過理論分析、仿真實驗與真實機器人實驗,本論文全面展示了多模態感知如何增強機器人操作任務中的泛化能力、適應性與安全性//www2.eecs.berkeley.edu/Pubs/TechRpts/2025/EECS-2025-68.html

付費5元查看完整內容

相關內容

博士論文是由攻讀博士學位的研究生所撰寫的學術論文。它要求作者在博士生導師的指導下,選擇自己能夠把握和駕馭的潛在的研究方向,開辟新的研究領域。由此可見,這就對作者提出了較高要求,它要求作者必須在本學科的專業領域具備大量的理論知識,并對所學專業的理論知識有相當深入的理解和思考,同時還要具有相當水平的獨立科學研究能力,能夠為在學科領域提出獨創性的見解和有價值的科研成果。因而,較之學士論文、碩士論文,博士論文具有更高的學術價值,對學科的發展具有重要的推動作用。

物理系統的計算建模是科學計算的核心任務。機器學習方法可以擴展傳統的偏微分方程建模方法,并有潛力簡化建模過程,提高仿真準確性和性能。在本論文中,我們探討了使用神經網絡從數據中學習系統行為的方法。我們評估了作為仿真器使用時的性能-準確性權衡,并利用從中獲得的洞察,探討了將其應用于氣候模型中的子網格參數化學習的具體應用。對于這一任務,我們提出了兩種新穎的技術,通過調整架構以結合有利的歸納偏置,并通過增加訓練數據來鼓勵穩定性,從而提高所學參數化的準確性和穩定性。

付費5元查看完整內容

在本論文中,我們概述了智能體如何利用其預訓練知識,在特定環境中高效運行,并聚焦于感知、認知與元認知三個核心方面。第 1 章引入了研究主題,并確立了**情境化智能體運行(situated agent operation)的概念。 第 2 章與第 3 章探討了智能體的感知能力。第 2 章研究了智能體如何利用常識來解釋不完整或模糊的感知數據,從而實現智能的導航與探索。第 3 章進一步分析了智能體在面臨新環境背景時,如何運用物理常識調整其感知策略。 第 4 章與第 5 章評估了智能體在理解與執行情境化語言指令(situated language instructions)**方面的認知能力。第 4 章聚焦于具身對話(embodied dialogue),探討了由不同訓練機制構建的智能體在動態對話場景中如何處理與響應指令。第 5 章則研究了智能體在執行情境化指令時面臨的挑戰,特別是在用戶意圖模糊或信息不完整的情況下。 第 6 章關注元認知,通過提出一個訓練框架,使智能體能夠識別自身能力的局限性,并在合適的時機主動請求幫助。我們將元認知式請求幫助的問題形式化為一個強化學習任務,同時優化獎勵函數與請求幫助的策略。

付費5元查看完整內容

機器學習有望在科學、工業和社會等眾多領域產生深遠影響。盡管當前的人工智能(AI)系統仍普遍依賴人類監督,未來的應用將越來越多地要求系統具備高度自治能力。要實現這一轉變,我們必須能夠信任這些日益龐大的模型的行為。為此,本論文圍繞三個關鍵研究方向展開:安全性、魯棒性與可解釋性。 我們首先聚焦于強化學習(Reinforcement Learning, RL)模仿學習(Imitation Learning, IL)中的安全問題。盡管學習得到的策略在性能上取得了顯著成果,但它們在訓練過程中的探索行為及測試階段環境的變化,常常會導致不安全的決策。為此,我們提出了一種基于模型預測控制(Model Predictive Control, MPC)的安全引導機制,可在用戶指定約束條件下,對基礎 RL 策略的動作進行修正。通過合理的優化建模與損失函數設計,我們從理論上證明了最終優化得到的基礎策略在最優點上具有可證明的安全性。 針對 IL 中獨有的因果混淆(causal confusion)問題,即觀測數據與專家行為之間存在虛假相關,進而可能在部署時引發不安全行為,我們引入結構因果模型(Structural Causal Models, SCMs)的工具來識別并屏蔽存在問題的觀測信息。與此前需依賴專家反饋或專家獎勵函數的做法不同,我們的方法僅需實驗者能對初始狀態進行干預這一更為現實的假設。 論文第二部分關注如何增強分類器對抗擾動下的魯棒性。分類器是眾多 AI 系統的核心組件,但實驗表明其對輸入中的微小擾動極為敏感。我們首先擴展了隨機平滑(randomized smoothing)方法的適用性,從傳統各向同性認證推廣至數據流形子空間的投影,從而在認證體積上獲得數量級的提升。隨后,我們從更基礎的層面重新審視魯棒性問題,提出了非對稱魯棒認證(asymmetric certification)框架。在該二分類場景下,我們僅要求模型在某一特定類別上具備認證魯棒性,符合現實中對抗者主要關注產生“假陰性”(false negatives)的實際需求。我們進一步引入一類特征凸(feature-convex)結構,從而實現高效、確定性、封閉形式的認證半徑計算。 論文的第三部分探討了模型可解釋性的兩個方面:一是大型語言模型(LLMs)如何決定向人類用戶推薦什么,二是如何構建結構上可解釋的學習模型。我們首先分析了對話式搜索引擎中 LLM 對消費產品排序的行為,結果表明,模型在優先考慮產品名稱、網站內容及輸入上下文位置方面存在顯著差異。最后,我們提出了一類新的可解釋模型——結構傳輸網絡(Structural Transport Nets),用于那些潛在表示具備數學結構的領域。通過學習一個到“鏡像代數結構”的雙射映射,我們能夠在潛在空間中執行滿足原始輸入空間代數規律的操作。實驗表明,遵守底層代數規律對于學習準確且自洽的表示操作至關重要。

付費5元查看完整內容

三維生成建模具有創建有價值三維資產的潛力,這些資產在娛樂、工業設計和現實世界制造等多個領域中有著廣泛的應用。本論文介紹了多個創新的三維生成框架,強調不僅創建不同表現形式的獨特三維形狀,還引入了不同的控制生成過程的機制,同時展示了大規模學習三維生成模型的可能性。首先,我們提出了一個直接生成三維網格的新框架,將生成任務分解為兩個不同的子任務:拓撲形成和形狀變形。在拓撲形成階段,我們學習了一個拓撲感知的神經模板。在形狀變形階段,這個模板被變形以產生最終的網格,確保保持初始拓撲。這種方法使我們能夠靈活生成具有不同拓撲的形狀。同時,我們在潛在空間中開發了一個解耦表示,用于拓撲形成和形狀變形。這種表示使新的解耦控制成為可能,支持各種形狀生成應用,如重混三維對象的拓撲,這在以前的重建工作中是無法實現的。其次,我們提出了一個創新的生成框架,用于創建高解析度的隱式函數。該方法的主要貢獻在于將三維形狀緊湊地編碼為小波表示。這是通過一對粗糙和細節系數體積來實現的,這些系數體積通過截斷距離函數(TSDF)和多尺度雙正交小波隱式地表示三維形狀。我們然后建立了一對神經網絡:一個基于擴散模型的生成器,用于生成以粗糙系數體積形式存在的多樣形狀,以及一個細節預測器,用于生成兼容的細節系數體積。總體而言,我們的方法能夠生成具有更細節的高品質形狀,超越現有的生成框架。第三,我們擴展了基于小波的生成框架以進行形狀反映任務。目標是將三維形狀編碼為潛在表示,這可以用來準確重建原始形狀。這是通過聯合訓練一個基于擴散的生成器和一個額外的編碼器來產生這個潛在表示來完成的。我們然后引入了一個優化過程,這有助于通過優化更合適的潛在表示來提高以前未見三維對象的重建質量。使用派生的表示,我們展示了多種具有語義意義的應用,包括形狀插值。此外,我們提出了一種區域感知操作過程,能夠操作三維形狀的不同部分。最后,我們深入研究了大規模三維生成,提出了一個在一個包含1000萬個公開可用形狀的龐大數據集上訓練的新三維生成模型。我們首先提出了一個小波樹表示,這是一種改進的小波表示,用于編碼高解析度SDF形狀,損失最小。這有助于高效的存儲和流媒體,這對大規模訓練至關重要。隨后,我們提出了一種子帶系數打包方案,使基于擴散的生成成為可能,并提出了一種子帶自適應訓練策略,以確保在大規模數據集上有效訓練。我們的生成框架高度靈活,能夠根據各種輸入模態進行條件生成,如圖像、點云和體素。這種靈活性允許進行各種下游應用,包括無條件生成、補全和條件生成。總的來說,本論文介紹并強調了三維生成研究中的不同重要方面,包括表示的緊湊性、可控性和可擴展性,為三維建模研究中的不同潛在方向開啟了新可能性。//repository.lib.cuhk.edu.hk/en/islandora/object/cuhk%3A3550245/metadata

付費5元查看完整內容

本論文通過創新性貢獻,推動了序列建模技術的發展,架起了狀態空間模型與深度學習之間的橋梁。序列建模技術能夠識別有序數據中的模式和關系,廣泛應用于時間序列預測、語音和音頻信號處理、文本生成、生物序列建模和神經記錄分析等多個領域。盡管深度學習已經改變了序列建模的格局,但當前的架構在計算效率、建模能力和可解釋性之間面臨著基本的權衡。我們通過三項互補的貢獻,解決了這些挑戰。 首先,我們提出了 S5 層,它重新設計了深度狀態空間方法,以支持并行掃描操作。我們通過與先前方法的數學聯系,解釋了其強大的實驗性能。接著,我們將這些洞察擴展到時空建模領域,提出了 ConvS5,將空間結構整合到狀態空間框架中。最后,我們通過雅可比切換線性動力系統(JSLDS)過程,開發了新的分析工具,為將復雜的非線性動力學分解為可解釋的線性成分提供了系統化的方法。 通過在多個領域的廣泛實驗證明,我們展示了這些方法如何在各自領域顯著推進了當前的技術水平。綜合來看,這些貢獻展示了將經典動力系統方法與現代深度學習技術結合,創造出更強大、高效且具可解釋性的序列模型的廣泛潛力。 序列建模——即學習有序數據中的模式和關系——是科學與工程多個領域的基礎任務。其應用范圍從金融時間序列預測[Salinas et al., 2020]、天氣模式分析[Rasp et al., 2020, Pathak et al., 2022],到語音與音頻信號處理[Oord et al., 2016]、生物序列建模[Jumper et al., 2021]、神經記錄分析[Pandarinath et al., 2018],以及文本[Brown et al., 2020]和視頻[Ho et al., 2022]生成等。序列建模中的關鍵挑戰在于捕捉短期模式和可能跨越數百、數千或數百萬時間步的長期依賴關系。 深度學習通過用學習到的表示代替手工設計的特征和傳統統計模型,已經改變了序列建模。然而,隨著序列模型在規模和能力上的增長,出現了三個基本挑戰:計算效率、建模精度和模型可解釋性。目前的架構在這些目標之間面臨顯著的權衡。遞歸神經網絡(RNNs)[Rumelhart et al., 1986, Elman, 1990]在推理效率方面表現出色,但在處理長期依賴時表現不佳,并且在訓練過程中天生是順序的。Transformer模型[ Vaswani et al., 2017]在捕捉長期模式方面表現優異,但其計算復雜度與序列長度呈二次增長。此外,隨著這些模型的復雜性增加,并且被部署在關鍵應用中,我們對其決策過程的理解變得愈發重要。 在本論文中,我們認為深度狀態空間方法——將經典動力系統理論中的狀態空間模型(SSMs)與現代深度學習相結合——能夠有效解決上述序列建模中的基本挑戰。通過三項互補的貢獻,我們展示了這種經典與現代方法的結合如何提升計算效率、建模精度和模型可解釋性。 首先,我們提出了S5層[Smith et al., 2023a],它簡化了深度狀態空間方法,同時擴展了其能力。通過精心重新設計架構以支持并行掃描,S5在保持線性計算擴展性的同時,達到了最先進的性能,即使是在時間變化的系統中也是如此。我們與先前方法建立的數學聯系解釋了其有效性,并為設計提供了有原則的選擇。 基于這些基礎,我們提出了ConvS5[Smith et al., 2023b],以解決時空建模中的挑戰。該工作展示了如何將S5背后的核心思想擴展到更復雜的領域,通過結合卷積操作處理空間結構,并將狀態空間動態應用于時間建模。ConvS5在有效處理空間依賴性的同時,保持了S5的計算優勢。 我們的第三項貢獻從不同的角度出發,將狀態空間模型作為分析工具,而不是計算構建塊。雅可比切換線性動力系統(JSLDS)[Smith et al., 2021]方法展示了如何通過共同訓練一個切換線性SSM和非線性RNN,提供對RNN計算機制的可解釋性見解。這項工作展示了經典動力系統概念如何幫助彌合深度學習的經驗成功與理論理解之間的差距。 這些貢獻統一在幾個共同主題下:

SSM與深度學習方法的創新整合:每種方法都展示了將經典動力系統與現代深度學習相結合的創新方式,無論是作為計算組件(S5、ConvS5)還是分析工具(JSLDS)。 * 增強的能力:前兩種方法在保持高效并行計算的同時,達到了最先進的性能,而JSLDS為理解RNN動態提供了新的分析能力,同時提升了共同訓練的切換SSM的能力。 * 廣泛的適用性:這些方法在包括語言、語音、視頻和神經數據等多個領域取得了成功,突顯了我們方法的普遍性。

本論文的其余部分組織如下:第二章提供了序列建模、狀態空間模型及相關架構的必要背景。第三章介紹了S5層及其在序列建模中的應用,基于我們在Smith et al. [2023a]中的工作。第四章介紹了ConvS5,并展示了其在時空建模中的有效性,基于我們在Smith et al. [2023b]中的工作。第五章發展了JSLDS框架及其應用,基于我們在Smith et al. [2021]中的工作。最后,第六章探討了本研究的廣泛影響,并概述了未來研究的有希望方向。

付費5元查看完整內容

觸覺感知在機器人與物理環境交互中扮演著重要角色,這一觀點已被廣泛認可。然而,現有的傳感器中,少有能夠在機器人領域中得到廣泛應用。本文提出了一個將觸覺感知融入機器人學習范式的框架,涵蓋從開發到部署的全過程,并通過ReSkin——一種多功能且可擴展的磁性觸覺傳感器為實例。通過探討ReSkin的設計、集成、策略學習和表示學習,本文旨在為機器人學習中有效的感知系統的實現提供指導。我們首先提出ReSkin——一個低成本、緊湊且多樣化的觸覺感知平臺。我們開發了一種自監督學習技術,使得傳感器具備可替換性,通過適應已學習的模型推廣到新的傳感器實例。接下來,我們在靈巧操作的背景下研究了ReSkin的可擴展性:我們引入了D'Manus,一個廉價、模塊化且堅固的平臺,集成了大面積的ReSkin傳感,旨在滿足機器人學習的大規模數據收集需求。基于ReSkin和D'Manus的開發經驗,我們提出了AnySkin——一種專為機器人學習設計的升級版傳感器,它進一步減少了不同傳感器實例之間的響應差異。AnySkin的集成簡單如同給手機戴上手機殼,無需粘附,并表現出更一致的信號。我們將AnySkin部署在精確操控的策略學習場景中,展示了在補充相機信息后任務性能的提升,并實現了跨傳感器實例的零樣本策略遷移。除了傳感器的設計和部署,我們還探索了包括但不限于ReSkin在內的傳感器的表示學習。傳感數據通常是連續的、序列性的,但大多數現有的序列架構研究(如LSTM和Transformer)主要集中在離散模態,如文本和DNA。為填補這一空白,我們提出了分層狀態空間模型(HiSS),一種概念上簡單的新型連續序列到序列預測(CSP)方法。HiSS通過在時間軸上疊加結構化的狀態空間模型來創建層次結構,并且在現有的序列模型(如因果Transformer、LSTM、S4和Mamba)中表現優異。此外,我們引入了CSP-Bench,一個來自真實感知數據的CSP任務新基準。CSP-Bench旨在解決CSP任務中缺乏真實世界數據集的問題,為從事該領域研究的學者提供了寶貴的資源。最后,我們總結了從ReSkin的開發到部署過程中的經驗教訓,并提出了將觸覺感知帶入主流機器人研究中的潛在方向。

引言

傳感設備在幫助機器人有效理解和響應其周圍環境中起著至關重要的作用。其中,觸覺傳感器尤為重要,因為它們為機器人提供了類似于人類的觸覺感知,使其能夠精確地處理物體、檢測障礙物或危險、調整對物體的握力,并有效操縱環境。盡管這一領域多年來取得了顯著進展,但目前仍缺乏一種普遍適用的機器人觸覺感知解決方案。這主要是由于開發、集成和從觸覺傳感器中學習的復雜多步驟過程——每個步驟都面臨著一系列挑戰。本文通過ReSkin——一種專注于耐用性、可擴展性和適用于機器人學習應用的魯棒性磁性觸覺傳感器,提出了一種應對這些挑戰的方案。

1.1 機器人觸覺傳感器

人類靈活性的關鍵在于觸覺反饋 [77, 78, 79],這一點長期以來激發了對機器人觸覺傳感器的廣泛研究,始于機器人學的早期 [67, 91]。多年來,微型化和快速原型制作加速了基于各種換能技術的觸覺傳感器的發展 [52]。電阻式 [128, 147] 和壓阻式 [12, 129] 傳感器通過材料在兩個電極之間的變形引起電阻的變化來測量施加的壓力。電容式傳感器 [53, 133] 類似地依賴于測量傳感器變形引起的電容變化來捕捉交互特性。最近,使用相機與彈性體材料相結合的光學傳感器 [40, 90, 146, 152] 通過一系列彈性體變形的圖像捕捉物理交互,成為一種高分辨率的觸覺感知替代方案。其他解決方案則使用MEMS設備 [105, 132] 和壓電材料 [36, 159] 作為記錄物理接觸信息的換能機制。然而,這些傳感方案中的許多存在缺陷,阻礙了它們在機器人領域的普及。除了光學傳感器外,每種傳感技術都需要電路與軟性彈性體之間的直接電氣連接。盡管軟性彈性體的集成在一定程度上提升了觸覺傳感器的接觸適應性,這種非預期的耦合增加了成本并使集成過程變得復雜。光學傳感器通過將傳感電子元件(相機)與傳感界面(彈性體)分離,克服了這一難題,但它們需要相機和彈性體之間有清晰的視線,嚴重限制了其形狀因素并增加了設計復雜性。此外,由于彈性體界面的柔軟性,彈性體比相關電子元件老化更快,需要頻繁更換。然而,傳感器的可替換性和一致的傳感響應,這些在軟性傳感器背景下很少被討論。此外,軟性傳感器復雜的制造程序使其難以規模化生產,并增加了傳感器實例間的響應差異。鑒于這些不足,本文的重點是使用磁性彈性體進行觸覺感知 [69, 70]。磁性換能的使用使ReSkin的電路與作為傳感界面的磁性彈性體完全獨立分離。這使我們的傳感器具有低成本、可擴展性和靈活的形狀因素等優勢,能夠適應不同形狀和大小的表面。我們的制造過程簡單且可重復,從而減少了不同磁性彈性體皮膚實例之間的響應差異,最小化了彈性體更換帶來的干擾,強化了其作為通用機器人觸覺傳感器的適用性。

1.2 觸覺感知與機器人手

類似于觸覺感知,人手的多功能性長期以來激勵了許多關于仿人手能力的機器人手研究 [10, 89, 103]。構建這些設備的復雜性導致當代許多解決方案,如Shadow Hand [82, 139] 和Allegro Hand(Wonik Robotics),價格極為昂貴(超過$25,000)、易碎且難以維修。這些缺點與數據驅動機器人的需求相悖,數據驅動機器人依賴大量數據,這反過來要求硬件廉價且能夠應對大規模數據采集的各種挑戰。LEAP Hand [124] 和Trifinger Hand [151] 等解決方案試圖通過創建廉價、通用且易于組裝的機器人手來填補這一空白。然而,盡管觸覺感知被廣泛認為是人類靈活性的核心 [78, 79],但這些解決方案中沒有一個能夠以合理的價格(<$50,000)提供可擴展的觸覺感知集成。D'Manus——一個開源的手部設計,集成了大面積的觸覺傳感,填補了機器人手部觸覺感知領域的這一關鍵空缺。此外,該手完全可以3D打印,具有輔助靈活性的手掌功能,不同于其他設計 [2, 151],還具備其他商業手部設計中沒有的關鍵功能,如內收和外展能力,并且比大多數商用替代品便宜至少10倍。

1.3 深度學習與傳感器

許多現實世界的控制系統,如風力渦輪機狀態監測 [130]、MRI識別 [84] 和慣性里程計 [4, 98],通常通過處理噪聲傳感數據來推斷環境狀態。傳統的傳感器響應建模主要依賴于分析技術來建模原始測量量(如電阻、電容、磁通)與感興趣量(如力、扭矩、慣性測量)之間的關系 [96, 120]。雖然分析建模在將測得的換能量映射為可解釋的量(如力或接觸位置)方面很有用,但它通常復雜且/或需要嚴格的假設,這些假設無法完全模擬傳感器的行為 [61]。有限元分析等計算技術 [97] 盡管有效,但速度極慢,限制了傳感器在實時環境中的應用。快速原型和制造技術的進步加快了傳感器開發的速度和多樣性,同時也催生了對間接建模技術的需求,這些技術能夠實現這些傳感器的實時部署。機器學習為解決這一問題提供了一種可行的方案,通過無需明確建模驅動換能機制的復雜物理現象來實現隱式傳感器建模 [32, 75]。盡管在視覺和語言方面的深度學習研究展示了跨任務的強大能力 [1, 41],在傳感數據上的有效機器學習模型仍然寥寥無幾 [86, 154]。盡管某些深度學習解決方案在傳感數據上顯示了令人鼓舞的結果,但它們仍然是針對特定傳感器的研究 [71, 153]。傳感學習中存在的兩難局面導致了這一現象:缺乏統一、標記化的傳感數據集,進而導致缺乏處理傳感數據的神經架構研究,從而缺乏對傳感系統能力的理解,而這本應促使更多數據的收集。為解決這一問題,我們提出了一個兩部分的解決方案:CSP-Bench——一個由六個連續序列預測任務組成的基準數據集,以及分層狀態空間模型(HiSS)——一種擅長對連續傳感數據進行序列推理的神經架構,基于在結構化狀態空間模型(如S4和Mamba)中引入時間層次。我們借鑒了視覺和語言領域的成功案例 [85],這些研究展示了在基于學習的推理中,審慎的神經架構選擇和歸納偏差的重要性。我們展示了在跨三種不同傳感器的六項傳感預測任務中,HiSS相較于傳統序列建模架構(如因果Transformer、LSTM、S4和Mamba)表現出色。

1.4 多模態策略學習

隨著機器人學家解決機器人在非結構化環境中操作的問題,特別是隨著深度學習的興起,機器人學習成為一種極具前景的解決方案。集成了最前沿的神經架構 [68, 117, 142] 與密度估計 [30, 93] 和模仿學習算法的技術,使得抓取 [161]、操作關節物體 [42, 107] 以及雙手操作 [162] 的能力得以實現。然而,與本章的持續主題保持一致,集成觸覺感知的機器人學習模型顯著稀缺。對需要對與環境的物理交互進行推理的復雜精確技能學習的分析大多局限于模擬 [28, 92],幾乎沒有討論如何將這些策略遷移到現實世界。替代方法通常涉及復雜、不現實的攝像機設置,以規避缺乏觸覺感知的問題 [3, 5]。本文對融合視覺和觸覺傳感數據的多模態策略學習進行了控制研究,并交叉驗證了所有可用模態在學習有效機器人策略中的重要性和有效性。

1.5 論文大綱

本文其余部分的結構如下:第二章介紹ReSkin——一種磁性觸覺皮膚,它的能力以及學習傳感器模型的潛力;第三章介紹D'Manus——一種開源的集成大面積感知的靈巧手設計;第四章介紹升級版的自粘式傳感器皮膚設計,并展示其在策略學習中的可替換性;第五章討論了一個新的基準數據集和一種針對觸覺及其他傳感數據的序列建模的新型學習架構。我們在第六章總結了主要經驗教訓并探討了未來的研究方向。

付費5元查看完整內容

AlphaGo和ChatGPT可能是過去十年中人工智能領域最重要的兩項突破。這些技術得益于在序列決策(例如,規劃、搜索和強化學習)以及基礎模型(例如,基于互聯網數據訓練的語言和視頻生成模型)方面的研究。本論文提出了在現實世界決策任務背景下,利用具有廣泛知識的基礎模型的新技術、算法和框架,這些研究將影響對話代理的構建、機器人控制和科學發現等應用。本論文從離線環境中的傳統決策制定開始,逐步通過表示學習和生成建模引入更廣泛的互聯網規模數據。論文強調了理論基礎與實際應用的結合。本論文的主要貢獻包括離線強化學習的算法進步、面向決策制定的表示學習改進、作為強化學習替代的全新生成建模技術,以及基于互聯網規模的生成代理和生成模擬器,所有這些都旨在增強基礎模型的決策能力,并使之相輔相成。通過廣泛的實證和理論分析,本論文表明,基礎模型在得到適當利用時,可以顯著提高決策任務的效果。這些發現為將機器學習模型與現實世界應用整合提供了新的方向,為更智能、適應性更強、效率更高的系統鋪平了道路。 在過去的十年中,人工智能(AI)領域的兩項重要突破包括2016年人工智能圍棋玩家AlphaGo擊敗人類選手李世乭 [21],以及2022年部署的人工智能聊天機器人ChatGPT [22]。這些技術進步得益于在序列決策和基礎模型方面的研究。在序列決策中,目標是讓計算機(代理)自動決定一系列動作(例如,在哪里放置圍棋子),并且讓計算機基于來自環境的反饋(例如圍棋比賽的結果)自動改進這些決策。機器學習在序列決策中的方法涉及訓練決策策略,即基于當前觀測(例如圍棋棋盤)選擇動作的策略,通過試驗和錯誤的方式進行訓練。這種方法在環境支持無限訪問的游戲場景中表現良好,但在現實世界中超越游戲場景的規模時卻難以實現,因為在現實環境中無限訪問是不切實際的。即使在游戲場景中,先前在序列決策中的工作大多集中在任務特定或“白板”設置中,缺乏先驗知識 [23]。因此,先前的序列決策工作在泛化和樣本效率方面通常表現不佳,例如解決單個Atari游戲需要7個GPU天的交互游戲時間 [24]。 最近,基礎模型(定義為使用自監督學習在大規模數據上訓練的大型機器學習模型 [25])在互聯網上的大量數據上進行了訓練。例如,自回歸語言模型 [26, 27]通過從互聯網抓取的文本數據來預測給定前述單詞(標記)后的下一個單詞(標記)。類似地,視頻生成模型 [28, 29]通過從互聯網抓取的視頻數據,在給定語言輸入和/或前述幀的情況下,預測下一幀。因此,這些模型能夠生成高度逼真的自然語言和視頻。然而,模仿互聯網內容并不是這些模型的最終目標。這些模型的最終目標是解決現實世界中的任務,如回答人們的問題和模擬現實世界的交互。為了實現這一目標,這些模型生成的內容必須由人類控制。如何引導這些模型根據用戶反饋生成理想的內容,以及如何使這些模型做出一系列決策以完成某些復雜任務(例如構建網站),是序列決策的核心問題。將基礎模型研究和序列決策研究結合起來具有巨大的優勢。一方面,基礎模型中的廣泛知識可以提高決策算法的樣本效率和泛化能力。另一方面,決策算法可以對原本與任務無關的基礎模型進行任務特定的優化。本論文研究了基礎模型在決策制定中的技術、框架和算法,并展示了如何將基礎模型中的廣泛知識有效轉化為任務特定的決策,以更好地解決廣泛的問題和應用。 本論文通過從傳統的決策制定技術開始,研究在離線數據集設置下的基礎模型在決策制定中的應用,隨后逐步引入更廣泛的數據,最終整合互聯網規模的視覺和語言數據。我們將對利用基礎模型解決序列決策問題的理論方面和實際應用方面給予高度關注。本論文的工作基于先前關于序列決策的研究思想,但新提出的方法展示了更高的全面性和可擴展性。 本章的其余部分組織如下。第1.1節介紹了基礎模型,這是一種在互聯網規模數據上訓練的機器學習模型。本節討論了訓練基礎模型的常見技術,包括表示學習和生成建模。隨后描述了基礎模型的局限性,包括指令遵循、長時間推理、多步驟規劃和多模態處理。然后概述了本論文如何通過結合決策制定技術來應對其中的一些挑戰。第1.2節描述了序列決策的典型設置和常見的決策制定算法,包括模仿學習、強化學習、搜索和規劃。接下來,本節重點介紹了序列決策的主要瓶頸,包括樣本效率和缺乏良好的視覺和文本表示。最后,簡要介紹了本論文如何通過結合基礎模型來應對這些挑戰。第1.3節闡述了本論文的貢獻,并總結了其結構。

付費5元查看完整內容

本論文將因果關系與表示學習的思想結合在一起。因果模型通過描述每個變量受其直接原因影響的機制,提供了對復雜系統的豐富描述。因果模型支持對系統部分進行操作的推理,捕捉各種干預分布,從而有望解決人工智能(AI)的一些開放性挑戰,如規劃、在變化環境中的知識遷移或對分布變化的魯棒性。然而,因果模型在AI中更廣泛應用的一個關鍵障礙是需要預先指定相關變量,而這通常不適用于現代AI系統處理的高維、非結構化數據。同時,機器學習(ML)在自動提取此類復雜數據的有用和緊湊表示方面非常成功。因果表示學習(CRL)旨在通過學習具有因果模型語義的潛變量表示,結合ML和因果關系的核心優勢。在本論文中,我們研究并提出了不同CRL設置的新結果。一個核心主題是可識別性的問題:給定無限數據,何時保證滿足相同學習目標的表示是等價的?這可以說是CRL的重要先決條件,因為它正式表明了一個學習任務在原則上是否可行。由于學習因果模型——即使沒有表示學習成分——是出了名的困難,我們需要在模型類或豐富數據上超越經典的獨立同分布(i.i.d.)設置進行額外的假設。對于從i.i.d.數據中進行無監督表示學習,我們開發了獨立機制分析,這是一種對映射潛在變量到觀察變量的混合函數的約束,已證明可以促進獨立潛在變量的可識別性。對于從非獨立觀測對中學習的多視圖設置,我們證明了始終在視圖間共享的不變潛在塊是可識別的。最后,對于從單節點完美干預產生的非同分布數據集中學習的多環境設置,我們表明潛在變量及其因果圖是可識別的。通過研究和部分描述不同設置下的可識別性,本論文探討了在沒有直接監督的情況下,CRL的可能性和不可能性,從而為其理論基礎做出貢獻。理想情況下,所發展的見解可以幫助指導數據收集實踐,或激發新實用估計方法和算法的設計。

付費5元查看完整內容

動態穩定移動操縱器的使用正從受控研究實驗室擴展到真實世界。然而,自主操縱技能仍然專門用于單一任務,并且只能處理對象物理屬性的有限變化,這阻礙了機器人在非結構化人類環境中的部署。本論文關注于動態穩定移動操縱器的整體運動規劃和控制,以及為控制器提供實時適應由于與物體交互而引起的機器人動力學變化。

動態穩定移動操縱器,即配備機器人手臂的積極平衡移動機器人,在為人類設計的環境中工作潛力非常大。然而,它們的靈活性和順應性需要高控制復雜性。傳統的控制策略將移動和操縱問題分別處理,需要額外的啟發式方法來實現整體協調。此外,基于逆動力學的控制器不考慮系統未來的演變,這對平衡控制至關重要。另一方面,在本論文中,我們提出了一種基于模型預測控制(MPC)的整體運動規劃和控制公式。我們的方法利用了完整的機器人動力學,并共同優化平衡、基座追蹤、末端執行器追蹤和環境交互。我們在一個球平衡操縱器的廣泛實驗中驗證了所提出的整體MPC控制器。

當機器人動力學不準確或操縱新物體時,模型不確定性可能嚴重影響MPC的性能和通用性。為了解決這個問題,我們提出了兩種在線適應方案,用于MPC系統動力學中的物體參數,我們在一個球平衡操縱器的開門和舉起物體任務中展示了這一點。盡管我們最初將外部環境建模為線性系統,但對于更復雜的操縱任務或機器人動力學中的不確定性,需要更具描述性的表示。因此,我們提出將模型誤差近似為三角函數基函數的線性組合。假設當機器人執行類似操縱任務時,動力學的基本結構不會發生顯著變化,我們從相關實驗中收集的數據學習基函數的超參數,例如,讓機器人打開具有不同剛度系數的門。執行新任務時,基函數的超參數保持不變,而線性參數在線適應。我們在仿真和硬件實驗中測試了得到的多任務學習MPC控制器,并與其他自適應MPC控制器進行了廣泛比較。

最后,為了在參數不確定性下獲得更好的跟蹤性能,我們將機器人操縱器自適應控制中導出的控制Lyapunov函數(CLF)約束納入最優控制問題的不等式集合中。因此,我們獲得了一種結合了CLFs和MPC優勢的自適應控制器,在機器人與未知物體交互時提供了改進的性能,并減少了對MPC預測范圍調整的依賴。我們通過與幾個基線的比較展示了所提方法的優勢,并在一個四足機器人搬運磚塊和拖拽重箱的硬件測試中驗證了它。

付費5元查看完整內容

雷達在惡劣條件下以及遠程的感測能力使其成為移動機器人應用中視覺和激光雷達的有價值的替代品。然而,雷達復雜、與場景相關的感測過程和顯著的噪聲缺陷使得使用雷達具有挑戰性。超越迄今為止文獻中占主導地位的經典基于規則的方法,本論文探討了在機器人學的一系列任務中深入且數據驅動的解決方案。

首先,開發了一種深度方法,用于將原始傳感器測量映射到占用概率的網格地圖,其性能顯著超越了經典的過濾方法。捕捉到占用狀態的分布,此外還允許識別和管理預測中的不確定性。該方法完全使用從激光雷達自動生成的部分標簽進行訓練,無需手動標記。

接下來,提出了一個深度模型,用于從模擬的高程圖生成隨機雷達測量值。該模型通過學習前向和后向過程來進行訓練,結合使用對抗性和周期性一致性約束與部分對齊損失,使用激光雷達生成的標簽。通過忠實地復制雷達的感測過程,可以使用在模擬中容易獲得的標簽,為下游任務訓練新模型。在這種情況下,模擬雷達測量值上訓練的分割模型在真實世界中部署時,其性能接近完全在真實世界測量值上訓練的模型。

最后,探討了應用于雷達測距任務的深度方法的潛力。學習的特征空間與經典的相關掃描匹配過程相結合,并針對姿態預測進行優化,使得所提出的方法在性能上顯著超越了之前的最新技術。通過概率性的考慮,姿態的不確定性也得到了成功的描述。在此成功的基礎上,利用傅里葉變換的性質分離了平移和角度的搜索。結果顯示,這種解耦搜索在運行時間性能上有了顯著的提升,使得該方法可以在CPU和嵌入式設備上實時運行,同時仍與文獻中提出的其他雷達測距方法保持競爭力。

付費5元查看完整內容
北京阿比特科技有限公司